Google基于HillTop算法的更新【相关性网站判断】 |
发布时间: 2012/9/15 14:45:47 |
HillTop ,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。
其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“SEO培训”的,有10个链接都是从“SEO培训”相关的网站链接过来,那这10个链接比另外10个从“网站优化”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。
Google应用新算法背后的原因
==========================
在1998年Google刚刚开始的时候,PR在决定适当程度与重要性方面起到了一个非常完美的作用。尽管如此,PR算法在设计上还是存在了一些脆弱性与限制性。Google在很早以前也就知道了。
HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google的排名规则而得到较好排名的做法,而在HillTop的论文中也提到很多关于识别“网站链接交换联盟”的设计:如根据IPv4地址的头3段,根据域名的别名推测:example.com = example.com.cn;
PR值对于搜索关键词的匹配度作用不大:因为在很多包含相应关键词的非相关主题的网站具有很高的PR值。这就是Google在HillTop算法中尽量避免的东西:应该尽其所能去列出与搜索关键词相关的结果。
总得看来,从过去到今天,很多搜索引擎停止了那种只使用一种有价值的算法去决定排名的做法。如:meta keyword标签等。这只是一个开始,Google在第一步已经完全忽略html header中的meta标签了。与不可见的meta标签相比,一个网站的可视部分使用干扰技术较在meta使用的要少,因为可视部分毕竟还要面对大部分的实际的访问者。
专家文档的动态智能识别
======================
基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从目前的观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。在运行时:Google会在庞大的内存里储存搜索频率比较高的关键词的索引,以备搜索者在短期内继续用同样的关键字短语等进行搜索。这些高频关键词还有另外一种作用,在“搜索引擎”更新之前很多人已经注意到的了:含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:"SARS",每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。
回头看一下以前每个月的“Google Dance”,也能得出以下的结论:Google也明显地为一个关键词给予一个随机的“权重”,动态的根据关键词查询统计发现这些热门关键词,然后基于HillTop算法面向主题地找到这些含有热门关键词的网页,让这些网页作为相应关键词的“专家”文档,针对这些索引入口保持比较高的更新频率:这点显然对于应对突发事件非常有效。而那些含有查询频率比较低的关键词所对应的网页可能要1月才更新一次。简单的说就是:Google会根据主题的热门程度动态调整相应网站的索引的强度。而Google中文用户在总体用户中的比例与Google索引的中文网页在索引的总体网页中的比例,从某种程度上说,也是有一定关系的。
本文出自:亿恩科技【www.enkj.com】 |