TF-IDF |
发布时间: 2012/8/4 15:25:35 |
TF-IDF算法已经被很多专业的SEO工作者所熟知,它是一种用于资讯检索与资讯探勘的常用加权技术,运用到网页分析中就是对于网页中的相关关键词进行加权,分析众多网页中某个特定关键词的相关网页关键词权值,并在最后的排序算法中给予科学的依据。 首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。为什么要分析这个公式呢?因为一个网页的TF-IDF值越大,网页中文本内容与索引词越相关,其能够在搜索引擎上获得的权值就越高,对于后期的网页的排序能够提供很大的支持。 TF*IDF中TF词频(Term Frequency),表示词条在某个文档中出现的频率,而IDF反文档频率(Inverse Document Frequency)表示如果包含词条t的文档个数越少,IDF越大,则说明词条t具有很好的类别区分能力,用公式表示IDF可以写为:IDF(t) = log(N / DF(t))。DF(t)表示包含有某个搜索词(以t为代表)的文档数,N表示互联网的总网页数。 看这些概念很难理解透彻,给大家举一个例子,大家就能够很好地明白了。 利用TF-IDF解释“SEO诊断”排名现象 例如“SEO诊断”这个关键词的网页排序,我们查排名前十中三个网站关于这个词相关词语的一些词频展现分析: 排在第二的是站长网的SEO诊断,他们的“SEO”和“诊断”的词频分别是41和46,“SEO诊断”的词频是20; 排在第三的网站是长沙的一家公司,他们的“SEO”和“诊断”的词频分别是12和4,“SEO诊断”的词频是1; 我的细嗅蔷薇博客排名排名第十,网站中“SEO”词频最高,达到84,“诊断”的词频是7,“SEO诊断”的词频是4。 搜索查看有关于“SEO诊断”的页面约1,530,000个,“SEO”和“诊断”是百度上限约100,000,000个,取N=10000亿。所以三个网页三个关键词的TF*IDF值做下面的计算: 1、先计算三个词的IDF值: SEO:IDF= log(N / DF(t))= log(10000/1)=4 诊断:IDF= log(N / DF(t))= log(10000/1)=4 SEO诊断:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6 2、计算三个词的TF值: 三站的关键词SEO的TF值: 长沙:TF= log(TF(t,d))= log12≈1.1 站长网:TF= log(TF(t,d))= log41≈1.64 细嗅蔷薇:TF= log(TF(t,d))= log84≈1.92 三站的关键词诊断的TF值: 长沙:TF= log(TF(t,d))= log4≈0.63 站长网:TF= log(TF(t,d))= log46≈1.68 细嗅蔷薇:TF= log(TF(t,d))= log7≈0.84 三站的关键词SEO诊断的TF值: 长沙:TF= log(TF(t,d))= log1=0 站长网:TF= log(TF(t,d))= log20≈1.45 细嗅蔷薇:TF= log(TF(t,d))= log4≈0.63 3、三个站三个词的TF*IDF值为: TF*IDF值SEO诊断SEO诊断 长沙站5.13.521 站长网7.567.729.7 细嗅蔷薇8.684.464.78 从上面的表格中我们可以清晰的看出,我的博客“SEO”的TF*IDF值最高,站长网的“诊断”和“SEO诊断”TF*IDF值最高。 如果单纯从TF*IDF值计算出来的相关性来讲,“SEO诊断”这个词的排名站长网的相关性是最高的,应该获得更好的排名,我的博客排名应该在两者之间(前天的排名的确在两者之间),长沙站应该在最后,但是和实际的结果看来是有一定的差距的。这说明网站网页排名的因素还有其他的一些比较重要的因素,例如网站整体权重,单个网页权重和质量,外部链接,和用户的交互(即用户体验),这些都是我们需要考虑的。 另外,同一个网站相比较来看TF*IDF值,长沙站和我的细嗅蔷薇博客要提升排名,对于关键词“SEO”排名的要求就比较高,“SEO”排名起决定性作用,而站长网中“SEO诊断”的排名起到决定性的作用,关键词“SEO”排名对于其排名波动影响要小。这一点有一定的根据,例如前天我的博客“SEO诊断”排名第三,当时“SEO”关键词排名第十页,现在掉到了23页,排名就下降到第十,所以多运用TF*IDF研究能够帮助我们发现很多关键词排名现象,并针对性的制定SEO优化策略。 本文出自:亿恩科技【www.enkj.com】 |