SEO诊断:透过Log日志找到网站死结 |
发布时间: 2012/9/19 18:12:09 |
前几天和一位朋友聊天,互相交换了下对8月末百度算法更新的一些看法。结束的时候朋友让我帮他分析一下他的新站,网站的问题是快照停留在8月15日,并且快20天百度没有收录新内容。
从简单的交谈得知,网站上线2个月,每日坚持更新原创内容和外链。自打百度收录后,文章隔天收录,长尾词排名也不错。但是8月19日快照回档到 815后,快照再未更新过。通过分析这个站的整体结构和内容,发现整站结构清晰明了,并没有严重的结构上的问题,文章内容图文并茂,写的也不错,而且长尾 词排名确实不错,这对一个新站来说做的很不错。
为什么快照不更新,新内容不再收录?难道是百度自身的问题,还是有其他“肉眼”看不到的症结?这个时候想起了日志分析,有的时候只有透过内在看问题。
从朋友处要来了前一天的网站LOG日志,下图是日志分析工具得出来的蜘蛛概要截图。从图上我们可以看到三大主流搜索引擎的蜘蛛访问次数、停留时间和总抓取量等信息。
朋友这个站属于一个新站,外链不多,整个网站的资讯量也不是很大。依据个人的经验分析,蜘蛛单次抓取量(总抓取量÷访问次数)达到80-100已经算是一个非常不错的数字了。缘何网站的新内容不收录?
第二步,来看看网站目录的抓取情况。下图是截取了三大主流蜘蛛目录抓取Top3目录的一个截图,从图上我们可以看到图上的archiver目录的抓取量远远超过于其他的网站目录。这个数据让我有点不安心了。
从朋友的网站了解到,这是一个每日归档目录,从图上我们可以看到的是2010年09月05日返回的当日发布内容为空(朋友这个站建站才2个多月)。
通过站长工具可以看到,该URL返回的是200状态码。此时心理大概有个底了,蜘蛛在这个目录的爬行一定遇到了困难。
为了验证自己的判断,通过Editplus打开了LOG文件,不出所料几大蜘蛛在抓取archive目录时陷入了死胡同。
症结找到了,接下来就是如何处理这个问题。由于这个文档归档功能是朋友购买的一款插件,所以朋友还是希望能够保留这个每日归档栏目,毕竟钱花了得用 到实处,不求该栏目能带来流量但却是个有益的补充。刚开始考虑通过NOFOLLOW来屏蔽蜘蛛爬取,但是想来想去还是不妥,毕竟已经收录的页面还是给了蜘 蛛爬行的余地,又会出现文中所说的死循环。
最后,给了朋友两条建议:
1、联系插件开发者修复此BUG;
2、删除整个archive目录返回404状态码,并且在robots中屏蔽archive目录;
整个的诊断过程就是这样。很多时候当我们网站出现问题的时候,请不妨打开你的网站LOG日志,仔细对比并分析里面的数据,将会对你找到问题的所在有很大的帮助。 本文出自:亿恩科技【www.enkj.com】 |