对于robots.txt的支持程度 |
发布时间: 2012/9/23 15:44:30 |
全部分析可能也不现实,这里拿Disallow: /*?*分析(禁止动态页面抓取)。
google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了,如下图: 百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。 搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西,如下图: 搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。 本文出自:亿恩科技【www.enkj.com】 |