百度是否支持“Crawl-delay” |
发布时间: 2012/9/15 14:58:09 |
Crawl-delay 可能很多做小站的朋友不了解, 如果拥有大站的朋友可能用到过、但是超级牛站、比如新浪、我想就不会去考虑这个问题了。Crawl-delay 是Robots.txt中一个设置“蜘蛛”降低抓取频度的参数,而很多大站可能由于被搜索引擎抓取频繁加上用户访问流量过大,导致页面加载慢(就是我们说的有点卡)。
而目前对于也只有YAHOO公开代表支持这个参数,具体可以参考:如何控制Yahoo! Slurp蜘蛛的抓取频度
具体设置:
---------------------------
User-agent: *
Crawl-delay: 10
案例:http://www.blogbus.com/robots.txt (博客大巴)
而其它搜索引擎、目前还没对这个参数进行表明,不过通过各种数据来解释、百度及谷歌应该不会对这种参考过于说明! 因为他们很早就已经考虑到这个问题。其中"百度站长俱乐部" 就LEE就说明:
问:蜘蛛大量抓取页面导致服务器出现负载问题
答:会延迟百度对新网页的收录速度。
正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。
我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。
具体参考:http://tieba.baidu.com/club/9374916/p/7587693
其实LEE这里说明一个问题用robots可以禁止垃圾页面/无效页面(也就是说、我们可以通过IIS日志去分析、网站中抓取频率最高、而又无用的页面,并进行屏蔽)但是这样做只是为了增大收录想被收录页面的机遇、同样没有解决抓取频率过高问题。 可能我没有这种大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用网站增大收录量、同样有效的控制蜘蛛返回码、同样可以使网站被K。
------------------------------------
10月10号补充:
问:百度是否支持User-agent: Slurp
本文出自:亿恩科技【www.enkj.com】 |