文章内容

百度是否支持“Crawl-delay”

发布时间: 2012/9/15 14:58:09

　Crawl-delay 可能很多做小站的朋友不了解，如果拥有大站的朋友可能用到过、但是超级牛站、比如新浪、我想就不会去考虑这个问题了。Crawl-delay 是Robots.txt中一个设置“蜘蛛”降低抓取频度的参数，而很多大站可能由于被搜索引擎抓取频繁加上用户访问流量过大，导致页面加载慢(就是我们说的有点卡)。

　　而目前对于也只有YAHOO公开代表支持这个参数，具体可以参考：如何控制Yahoo! Slurp蜘蛛的抓取频度

　　具体设置：

　　---------------------------

　　User-agent: *

　　Crawl-delay: 10

案例：http://www.blogbus.com/robots.txt (博客大巴)

　　而其它搜索引擎、目前还没对这个参数进行表明，不过通过各种数据来解释、百度及谷歌应该不会对这种参考过于说明! 因为他们很早就已经考虑到这个问题。其中"百度站长俱乐部" 就LEE就说明：

　　问：蜘蛛大量抓取页面导致服务器出现负载问题

　　答：会延迟百度对新网页的收录速度。

　　正常情况下，Baiduspider的抓取频率大致上和网站新资源产生的速度相符，并不会给网站带来很大的压力。但现在网站结构通常都比较复杂，多种url形式指向的可能是相同的内容，或者会自动产生大量无检索价值的网页。

　　我们目前发现的问题，主要来源于此，建议先分析一下spider的抓取日志，看看是否抓取了你不希望搜索引擎收录的形式，如果有，robots掉它们可以节省大量的资源。

　　具体参考：http://tieba.baidu.com/club/9374916/p/7587693

其实LEE这里说明一个问题用robots可以禁止垃圾页面/无效页面（也就是说、我们可以通过IIS日志去分析、网站中抓取频率最高、而又无用的页面，并进行屏蔽）但是这样做只是为了增大收录想被收录页面的机遇、同样没有解决抓取频率过高问题。可能我没有这种大站，但是DJ小向知道有效的控制蜘蛛抓取、可以使用网站增大收录量、同样有效的控制蜘蛛返回码、同样可以使网站被K。

------------------------------------

　　10月10号补充：

　　问：百度是否支持User-agent: Slurp

回：可以在robots中的crawl-delay中设置，这个参数是baidu spider对网站访问频率的重要参考信息之一，但spider系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力，因此并不保证严格遵守crawl-delay中的设置值。
本文出自：亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强！虚拟主机域名注册顶级提供商！15年品质保障！--亿恩科技[ENKJ.COM]

上一篇 >> 百度及谷歌搜索引擎优化初学者指南
下一篇 >> “二次搜索”页面解决方式

服务器租用

服务器托管

机柜批发

云服务器

建站侠

空间/域名

安全保姆

帮助类别

帮助中心

文章内容

百度是否支持“Crawl-delay”

同类文章

亿恩公告

在线客服