亿恩科技有限公司旗下门户资讯平台!
服务器租用 4元建网站

百度蜘蛛是什么?百度蜘蛛抓取规则

百度蜘蛛也就是Baiduspider,其实百度蜘蛛是一种程序,夜以继日得在互联网上找寻新的URL,这种程序可以抓取互联网上数以亿计的网页,接着抓取URL上的内容,返回到百度的网页暂存数据库。

百度蜘蛛(Baiduspider)是什么?

百度蜘蛛也就是Baiduspider,其实百度蜘蛛是一种程序,夜以继日得在互联网上找寻新的URL,这种程序可以抓取互联网上数以亿计的网页,接着抓取URL上的内容,返回到百度的网页暂存数据库。百度的收录也是通过百度蜘蛛这种程序去抓取完成的。

百度蜘蛛分为很多种,每种蜘蛛的功能都不一样,其中Baiduspider是用来抓取网页内容的程序,抓取其他内容的蜘蛛,则是新的名字:

  产品名称                 对应user-agent

  网页搜索                Baiduspider

  无线搜索                Baiduspider-mobile

  图片搜索                Baiduspider-image

  视频搜索                Baiduspider-video

  新闻搜索                Baiduspider-news

  百度搜藏                Baiduspider-favo

  百度联盟                Baiduspider-cpro

不少朋友会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro,现在我们明白它是百度联盟蜘蛛,用以百度联盟程序匹配相应的广告。

百度蜘蛛抓取规则

(1)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。

(2)深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好

河南亿恩科技股份有限公司(www.enkj.com)始创于2000年,专注服务器托管租用,是国家工信部认定的综合电信服务运营商。亿恩为近五十万的用户提供服务器托管、服务器租用、机柜租用、云服务器、网站建设、网站托管等网络基础服务,另有网总管、名片侠网络推广服务,使得客户不断的获得更大的收益。
服务器/云主机 24小时售后服务电话:0371-60135900
虚拟主机/智能建站 24小时售后服务电话:0371-55621053
网络版权侵权举报电话:0371-60135995
服务热线:0371-60135900

标签 百度蜘蛛
1
3
分享到:责任编辑:黄利敏

相关推介

共有:0条评论网友评论:

验证码 看不清换一张 换一张

亲,还没评论呢!速度抢沙发吧!