百度蜘蛛也就是Baiduspider,其实百度蜘蛛是一种程序,夜以继日得在互联网上找寻新的URL,这种程序可以抓取互联网上数以亿计的网页,接着抓取URL上的内容,返回到百度的网页暂存数据库。
百度蜘蛛(Baiduspider)是什么?
百度蜘蛛也就是Baiduspider,其实百度蜘蛛是一种程序,夜以继日得在互联网上找寻新的URL,这种程序可以抓取互联网上数以亿计的网页,接着抓取URL上的内容,返回到百度的网页暂存数据库。百度的收录也是通过百度蜘蛛这种程序去抓取完成的。
百度蜘蛛分为很多种,每种蜘蛛的功能都不一样,其中Baiduspider是用来抓取网页内容的程序,抓取其他内容的蜘蛛,则是新的名字:
产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
不少朋友会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro,现在我们明白它是百度联盟蜘蛛,用以百度联盟程序匹配相应的广告。
百度蜘蛛抓取规则
(1)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。
(2)深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好
河南亿恩科技股份有限公司(www.enkj.com)始创于2000年,专注服务器托管租用,是国家工信部认定的综合电信服务运营商。亿恩为近五十万的用户提供服务器托管、服务器租用、机柜租用、云服务器、网站建设、网站托管等网络基础服务,另有网总管、名片侠网络推广服务,使得客户不断的获得更大的收益。
服务器/云主机 24小时售后服务电话:
0371-60135900
虚拟主机/智能建站 24小时售后服务电话:
0371-55621053
网络版权侵权举报电话:
0371-60135995
服务热线:
0371-60135900