始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

尽可能的节省爬虫的抓取时间

发布时间:  2012/7/29 23:57:12
    好几天没有更新文章了,不知道该写一些什么了。后知在这段时间里,发现自己是越来越菜了,好多东西掌握的不够踏实。后知的这个河北SEO博客,起初就是为了做好排名,之后又觉得没有什么意义,就直接是和大家分享东西的了。把排名没有放在心上了,Seo外包反而石家庄SEO、石家庄优化这两个关键词倒是上去了。这一段时间内,发现用数据分析来做SEO是越来越重要了,同样也感觉到做SEO要基于了解搜索引擎的基础上来做,这里后知和大家说下搜索引擎爬虫抓取的两种方式,希望哪里不对的地方进行拍砖。
      首先,搜索引擎爬虫在进行抓取的时候,会采取两种方式来抓取:
新闻稿发布深度优先和宽度优先的方式进行爬取。

      第一种,深度优先遍历抓取。深度优先抓取就类似后知博客这样的,
关键词排名石家庄SEO首页>石家庄网站优化基础>下级栏目,首选抓取是以这样的方式来抓取的,等到抓取完毕这些栏目之后,在进行抓“石家庄网站优化基础”栏目下的文章,这样就是深度优先策略,类似于家庭关系一样。长子、次子然后是长孙等这样的关系,后知博客没有那么深的栏目,所以看不到这样的效果。
      第二种,就是宽度优先的遍历抓取。这种方式的抓取,深度是不断的在增加的。类似于这样的“首页 > SEO技术 > 网站日志如何分析”爬虫来的你网站,会顺着一个栏目一级级向下抓取,等这个“SEO技术”栏目下被抓取完毕后,在进行其子下一个栏目。这样的宽度抓取是有一定的原因的,基于网站布局的问题,往往是重要的页面距离种子站点(种子站点是爬虫开始抓取癿起点)是比较近的,这样符合习惯。所以,你可以看到一个大型门户站点,最容易看到的是一些实事新闻,这点是距离种子站点越近可以理解为越重要的页面;其次,中文万维网的深度没有我们想象的那么深,到达一个网页路径不仅仅是一个,所以爬虫总能找到最近的路径到达当前页面,据相关数据表明中文万维网的深度为17;还有一点就是,多爬虫的合作策略,基于这个规则大部分的抓取的起始网页为站内的,逐渐的才会转向站外的链接,抓取的封闭性是比较强的。


    基于上述的两种抓取方式,我们可以看出,我们尽可能的节省爬虫的抓取时间,因为爬虫到你网站的时间是一定的,缩短其单页面的抓取时间会提高你网站的抓取量,进而会影响你网站的收录量,最终能够影响到你网站的SEO流量。根据以上两种方式,来合理布局你网站的内容,让爬虫能够很容易的抓取到你想要被抓取的东西,这样合理的布局好内容,让网站的seo流量有一个突破瓶颈的提升。      

本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线