始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

搜索引擎抓取不到的内容

发布时间:  2012/9/15 14:57:30

搜索引擎抓取不到的内容有那些

 没有搜索引擎是万万不能的,但搜索引擎不是万能的;


  有些内容,网上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。


-----------------------------------------------------------------------------    本文章转载于互联网某网站!


这样的内容,主要有3类:

======================


1、网上有,但是搜索引擎库里没有

------------------------------------------------------


1.1 spider未能正确处理的网页性质及文件类型

(如flash、script、ps、某些动态网页及frame、数据库)

1.2 没有指向链接的孤岛网页

1.3 spider访问时因为某些原因正好是死链接

1.4 被认为是劣质网页而不抓

1.5 因为/色情/反动/spam/等问题而不抓的非法网页

1.6 需要输入用户名、密码方可打开的网页

1.7 网站用robots协议拒绝搜索引擎抓取的网页

1.8 搜索引擎还未来得及抓取的新网页

1.9 gopher、newsgroups、Telnet、ftp、wais等非http信息

1.10 网站数据库做得太差劲,spider一抓就宕,只好不抓



2、搜索引擎库里有,但是未能正确索引网页中信息

------------------------------------------------------


2.1 分词引起误差

2.2 图型中的文字信息你看得懂但搜索引擎看不懂

2.3 停用词等搜索引擎故意不索引的信息

2.4 搜索引擎对某些网页有选择的索引,未索引全部网页信息



3、搜索引擎正确索引了网页中信息,但和你用的关键词不同

-------------------------------------------------------


3.1 你用的搜索关键词中含有错别字

3.2 网页作者用了错别字

3.3 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息


3.4 简体繁体不同编码

http://www.enkj.com/


本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线