始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

Robots.txt文件_使用解析

发布时间:  2012/9/15 14:19:25
 Rbots.txt 是什么:
 
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
  语法:最简单的 robots.txt 文件使用两条规则:
  • User-Agent: 适用下列规则的漫游器 
  • Disallow: 要拦截的网页
           下载该robots.txt文件 
 
robots.txt 有几个常用的写法;
 
全部开放或全部禁止
 
{
 
User-agent: *    //表示站内针地所有搜索引擎开放;
Allow: /    //允许索引所有的目录;
 
User-agent: *    //表示站内针地所有搜索引擎开放;
Disallow: /   //禁止索引所有的目录;
 
User-agent: *    //表示站内针地所有搜索引擎开放;
Disallow:   //允许索引所有的目录;
 
}
 
这里呢,可以把[网站地图(Sitemap)] 也加进来,引导搜索引擎抓取网站地图里的内容。
 
Sitemap: http://www.semcmd.com/sitemap.xml
 
Robots.txt 使用方法:
 
例1. 禁止所有搜索引擎访问网站的任何部分 
Disallow: /
 
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Disallow: 
或者
User-agent: *
Allow: / 
 
例3. 仅禁止Baiduspider访问您的网站 
User-agent: Baiduspider
Disallow: /
 
例4. 仅允许Baiduspider访问您的网站 
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
 
例5. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
 
例6.要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件
User-agent: Googlebo
tDisallow: /*.gif$
 
例7.要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串)
User-agent: Googlebot
Disallow: /*?
 
 
 
Robots.txt高级语法-模式匹配:
 
Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。
 
要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问,请使用以下内容: 
User-agent: Googlebot
Disallow: /private*/
 
要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容: 
User-agent: Googlebot
Disallow: /*?
 
要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容: 
User-agent: Googlebot
Disallow: /*.xls$
 
您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:
 
User-agent: *
Allow: /*?$
Disallow: /*?
 
Disallow: /*?指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。
 
Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。
 
 
Robots.txt 误区使用:
 
        误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
  每当用户试图访问某个不存在的URL时,服务器都会在日志记录中404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
  如果这样的话,会导致整个网站不能被搜索引擎收录。
 
 
Robots META标签的写法:
 
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
 
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
 
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
 
这样,一共有四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;
 
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
 
 
注:
robots.txt 一定要放置在网站的根目录下;如:http://www.semcmd.com/robots.txt
 
robots.txt 命名一定要全部小写,不允许出现Robots.txt 或 ROBOTS.TXT 
 
Robots META标签则不受此限制,但W3C限制,所以尽量都用小写;
 
robots.txt 中允许注释,注释以#开头
 
正确的使用 robots.txt  是有好处的,但是一定要细心检查,不要写错了,如果万一写错了,就有可能导致搜索引擎不收录。
 
原来一个朋友提出问题,说为什么他的网站建好那么久,就是不被收录,后来检查,原来问题就出现在robots.txt 上,他在Disallow:后面加了个/  全部禁止了。
 
User-agent: *    //表示站内针地所有搜索引擎开放;
Disallow: /   //禁止索引所有的目录;
 
新手如果不会写或怕写错了,可以使用Google的管理员工具来设置。[Google 管理员工具]

本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线