文章内容

Robots.txt文件_使用解析

发布时间: 2012/9/15 14:19:25

Rbots.txt 是什么：

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

　　当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

　　robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

　　语法：最简单的 robots.txt 文件使用两条规则：

　　• User-Agent: 适用下列规则的漫游器

　　• Disallow: 要拦截的网页

下载该robots.txt文件

robots.txt 有几个常用的写法；

全部开放或全部禁止

{

User-agent: * //表示站内针地所有搜索引擎开放；

Allow: / //允许索引所有的目录；

User-agent: * //表示站内针地所有搜索引擎开放；

Disallow: / //禁止索引所有的目录；

User-agent: * //表示站内针地所有搜索引擎开放；

Disallow: //允许索引所有的目录；

}

这里呢，可以把[网站地图（Sitemap）] 也加进来，引导搜索引擎抓取网站地图里的内容。

Sitemap: http://www.semcmd.com/sitemap.xml

Robots.txt 使用方法：

例1. 禁止所有搜索引擎访问网站的任何部分

Disallow: /

例2. 允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt")

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 禁止spider访问特定目录

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6.要阻止 Googlebot 抓取特定文件类型（例如，.gif）的所有文件

User-agent: Googlebo

tDisallow: /*.gif$

例7.要阻止 Googlebot 抓取所有包含 ? 的网址（具体地说，这种网址以您的域名开头，后接任意字符串，然后是问号，而后又是任意字符串）

User-agent: Googlebot

Disallow: /*?

Robots.txt高级语法-模式匹配：

Googlebot（但并非所有搜索引擎）遵循某些模式匹配原则。

要匹配连续字符，请使用星号 (*)。例如，要拦截对所有以 private 开头的子目录的访问，请使用以下内容：

User-agent: Googlebot

Disallow: /private*/

要拦截对所有包含问号 (?) 的网址的访问（具体地说，这种网址以您的域名开头、后接任意字符串，然后接问号，而后又接任意字符串），请使用以下内容：

User-agent: Googlebot

Disallow: /*?

要指定与某个网址的结尾字符相匹配，请使用 $。例如，要拦截以 .xls 结尾的所有网址，请使用以下内容：

User-agent: Googlebot

Disallow: /*.xls$

您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 代表一个会话 ID，那么您可能希望排除包含 ? 的所有网址，以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下，您可以对您的 robots.txt 文件进行如下设置：

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*?指令会阻止包含 ? 的所有网址（具体地说，它将拦截所有以您的域名开头、后接任意字符串，然后接问号，而后又接任意字符串的网址）。

Allow: /*?$ 指令将允许以 ? 结尾的任何网址（具体地说，它将允许所有以您的域名开头、后接任意字符串，然后接 ?，? 之后不接任何字符的网址）。

Robots.txt 误区使用：

误区一：我的网站上的所有文件都需要蜘蛛抓取，那我就没必要在添加robots.txt文件了。反正如果该文件不存在，所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

　　每当用户试图访问某个不存在的URL时，服务器都会在日志记录中404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该做网站中添加一个robots.txt。

　　误区二：在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率。

　　网站中的程序脚本、样式表等文件即使被蜘蛛收录，也不会增加网站的收录率，还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

　　具体哪些文件需要排除，在robots.txt使用技巧一文中有详细介绍。

　　误区三：搜索蜘蛛抓取网页太浪费服务器资源，在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

　　如果这样的话，会导致整个网站不能被搜索引擎收录。

Robots META标签的写法：

Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞

其中

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="ALL"＞；

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="NONE"＞

注：

robots.txt 一定要放置在网站的根目录下；如：http://www.semcmd.com/robots.txt

robots.txt 命名一定要全部小写，不允许出现Robots.txt 或 ROBOTS.TXT

Robots META标签则不受此限制，但W3C限制，所以尽量都用小写；

robots.txt 中允许注释，注释以#开头

正确的使用 robots.txt 是有好处的，但是一定要细心检查，不要写错了，如果万一写错了，就有可能导致搜索引擎不收录。

原来一个朋友提出问题，说为什么他的网站建好那么久，就是不被收录，后来检查，原来问题就出现在robots.txt 上，他在Disallow:后面加了个/ 全部禁止了。

User-agent: * //表示站内针地所有搜索引擎开放；

Disallow: / //禁止索引所有的目录；

新手如果不会写或怕写错了，可以使用Google的管理员工具来设置。[Google 管理员工具]

本文出自：亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强！虚拟主机域名注册顶级提供商！15年品质保障！--亿恩科技[ENKJ.COM]

上一篇 >> Google搜索引擎优化初学者指南
下一篇 >> 着陆页面（LandingPage）

服务器租用

服务器托管

机柜批发

云服务器

建站侠

空间/域名

安全保姆

帮助类别

帮助中心

文章内容

Robots.txt文件_使用解析

同类文章

亿恩公告

在线客服