robots.txt文件用法,语法及使用注意事项
作者:SEO小工 时间:2008-10-04
关键字: robots.txt
当网站中有不希望搜索引擎收录的内容,可以使用robots.txt文件,它的语法可以禁止或允许URL抓取,则遵守robots.txt协议的就会按你的设置处理,不仅节省带宽和服务器资源,还可以用它这个方法来消除复制网页等。
一.建立robots.txt文件
robots.txt是必须放在网站的根目录、文件名为小写的纯文本文件。当机器人抓取网站时,会首先检查网站根目录有没有这个文件,如果没有这个文件,它会抓取所有能够抓取的内容。因此如果没有禁止的内容,可以不建立这个文件。robots.txt文件语法
以行为分隔符,每个语句一行,多余空行的行忽略,行结束符可以是回车,回车加换行,或者换行符。
内容是以User-agent开头,后跟多个Disallow或allow的一个或多个段组成。例如:
User-agent: Baiduspider #表示此段只对baidu蜘蛛起作用
Allow: /help/faq/ #允许访问/help/faq/下的内容
Disallow: /help/ #禁止访问/help/,与上行配合达到只允许访问help中faq的功能
Disallow: *.php$ #禁止任意字符开始,.php结束的内容URL
Allow: /help/faq/ #允许访问/help/faq/下的内容
Disallow: /help/ #禁止访问/help/,与上行配合达到只允许访问help中faq的功能
Disallow: *.php$ #禁止任意字符开始,.php结束的内容URL
User-agent:后面跟蜘蛛的名字,表示设置是针对哪个蜘蛛的。因此User-agent可以有多个,针对不同的蜘蛛设置不同的规则。
如果值是*,表示没有匹配的蜘蛛用此设置,也可以说*匹配所有蜘蛛。
Allow:表示允许以此开始的URL。在默认情况下就是允许所有的URL。
Disallow:表示禁止以此开始的URL。如果后面为空,则表示不禁止任何URL。
* 代表零或多个任意的字符。
$ 代表行结束符。即一行结束了,后面没有任何字符了。
请访问robotstxt.org查看详细robots.txt语法说明和示例
二.robots.txt匹配规则注意事项
1.User-agent匹配蜘蛛读取robots.txt时,先是寻找和自己名字相同的User-agent,找到则使用那个段的规则,然后退出;没有找到,才使用User-agent:*的段的规则。这里有两点注意:
a,如果针对某一蜘蛛写了规则,那么针对它所有的规则都要写在这个段里,而不能只写特殊的规则而将共同的规则放在User-agent:*里,因为如果有匹配的段则不会再检查User-agent:*这个段了。
b,各个User-agent段没有先后顺序。即使User-agent:*段放在哪都可以,但只能有一个。
2.allow,disallow,及通配符的匹配方式
我们把/也看做路径的一部分而不是分隔符,且不提目录的概念,则理解起来简单统一,即 以allow或disallow中路径开始的URL,则匹配成功。例:
disallow:/help/
/help/index.php匹配成功,因为URL是以/help/开始的,而/help.html刚匹配不成功,因为前缀没有和/help/相同。
例:disallow: *.php
匹配任意字符加.php开始的URL,如/abc.php、/abc.php?user=a 。这些都是以*.php开始的URL。
例:disallow: *.php$
只有以$结尾的例外,代表行结束,即所任意字意开始并且以.php结束的URL。如/abc.php,匹配成功。 /abc.php?user=a不成功,因为.php后面是$,即行结束,后面不没有字符了。
注意:除非是以*开始,所有URL必须以/开始。因为这里没有相对路径的概念,这样是错误的:disallow: help/
3.User-agent整段的allow和disallow匹配规则
Allow具有高优先级,不管在什么位置,只要有匹配,就会允许SE检索。如:
Disallow: /help/
Allow: /help/faq/
对于/help/faq/index.htm来说,当匹配第一行时,因为禁止/help/下所有内容,但是后面的Allow: /help/faq/成功,所以依然允许SE检索。
没有Allow匹配的规则,Disallow,匹配成功就退出了。
三.robots.txt的生效时间
搜索引擎机器人基本会一到两天检查一次robots.txt文件有没有更新。如果更改了规则,禁止了已收录的内容,那么只是以后不再检索了,原来收录的内容可能要最多要数月时间才能删除。原文:http://seo.banmutian.org/thread-690-1-1.html
赞助商链接

