百度首页 | 百度空间
 
查看文章
 
下面一个小工具专门检查robots.txt文件的有效性:
2007年01月25日 星期四 上午 11:03

http://tool.motoricerca.info/robots-checker.phtml

常见robots.txt错误

l         颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot

正确的应该是:
User-agent: GoogleBot
Disallow: *

l         把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/

正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

l         行前有大量空格
例如写成
        Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。

l         404重定向到另外一个页面:
Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

l         采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:

l         语法中只有Disallow,没有Allow
错误的写法是:
User-agent: Baiduspider       
Disallow: /john/
allow: /jane/

l         忘记了斜杠/
错误的写做:
User-agent: Baiduspider       
Disallow: css

正确的应该是
User-agent: Baiduspider       
Disallow: /css/


类别:seo(搜索引擎优化) | 添加到搜藏 | 浏览() | 评论 (3)
 
最近读者:
 
网友评论:
1
2008年04月22日 星期二 下午 06:03
Disallow: /css/
中间有空格的吧
 
2
2008年09月08日 星期一 下午 03:38
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
这个地址不能用了,
可以换这个地址 http://tool.motoricerca.info/robots-checker.phtml,我试过了;

我写了一篇blog 关于这个robots检测的,欢迎提意见;
http://hi.baidu.com/decentblue/blog/item/59a2020832bb9bd763d9864b.html
呵呵
 
3
2008年10月22日 星期三 下午 03:36
谢谢 decentblue
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码:
 

     

©2008 Baidu