百度空间 | 百度首页 
 
查看文章
 
如何防止蜘蛛程序对本站的搜索(robots.txt)
2009年10月25日 星期日 17:41

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

下面是一些robots.txt基本的用法:

禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /


常见搜索引擎机器人Robots名字
名称               搜索引擎
Baiduspider     http://www.baidu.com
Scooter         http://www.altavista.com
ia_archiver     http://www.alexa.com
Googlebot       http://www.google.com
Inktomi Slurp     http://www.yahoo.com
FAST-WebCrawler   http://www.alltheweb.com
Slurp         http://www.inktomi.com
MSNBOT         http://search.msn.com

robots.txt举例
下面是一些著名站点的robots.txt:
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt


类别:网站服务器 | 添加到搜藏 | 浏览() | 评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu