输入您要找的问题关键词
一、背景信息
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点的根目录下是否存在Robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围,如果该文件不存在,搜索蜘蛛能访问网站上所有没有被口令保护的页面。如果用户需要让爬虫访问所有页面,请勿配置此文件。
二、操作步骤
*
代表所有的搜索引擎种类,是一个通配符。admin
目录下面的目录。require
目录下面的目录。/cgi-bin/
目录下的所有以.htm
为后缀的URL(包含子目录)。cgi-bin
目录下面的目录。tmp
整个目录。.htm
为后缀的URL。User-agent: * Disallow: /
User-agent: * Allow: /
说明:也可以建一个/robots.txt
空文件,Allow的值设置为/robots.txt
。
User-agent: BadBot Disallow: /
User-agent: Baiduspider allow: /