在线robots.txt文件生成器

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt语法

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE收录网站的某些目录:
User-agent: * Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收录本站:
User-agent: *
Disallow: /
5. 加入sitemap.xml路径,例如: sitemap: https://www.googlespeed.cn/sitemap.xml

默认 - 所有机器人是:
检索间隔:
Sitemap: (留空为无)
普通搜索机器人:
Google
googlebot
Baidu
baiduspider
MSN Search
msnbot
Yahoo
yahoo-slurp
Ask/Teoma
teoma
Cuil
twiceler
GigaBlast
gigabot
Scrub The Web
scrubby
DMOZ Checker
robozilla
Nutch
nutch
Alexa/Wayback
ia_archiver
Naver
naverbot, yeti
特殊搜索机器人:
Google Image
googlebot-image
Google Mobile
googlebot-mobile
Yahoo MM
yahoo-mmcrawler
MSN PicSearch
psbot
SingingFish
asterias
Yahoo Blogs
yahoo-blogs/v3.9
限制目录: 路径是相对的,但每个路径之前都要包含:"/"