robots.txt在线生成

选择搜索引擎

自定义搜索引擎蜘蛛

限制抓取的目录或路径

网站地图（非必填）

指定爬虫抓取时间间隔

robots.txt文件在线生成工具介绍

1、选择搜索引擎：所有搜索引擎直接“允许”即可，如默认的User-agent: * Allow: /，如果有其他限制抓取的页面或者限制某一个或多个搜索引擎抓取，那么所有搜索引擎选择“默认”。

2、自定义搜索引擎蜘蛛：在选择搜索引擎项已列举了常见的主流搜索引擎。其中，MJ12bot为国外搜索引擎，对网站抓取量较大，建议直接屏蔽，如需允许或拒绝其他搜索引擎，直接在文本框中输入对应搜索引擎的爬虫UA，多个请点击增加搜索蜘蛛。

3、限制抓取的目录或路径：此项可以限制某一搜索引擎或者所有搜索引擎爬取网站的指定目录、URL后缀、动态页面、禁止抓取指定格式的文件（图片），多个请点击增加限制目录。

4、网站地图：网站地图请填写sitemap的绝对地址，建议xml文件。目前仅百度和360搜索支持txt文件格式的网站地图。

5、指定爬虫抓取时间间隔：时间间隔一般不选，默认的即可，可以根据服务器配置及搜索引擎爬取情况适当选择，如果服务器压力过大，可以选择60s的抓取间隔。

1、允许所有搜索引擎抓取

User-agent: *
Allow: /

2、拒绝所有搜索引擎抓取

User-agent: *
Disallow: /

1、只允许搜狗抓取

User-agent: Sogou web spider
Allow: /
User-agent: *
Disallow: /

2、只拒绝谷歌抓取

User-agent: Googlebot
Disallow: /

2、只允许必应和谷歌抓取

User-agent: bingbot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

1、拒绝所有搜索引擎抓取指定目录

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

说明：限制目录应以根目录/开始，并以/结尾。

2、拒绝所有搜索引擎访问指定目录下的url

User-agent: *
Disallow: /trackback/*.php
Disallow: /feed/*.html

3、拒绝所有搜索引擎抓取动态页面

User-agent: *
Disallow: /*?*

4、拒绝所有搜索引擎抓取图片文件

User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$

通过上面的示例可以快速掌握怎么写robots.txt。