选择搜索引擎

所有

百度

搜狗

好搜

神马

头条

谷歌

必应

MJ12

自定义搜索引擎蜘蛛
限制抓取的目录或路径
网站地图(非必填)
指定爬虫抓取时间间隔


robots.txt文件在线生成工具介绍

  1. 选择搜索引擎:所有搜索引擎直接“允许”即可,如默认的User-agent: * Allow: /,如果有其他限制抓取的页面或者限制某一个或多个搜索引擎抓取,那么所有搜索引擎选择“默认”。
  2. 自定义搜索引擎蜘蛛:在选择搜索引擎项已列举了常见的主流搜索引擎。其中,MJ12bot为国外搜索引擎,对网站抓取量较大,建议直接屏蔽,如需允许或拒绝其他搜索引擎,直接在文本框中输入对应搜索引擎的爬虫UA,多个请点击增加搜索蜘蛛。
  3. 限制抓取的目录或路径:此项可以限制某一搜索引擎或者所有搜索引擎爬取网站的指定目录、URL后缀、动态页面、禁止抓取指定格式的文件(图片),多个请点击增加限制目录。
  4. 网站地图:网站地图请填写sitemap的绝对地址,建议xml文件。目前仅百度和360搜索支持txt文件格式的网站地图。
  5. 指定爬虫抓取时间间隔:时间间隔一般不选,默认的即可,可以根据服务器配置及搜索引擎爬取情况适当选择,如果服务器压力过大,可以选择60s的抓取间隔。

robots文件中的搜索引擎及UA

搜索引擎 爬虫UA
百度 Baiduspider
搜狗 Sogou web spider
360网页搜索 360Spider
360图片搜索 360Spider-Image
360视频搜索 360Spider-Video
神马搜索 YisouSpider
头条搜索 Bytespider
必应Bing bingbot
谷歌 Googlebot
MJ12 MJ12bot
WebMeUp BLEXBot
DomainsBot Pandalytics
Censys CensysInspect
Ahrefs AhrefsBot
Comsys Researchscan
SEMrush SemrushBot
Moz DotBot
Uptime Uptimebot
MegaIndex MegaIndex.ru
zoominfo ZoominfoBot
Seznam SeznamBot
ExtLinks ExtLinksBot
aiHit aiHitBot
Researchscan Researchscan
Dnyz DnyzBot
spbot spbot
Yandex YandexBot

常见的两种robots.txt文件示例

1、允许所有搜索引擎抓取

User-agent: *
Allow: /

2、拒绝所有搜索引擎抓取

User-agent: *
Disallow: /

允许/拒绝某一个或多个搜索引擎的robots文件示例

1、只允许搜狗抓取

User-agent: Sogou web spider
Allow: /
User-agent: *
Disallow: /

2、只拒绝谷歌抓取

User-agent: Googlebot
Disallow: /

3、只允许必应和谷歌抓取

User-agent: bingbot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

限制robots抓取目录或文件示例

1、拒绝所有搜索引擎抓取指定目录

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

说明:限制目录应以根目录/开始,并以/结尾。

2、拒绝所有搜索引擎访问指定目录下的url

User-agent: *
Disallow: /trackback/*.php
Disallow: /feed/*.html

3、拒绝所有搜索引擎抓取动态页面

User-agent: *
Disallow: /*?*

4、拒绝所有搜索引擎抓取图片文件

User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$

通过上面的示例可以快速掌握怎么写robots.txt