robots.txt在线生成
robots.txt文件在线生成工具介绍
1、选择搜索引擎:所有搜索引擎直接“允许”即可,如默认的User-agent: * Allow: /,如果有其他限制抓取的页面或者限制某一个或多个搜索引擎抓取,那么所有搜索引擎选择“默认”。
2、自定义搜索引擎蜘蛛:在选择搜索引擎项已列举了常见的主流搜索引擎。其中,MJ12bot为国外搜索引擎,对网站抓取量较大,建议直接屏蔽,如需允许或拒绝其他搜索引擎,直接在文本框中输入对应搜索引擎的爬虫UA,多个请点击增加搜索蜘蛛。
3、限制抓取的目录或路径:此项可以限制某一搜索引擎或者所有搜索引擎爬取网站的指定目录、URL后缀、动态页面、禁止抓取指定格式的文件(图片),多个请点击增加限制目录。
4、网站地图:网站地图请填写sitemap的绝对地址,建议xml文件。目前仅百度和360搜索支持txt文件格式的网站地图。
5、指定爬虫抓取时间间隔:时间间隔一般不选,默认的即可,可以根据服务器配置及搜索引擎爬取情况适当选择,如果服务器压力过大,可以选择60s的抓取间隔。
robots文件中的搜索引擎及UA
搜索引擎 | 爬虫UA |
---|---|
百度 | Baiduspider |
搜狗 | Sogou web spider |
360网页搜索 | 360Spider |
360图片搜索 | 360Spider-Image |
360视频搜索 | 360Spider-Video |
神马搜索 | YisouSpider |
头条搜索 | Bytespider |
必应Bing | bingbot |
谷歌 | Googlebot |
MJ12 | MJ12bot |
WebMeUp | BLEXBot |
DomainsBot | Pandalytics |
Censys | CensysInspect |
Ahrefs | AhrefsBot |
Comsys | Researchscan |
SEMrush | SemrushBot |
Moz | DotBot |
Uptime | Uptimebot |
MegaIndex | MegaIndex.ru |
zoominfo | ZoominfoBot |
Seznam | SeznamBot |
ExtLinks | ExtLinksBot |
aiHit | aiHitBot |
Researchscan | Researchscan |
Dnyz | DnyzBot |
spbot | spbot |
Yandex | YandexBot |
常见的两种robots.txt文件示例
1、允许所有搜索引擎抓取
User-agent: * Allow: /
2、拒绝所有搜索引擎抓取
User-agent: * Disallow: /
允许/拒绝某一个或多个搜索引擎的robots文件示例
1、只允许搜狗抓取
User-agent: Sogou web spider Allow: / User-agent: * Disallow: /
2、只拒绝谷歌抓取
User-agent: Googlebot Disallow: /
2、只允许必应和谷歌抓取
User-agent: bingbot Allow: / User-agent: Googlebot Allow: / User-agent: * Disallow: /
限制robots抓取目录或文件示例
1、拒绝所有搜索引擎抓取指定目录
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/
说明:限制目录应以根目录/开始,并以/结尾。
2、拒绝所有搜索引擎访问指定目录下的url
User-agent: * Disallow: /trackback/*.php Disallow: /feed/*.html
3、拒绝所有搜索引擎抓取动态页面
User-agent: * Disallow: /*?*
4、拒绝所有搜索引擎抓取图片文件
User-agent: * Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.bmp$
通过上面的示例可以快速掌握怎么写robots.txt。