1. 基础全局配置
2. 抓取规则定义 (Allow/Disallow)
常用预设项目:
robots.txt 实时预览
💡 提示: robots.txt 文件必须放在网站的根目录下。
例如: https://example.com/robots.txt
Robots 协议核心知识点
什么是 robots.txt?
它是爬虫访问网站时查看的第一个文件。它告诉搜索引擎(如 Google、Baidu)哪些页面可以抓取,哪些不可以。它虽然不是强制命令,但大多数主流爬虫都会严格遵守。
- User-agent: 指定规则适用的爬虫名称。
- Disallow: 禁止抓取的路径。
- Allow: 在禁止目录中单独允许抓取的子路径。
常见误区
- 不要用它来隐藏敏感数据,因为 robots.txt 是公开可访问的。
- 通配符
*代表匹配任何字符序列,$代表匹配路径结尾。 - 如果想禁止整个网站,使用
Disallow: /。 - 如果想允许整个网站,留空或使用
Disallow:。