1. 基础全局配置
2. 抓取规则定义 (Allow/Disallow)
常用预设项目:
robots.txt 实时预览

💡 提示: robots.txt 文件必须放在网站的根目录下。

例如: https://example.com/robots.txt

Robots 协议核心知识点

什么是 robots.txt?

它是爬虫访问网站时查看的第一个文件。它告诉搜索引擎(如 Google、Baidu)哪些页面可以抓取,哪些不可以。它虽然不是强制命令,但大多数主流爬虫都会严格遵守。

  • User-agent: 指定规则适用的爬虫名称。
  • Disallow: 禁止抓取的路径。
  • Allow: 在禁止目录中单独允许抓取的子路径。
常见误区
  • 不要用它来隐藏敏感数据,因为 robots.txt 是公开可访问的。
  • 通配符 * 代表匹配任何字符序列,$ 代表匹配路径结尾。
  • 如果想禁止整个网站,使用 Disallow: /
  • 如果想允许整个网站,留空或使用 Disallow: