Robots.txt 完全指南：从基础到高级应用

Other

Robots.txt是放置在网站根目录的文本文件，用于指导搜索引擎爬虫如何访问网站内容。它通过简单的指令（如User-agent指定爬虫、Disallow阻挡路径、Allow允许访问）来管理抓取权限，从而保护敏感区域、节省服务器资源并优化爬虫效率。最佳实践包括保持文件简洁、使用绝对路径、及时更新并务必添加Sitemap声明。但需注意：robots.txt仅为建议性协议，无法阻挡恶意爬虫，绝不能替代密码等真正的安全措施。合理配置能有效提升SEO效果，不当使用则可能导致重要页面不被收录。

博主博客

一、什么是Robots.txt？

Robots.txt是一个放置在网站根目录下的纯文本文件（如：https://example.com/robots.txt），用于指导网络爬虫（如Googlebot、Bingbot等）如何访问和抓取网站内容。它遵循Robots排除协议，是网站管理员与搜索引擎爬虫沟通的重要工具。

主要作用：

控制搜索引擎爬虫的访问权限
保护敏感或私密内容不被索引
节省服务器带宽和爬虫资源
管理重复内容

二、基础语法和指令

1. 用户代理（User-agent）

指定规则适用的爬虫：

User-agent: *          # 适用于所有爬虫
User-agent: Googlebot   # 仅适用于谷歌爬虫
User-agent: Bingbot    # 仅适用于必应爬虫

2. 禁止访问（Disallow）

阻止爬虫访问特定路径：

Disallow: /admin/      # 禁止访问/admin/目录
Disallow: /tmp/        # 禁止访问/tmp/目录
Disallow: /search      # 禁止搜索页面

3. 允许访问（Allow）

允许访问特定路径（通常与Disallow配合使用）：

Allow: /public/        # 允许访问/public/目录

4. 站点地图（Sitemap）

指定XML站点地图的位置：

Sitemap: https://example.com/sitemap.xml

三、完整示例

基本示例：

User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /public/
Sitemap: https://example.com/sitemap.xml

针对不同爬虫的示例：

User-agent: Googlebot-Image
Disallow: /images/private/

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Allow: /

Sitemap: https://example.com/sitemap.xml

四、高级用法和技巧

1. 模式匹配

使用通配符进行模式匹配：

# 禁止访问所有.php文件
Disallow: /*.php$

# 禁止访问包含"search"参数的URL
Disallow: /*?search=

2. 延迟抓取（Crawl-delay）

控制爬虫抓取频率（部分爬虫支持）：

User-agent: *
Crawl-delay: 5  # 每次请求间隔5秒

3. 多语言网站处理

# 阻止翻译内容的抓取
User-agent: *
Disallow: /en/search/
Disallow: /fr/search/

五、常见配置场景

场景1：完全开放

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

场景2：完全封闭（开发环境）

User-agent: *
Disallow: /

场景3：仅开放部分内容

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-content/uploads/
Sitemap: https://example.com/sitemap.xml

六、最佳实践和注意事项

✅ 该做的：

保持文件简洁：只包含必要的规则
使用绝对路径：避免相对路径导致的问题
定期更新：网站结构变化时及时更新
添加站点地图：帮助爬虫更好地理解网站结构
测试配置：使用搜索引擎提供的测试工具

❌ 不该做的：

不要用于敏感数据保护：robots.txt是公开可访问的
不要过度限制：可能影响搜索引擎收录
不要依赖大小写：URL路径区分大小写
不要忘记斜杠：正确使用路径分隔符

七、验证和测试工具

1. 谷歌Search Console

Robots测试工具
抓取统计信息
索引覆盖报告

2. 在线验证工具

3. 命令行测试

curl https://example.com/robots.txt

八、常见问题解答

Q1：robots.txt能阻止所有爬虫吗？

A：不能。robots.txt只是一个建议性协议，恶意爬虫可能忽略它。

Q2：如何阻止特定图片被抓取？

A：

User-agent: Googlebot-Image
Disallow: /private-images/

Q3：修改robots.txt后多久生效？

A：通常需要几天时间让搜索引擎重新抓取。

Q4：robots.txt会影响SEO吗？

A：会。不当配置可能导致重要页面不被收录。

九、高级特性（扩展协议）

1. 多个robots.txt文件

某些CMS支持为不同子目录设置不同的robots.txt。

2. 动态生成

可以使用脚本动态生成robots.txt内容。

3. 配合meta标签使用

<!-- 在HTML头部添加 -->
<meta name="robots" content="noindex, nofollow">

十、实际案例

电商网站示例：

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /product/*.html$
Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-categories.xml

总结

Robots.txt是网站管理的必备工具，正确使用可以：

优化搜索引擎爬虫行为
保护隐私内容
改善网站性能
提升SEO效果

记住：robots.txt不是安全工具，敏感内容应该通过密码、防火墙等方式保护。定期审查和更新你的robots.txt文件，确保它符合当前网站结构和业务需求。

最后提示：在实施任何重大更改前，先在测试环境中验证，并使用搜索引擎的测试工具确认配置正确性。

如果觉得文章对你有用，请随意赞赏

Other

Robots.txt 完全指南：从基础到高级应用

https://blog.uso6.com/archives/robots.txt-wan-quan-zhi-nan-cong-ji-chu-dao-gao-ji-ying-yong

作者

nukix

发布于

2026-02-17

更新于

2026-02-17

许可协议

CC BY 4.0

Robots.txt 完全指南：从基础到高级应用

博主博客

一、什么是Robots.txt？

主要作用：

二、基础语法和指令

1. 用户代理（User-agent）

2. 禁止访问（Disallow）

3. 允许访问（Allow）

4. 站点地图（Sitemap）

三、完整示例

基本示例：

针对不同爬虫的示例：

四、高级用法和技巧

1. 模式匹配

2. 延迟抓取（Crawl-delay）

3. 多语言网站处理

五、常见配置场景

场景1：完全开放

场景2：完全封闭（开发环境）

场景3：仅开放部分内容

六、最佳实践和注意事项

✅ 该做的：

❌ 不该做的：

七、验证和测试工具

1. 谷歌Search Console

2. 在线验证工具

3. 命令行测试

八、常见问题解答

Q1：robots.txt能阻止所有爬虫吗？

Q2：如何阻止特定图片被抓取？

Q3：修改robots.txt后多久生效？

Q4：robots.txt会影响SEO吗？

九、高级特性（扩展协议）

1. 多个robots.txt文件

2. 动态生成

3. 配合meta标签使用

十、实际案例

电商网站示例：

总结

作者

发布于

更新于

许可协议

评论