爬虫：Robots协议及位置

最新推荐文章于 2026-05-12 09:27:34 发布

原创最新推荐文章于 2026-05-12 09:27:34 发布 · 2.3k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

爬虫专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了Robots协议，即网络爬虫排除标准，解释了其存在的必要性和作用。Robots协议通过robots.txt文件告知爬虫哪些内容可以访问，哪些应该避免，旨在维护网站秩序，保护隐私和商业信息。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”。Robots协议是通过robots.txt来广而告知的。

为什么要有这个东东？

网站的一些内容是希望正常被用户访问的，而不是一些蜘蛛侠（这些可能把网站搞挂掉、也有可能网站的一些隐私或商业价值较高的信息被同行或有些信息收集人员搞走等）无序或不允许的方式访问,这些都大大增强了网站的无形和有形的成本，也降低了竞争力。

尽管各位蜘蛛侠也防不住，但是网站方是希望通过这么一个约定，让各位蜘蛛侠有序地来访问，建立一种行业的约定的规则。

robots.txt中有哪些内容？

robots一般放在网站的根目录下，便于让大家方便查到。这个相信大家都懂为什么？

看看zhihu.com的：

在这里插入图片描述看看天天基金的：

再看看csdn

总之，这个文件大家是容易找到的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。