动真格了，百度百科已屏蔽谷歌、必应等搜索引擎

ice 业界资讯 2 月前

近日，有报道指出百度百科已对谷歌、必应（Bing）等搜索引擎采取了屏蔽措施。以防止这些搜索引擎以及其他网络爬虫在未经授权的情况下、抓取其内容用于AI大模型的训练。

屏蔽抓取

百度百科通过更新其robots.txt文件，目前只有百度搜索、搜狗搜索、中国搜索（Chinaso）、YYSpider和宜搜搜索（EasouSpider）等少数几个搜索引擎被允许抓取其内容，至于谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其它一切搜索引擎爬虫，均被明确禁止抓取百度百科的内容。

这一策略可能是出于对版权保护的考虑，同时也可能是百度百科在AI搜索时代的一种自我保护措施。

版权问题or道德问题？

这种做法实际上可能只能防止那些遵守robots.txt协议的爬虫，而无法阻止那些不遵守协议的爬虫继续抓取内容。对于不遵守协议的爬虫，它们可能仍会通过各种方式继续抓取内容用于AI训练。这表明，尽管百度百科采取了屏蔽措施，但互联网的开放性使得完全阻止内容被抓取仍然是一个挑战。

AI搜索的快速发展和对海量用户真实数据的需求，使得包括百度百科在内的内容平台成为了数据训练的重要来源。内容平台与搜索引擎之间的版权之争，也反映了AI技术发展过程中需要解决的法律和道德问题。

值得注意的是，百度百科的这种做法并非个例。

据爆料，知乎也采取了类似的措施，已经先百度一步禁止了其他搜索引擎的爬虫，把白名单中的谷歌和必应踢掉，只留下了百度和搜狗。

在AI技术不断发展的背景下，如何平衡知识产权保护和技术创新之间的关系，确保AI的健康发展，成为了一个亟待解决的问题。这不仅需要法律法规的完善，也需要行业内的自律和合作。

免责声明：素材源于网络，如有侵权，请联系删稿。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

AI 屏蔽谷歌百度百度百科网络爬虫