近日,有报道指出百度百科已对谷歌、必应(Bing)等搜索引擎采取了屏蔽措施。以防止这些搜索引擎以及其他网络爬虫在未经授权的情况下、抓取其内容用于AI大模型的训练。

屏蔽抓取

百度百科通过更新其robots.txt文件,目前只有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容,至于谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其它一切搜索引擎爬虫,均被明确禁止抓取百度百科的内容。

这一策略可能是出于对版权保护的考虑,同时也可能是百度百科在AI搜索时代的一种自我保护措施。

版权问题or道德问题?

这种做法实际上可能只能防止那些遵守robots.txt协议的爬虫,而无法阻止那些不遵守协议的爬虫继续抓取内容。对于不遵守协议的爬虫,它们可能仍会通过各种方式继续抓取内容用于AI训练。这表明,尽管百度百科采取了屏蔽措施,但互联网的开放性使得完全阻止内容被抓取仍然是一个挑战。

AI搜索的快速发展和对海量用户真实数据的需求,使得包括百度百科在内的内容平台成为了数据训练的重要来源。内容平台与搜索引擎之间的版权之争,也反映了AI技术发展过程中需要解决的法律和道德问题。


值得注意的是,百度百科的这种做法并非个例。

据爆料,知乎也采取了类似的措施,已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。

在AI技术不断发展的背景下,如何平衡知识产权保护和技术创新之间的关系,确保AI的健康发展,成为了一个亟待解决的问题。这不仅需要法律法规的完善,也需要行业内的自律和合作 。

免责声明:素材源于网络,如有侵权,请联系删稿。