近日,有报道指出百度百科已对谷歌、必应(Bing)等搜索引擎采取了屏蔽措施。以防止这些搜索引擎以及其他网络爬虫在未经授权的情况下、抓取其内容用于AI大模型的训练。
屏蔽抓取
百度百科通过更新其robots.txt文件,目前只有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容,至于谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其它一切搜索引擎爬虫,均被明确禁止抓取百度百科的内容。
这一策略可能是出于对版权保护的考虑,同时也可能是百度百科在AI搜索时代的一种自我保护措施。
版权问题or道德问题?
这种做法实际上可能只能防止那些遵守robots.txt协议的爬虫,而无法阻止那些不遵守协议的爬虫继续抓取内容。对于不遵守协议的爬虫,它们可能仍会通过各种方式继续抓取内容用于AI训练。这表明,尽管百度百科采取了屏蔽措施,但互联网的开放性使得完全阻止内容被抓取仍然是一个挑战。
AI搜索的快速发展和对海量用户真实数据的需求,使得包括百度百科在内的内容平台成为了数据训练的重要来源。内容平台与搜索引擎之间的版权之争,也反映了AI技术发展过程中需要解决的法律和道德问题。
值得注意的是,百度百科的这种做法并非个例。
据爆料,知乎也采取了类似的措施,已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。
在AI技术不断发展的背景下,如何平衡知识产权保护和技术创新之间的关系,确保AI的健康发展,成为了一个亟待解决的问题。这不仅需要法律法规的完善,也需要行业内的自律和合作 。
免责声明:素材源于网络,如有侵权,请联系删稿。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。