转载请注明出处: CHATWEB
本文的链接地址: https://chatweb.com.cn/post-106.html
近日,百度百科更新了其robots.txt文件,开始屏蔽谷歌、必应等多数搜索引擎,目的是为了防止这些搜索引擎及其他爬虫未经许可抓取百度百科的内容用于AI训练。
根据百度百科的robots.txt文件,目前仅允许百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider以及宜搜搜索(EasouSpider)等少数搜索引擎抓取其内容。
其他搜索引擎如谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider都被明确禁止抓取百度百科的内容。尽管360搜索未被单独列出,但由于百度百科实施了全面禁止非白名单爬虫的策略,因此360搜索和其他搜索引擎也被屏蔽在外。
尽管采取了这些措施,仍有可能存在一些爬虫通过各种方式继续抓取百度百科的内容用于AI训练。
转载请注明出处: CHATWEB
本文的链接地址: https://chatweb.com.cn/post-106.html