专家吴恩达在网站The Batch上提及了一篇有关数据许可的研究,研究发现C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,
随着本轮生成式的快速发展,为给大模型“喂”数据,科技公司从各个渠道搜刮数据,直观反应就是过去一两年间,网络爬虫激增。这带来了数据对价、版权、用户隐私等问题,对OpenAI、Anthropic这两家AI行业最瞩目公司的谴责和质疑不绝于耳。
业内普遍认可的爬虫协议(Robots协议)逐渐失效。君子协议一旦被打破,行业必将上演新的博弈戏码,此次研究提到的开放数据获取困难,正是爬虫与反爬虫不断对抗升级、AI科技公司与数据持有方缠斗的最好注脚。
训练数据是构建和优化 AI 模型的基石,是大模型成长的基础和驱动力。高质量数据是训练性能优越AI模型的关键,但当前却面临着“高质量数据告急”的情况。
研究发现,从GPTBot出现(2023年中期)后,在robots.txt层面进行完全限制的网站数量激增。
OpenAI、Anthropic和Common Crawl的受限占比位列前三,都达到了80%以上,但网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。
爬虫是指在互联网上爬取各网站、平台数据信息内容的程序。按照编写好的规则,能自动为使用者爬取互联网上的数据信息内容。它们通常使用自动化数据抓取技术来自动访问网站,并收集、解析和存储网站上的信息。
伴随着互联网发展,爬虫技术广泛应用于搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等多个领域。
不过,爬虫存在灰色地带,爬虫软件既可以帮助使用者便捷地大范围获取网页数据,也常常因涉嫌侵犯平台方数据资产与用户个人隐私而遭到质疑。司法实践中,最著名的案件便是职业社交平台LinkedIn诉数据分析公司HiQ案,后者通过爬取前者数据并进行处理后将分析结果出售给相关企业获利,双方关于第三方是否有权爬取网站信息展开了长达五年的诉讼拉锯。
尽管爬虫存在争议,但是在“数据为王”时代,其为深度挖掘数据提供了巨大便利性,行业也形成一定共识基础:
爬虫协议(Robots协议)是业内的君子协议。协议会将搜索引擎抓取网站内容的范围进行约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这能够保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
在爬虫协议的约束下,逐渐搭建以搜索引擎为主要场景的商业生态:让搜索引擎抓取你的网站,同时你会获得搜索引擎的流量回报。
Medium 创始人托尼·斯塔布宾(Tony Stubblebine)说:“谷歌是我们最重要的爬虫。谷歌下载 Medium 的所有网页,作为交换,我们获得了大量的流量,这是双赢。每个人都这么认为,这就是谷歌与整个互联网达成的协议,在向其他网站传输流量的同时,他们还在搜索结果中出售广告。”
也就是说,互联网时代爬虫虽然伴随着争议,但很多场景下能够构建起一个合理的空间,数据持有方与使用者之间一定程度能形成良性运行的机制。
这在上述研究中也有体现:网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。
一是爬虫协议被不断突破。例如今年7月,AI独角兽Anthropic公司利用其爬虫工具ClaudeBot,无视网站许可协议,疯狂地访问抓取美国电子商务和指南网站iFixit的数据,导致后者服务器被严重占满。
面对iFixit公司CEO的公开指责,Anthropic公司的回应完全回避自己的爬虫工具“未经允许”的问题。
爬与被爬不断升级,AI公司不断升级爬虫工具,甚至利用人工智能爬取数据来“喂”给人工智能。例如基于人工智能的Python网络爬虫库Scrapegraph-ai,可以利用大语言模型(LLM)和直接图逻辑来实现“流水线式爬虫”。
面对来势汹汹的爬虫工具,有些数据持有者选择在数据中“投毒”,并敞开“大门”将“有毒数据”送给它们。所谓“有毒数据”,是指在数据中故意放置异常数据。这种数据库会扰乱模型训练。
双方激烈“攻防”的背后,反映出整个行业利益分配的不平衡,上述提及的第二个前提破裂。与之前被搜索网站爬虫可获得流量不同,数据持有者在AI公司的爬虫行为中不仅无法得到任何回报,反而还要接受“喂养”出来的大模型取代自身的风险。因此,数据持有者高筑“数据墙”也实属保全自身的无奈之举。
2023年8月OpenAI 发布了爬虫工具GPTBot,称在注重版权的基础上,使用透明的方式收集网页信息。尽管释放了友好信号,但旋即遭到《纽约时报》等封禁。
各种网站正在快速在收紧他们的许可协议,是数据持有方的反扑,也是AI公司疯狂“攻城略地”时忽视数据持有者利益的反噬。
有评论称阻止AI爬虫可能是短期的胜利,长远的灾难。但是没有合理甚至可见的利益分配,数据持有方很难有动力开放。如何寻求双方都满意的解决方案,似乎仍有一段距离要走。