(彭博社)
近日社交平台Reddit正式起诉人工智能(AI)公司Anthropic,指其未经许可抓取并使用用户生成的内容来训练聊天机器人Claude。
谁真正拥网上内容?
这起官司触及了AI时代第二章的核心问题:谁真正拥有我们在网上发布的内容?
Reddit(类似百度贴吧,或台湾的PTT)作为代表自由言论的社交平台,其理念源自于真实的线上內容和民主化的自主管理,但现在却明目张胆的告诉世人:这些“公开”的数据是属于我们公司的,你们要读取我的数据来建模,需先付费征得我的同意。
另一边厢,标榜“更公平、更平等使用AI”的Anthropic则肆无忌惮的派机器人四处去挖掘数据。这两家公司之间的对峙,颇有一番微妙的讽刺意味。
这种企业形象与实际行为的冲突,正是这起诉讼备受关注的原因。
从Claude的角度,他们觉得Reddit数据是公开的(public data),但从观感上,这件事有两个层面:血汗层面和伦理层面。
若它雇佣100名实习生,手动到网站把数据复制粘贴到Excel表格进行二次分析,大概没人会反对,毕竟向来都有人这么做。
但若同时使用100个AI机器人通过Python一键收集数据时,此时就会觉得,好像哪里不太对?
从伦理上,任何放在网站上的内容,我们都是先下载,才在电脑或手机上观看,意即这是属于我们“拥有”的数据。所以,主观上我们对数据收集方式的接受度,往往取决于收集规模和效率。
我的数据不受我自己控制?
大部分情况,当我们在社交平台发布内容时,就基本把所有权利给了平台。这在我们注册账号时,在“我同意”格子打勾勾的那一刻就同意了。
例如,在X.com(前Twitter)发布内容时,若你非付费会员,就无法编辑你的帖文,在WhatsApp也无法无痕的删除帖文等。所以,平台拥有了绝对的如何使用、展示及是否允许删除的权力。当然,这也包括了你的内容背后的数据使用权。
平台可售用户内容?
所谓“瘦田无人耕,耕开有人争”。以前,不曾有公司会介意有人来挖掘数据,只要有流量,一切好商量。
只要开了先例,那些无法搭建大模型数的平台,肯定会大规模抛售自己公司的数据,授权给AI公司用来训练模型。
这就引发了根本性问题:平台是否将用户内容视为可出售的产品,用户只能免费的贡献却无法获益?
这种商业模式屡见不鲜,内容创作者在没通过审核前,优管可随意植入广告而不必分成。X平台将用户的推文拿来训练AI模型,然后再跟用户收费。
你发现了吗?就是说今天是Reddit自己拿数据来建模型,然后再卖给其他人,我们既不会提出质疑,也没有资格提出质疑。
AI公司如何为使用公开内容训练模型辩护?
它们声称数据不是被转售,而是让模型变得更智能。这论调某程度上也是合理,毕竟学术研究也使用公开数据训练模型、发表论文,赚取版权,也可开发新系统牟利。
问题在于规模和透明度。当平台使用自己数据构建自家AI并收费时,我们觉得发生在同一生态系统内是理所当然的事,自然不再追究。
数据使用应更公平
无论如何,这起诉讼的结果将为AI数据使用打开先河。要是Reddit赢了,更多平台将一窝蜂地打包数据售卖给AI公司;要是Anthropic赢了,各大AI平台将更肆无忌惮地四处收割我们在网路上的所有数据。
上述官司也揭示了AI时代数据所有权的复杂性。谁会想到,我们每一次的点赞、评论、分享竟然变成训练AI模型的珍贵原料。
真正的解决方案或许不在于阻止这些公司使用公开数据,而在于建立更透明、公平的数据使用机制,让参与者都能从这生态系统中获益。
又或许,真正的问题不在技术和法律上,而是在英文本身的缺陷:Public一词无法表达完整的意思。
平台其实只是想说:喂,这是公开数据,但不代表这是公共数据哟!