(资料图片)
站长之家(ChinaZ.com) 6月30日消息:加利福尼亚一家律师事务所对 OpenAI 提起了一项集体诉讼,指控其「窃取」个人数据用于训练 ChatGPT。
Clarkson 律师事务所在周三向加利福尼亚北区法院提起诉讼,声称 ChatGPT 和 Dall-E「使用窃取的私人信息,包括可识别个人身份的信息,来自数亿互联网用户,包括各个年龄段的儿童,而这些用户并未给予知情同意。」
为了训练其庞大的语言模型,OpenAI 从互联网上抓取了 3000 亿个词,其中包括社交媒体网站如 Twitter 和 Reddit 上的个人信息和帖子。该律师事务所声称 OpenAI「秘密进行这样的操作,而且未按照适用法律的规定注册为数据经纪人。」
OpenAI 因其收集和使用数据的方式而引起争议。直到最近,用户没有明确的方式可以选择不让 OpenAI 使用他们的对话和个人信息来训练模型。ChatGPT 最初在意大利根据欧洲通用数据保护条例 (GDPR) 被禁止,原因是用户数据保护不充分,尤其是涉及未成年人的数据。
此次诉讼涉及 OpenAI 针对现有用户的不透明隐私政策,但主要关注从互联网上抓取的数据,这些数据本来从未明确意图与 ChatGPT 共享。通过微软的数十亿美元投资和 ChatGPT Plus 的订阅收入,OpenAI 从这些数据中获利,却没有对数据来源进行补偿。
诉讼中的 15 项指控包括侵犯隐私、疏忽未能保护个人数据和非法获取大量个人数据用于训练模型。像 Common Crawl、维基百科和 Reddit 这样的数据集包含个人信息,只要公司遵循购买和使用这些数据的协议,它们就是公开可用的。
但 OpenAI 据称在未经用户许可或同意的情况下在 ChatGPT 中使用了这些数据。尽管人们的个人信息在社交媒体网站、博客和文章上是公开的,但如果数据在预期平台之外使用,则可能被视为侵犯隐私。
在欧洲,公共领域和免费使用数据之间有法律区别,这得益于《通用数据保护条例》(GDPR),但在美国,这仍然在争议之中。Gartner 隐私研究副总裁 Nader Henein 认为,诉讼所表达的观点是有效的,他说:「人们应该对他们的数据如何使用拥有控制权,即使这些数据在公共领域中可获得。」但 Henein 不确定美国的法律体系是否会同意这一观点。
Clarkson 律师事务所的管理合伙人 Ryan Clarkson 在该公司的博客文章中表示,现在必须立即行动,利用现有法律,而不是等待行政和司法部门对人工智能做出反应并进行联邦监管。「我们无法承担像社交媒体或核技术一样的负面后果的代价,作为一个社会,我们所付出的代价太高了。」