OpenAI遭起诉：训练ChatGPT，涉嫌窃取数百万用户信息作者：机器之心来源： [机器之心](https://mp.weixin.qq.com/s/WtMbM0VLrc-jSHleH6c1cA) 机器之心报道编辑：陈萍加州一家律师事务所表示，OpenAI 使用从网络上爬取的数据侵犯了数百万互联网用户的权

OpenAI遭起诉：训练ChatGPT，涉嫌窃取数百万用户信息

By AiBard123
June 30, 2023 - 2 min read

作者： 机器之心  来源： [机器之心](https://mp.weixin.qq.com/s/WtMbM0VLrc-jSHleH6c1cA)

机器之心报道

编辑：陈萍

加州一家律师事务所表示，OpenAI 使用从网络上爬取的数据侵犯了数百万互联网用户的权利。

明星大模型 ChatGPT 的走向开始出现一些小波折。

一家总部位于加州的克拉克森律师事务所用一份长达 157 页的诉讼将 OpenAI 告到法庭，该诉讼表明 OpenAI 在利润的驱使下，正在窃取大量个人信息来训练其人工智能模型，使其聊天机器人能够模仿人类语言。

诉讼称，这种数据抓取的规模是前所未有的。原来 OpenAI 从互联网上秘密抓取了约 3000 亿字的内容，其中包括书籍、文章、网站和帖子，甚至还包括未经同意的个人信息，这违反了隐私法。

诉讼文件链接：https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0

该诉讼指责 OpenAI 冒着「文明崩溃」的风险。他们根据受害的个人类别估计有数百万人，提出了 30 亿美元的潜在损失。

「通过收集数百万人以前模糊的个人数据，并将其挪用，进而开发不稳定的、未经测试的技术，OpenAI 将每个人置于不可估量的风险之中，但无论采取任何负责任的数据保护和使用措施，都是不可接受的，」该律师事务所的一位合伙人 Timothy K. Giordano 表示。

文件显示，OpenAI 爬取了大量的数据，包括社交媒体网站的数据。OpenAI 的专有 AI 语料库 WebText2 上积累了大量的个人数据，其中包括从 Reddit 帖子及其链接到网站中获取的数据。

OpenAI 获取的数据包括私人信息、私人对话、医疗数据、儿童信息。他们在获取这些信息时没有通知用户，更不用说被用户许可了。

除了爬取广大公众的数据外，诉讼表明 OpenAI 还存在存储和披露用户个人信息的行为，包括用户创建 OpenAI 账户的详细信息、聊天记录和社交媒体信息。

诉讼还称：尽管制定了购买和使用个人信息的协议，但被告采取了不同的方法「盗窃」。

直接使用 ChatGPT 信息遭泄露，那些集成了 ChatGPT 应用程序的用户也被波及，例如使用 Snapchat、Stripe、Spotify、Microsoft Teams 和 Slack 的用户也存在信息泄露的风险。

该诉讼要求在 OpenAI 实施更多监管和保护措施之前，暂停 OpenAI 产品的商业访问和商业开发，包括允许人们选择退出数据收集，并防止其产品超越人类智能并对他人造成伤害。除了 OpenAI，其背后的主要支持者微软也被列为被告。

「毫无疑问，人工智能平台可能为世界带来很多好事，但它们也可能对人类造成潜在的灾难性风险。」诉讼显示。

其实，OpenAI 并不是唯一一家借助互联网获取大量数据来训练 AI 模型的公司。谷歌、Meta、微软和越来越多的其他公司都在做同样的事情。但该律师事务所的一位合伙人表示，他们之所以决定追击 OpenAI，是因为去年 OpenAI 通过 ChatGPT 刺激了更大的竞争对手推出自己的人工智能产品。他们是引发这场人工智能军备竞赛的公司，他们自然是第一目标。

这波未平，那波又起。北京时间 6 月 30 日，据路透社报道，又有两名作者在美国旧金山联邦法院起诉 OpenAI，他们认为 OpenAI 滥用其作品来训练 ChatGPT。

来自马萨诸塞州的两位作家 Paul Tremblay 和 Mona Awad 表示，ChatGPT 在未经许可的情况下挖掘了数千本书的数据，侵犯了作者的版权。

大家都知道，ChatGPT 和其他生成式人工智能系统使用从互联网上获取的大量数据创建内容。Tremblay 和 Awad 的诉讼称，书籍是一个关键要素，因为它们提供了高质量长篇写作的最佳示例。

他们估计，OpenAI 的训练数据包含了超过 30 万本书，当中有许多是没有获得许可、非法获取的有版权图书。

Tremblay 和 Awad 表示 ChatGPT 可以生成非常准确的书籍摘要，表明这些书籍出现在其数据库中。

一时之间，围绕 OpenAI 的训练数据问题不断被暴露。

其实，自去年 11 月发布 ChatGPT 以来，生成式人工智能由于其可以创建文本、音频、图像、视频等大受欢迎。人们一直寻求将生成式人工智能用于个人、专业和学术目的，尽管有人担心它对个人数据带来威胁。

为了应对 ChatGPT 带来的潜在风险，今年 3 月，意大利宣布暂时禁止访问 ChatGPT，原因是出于隐私担忧，声称没有法律依据来证明用于训练 ChatGPT 的大规模数据是合法的。一些公司，包括亚马逊和微软，已经指示员工不要将机密信息输入到聊天机器人。与此同时，三星已全面禁止员工使用生成式人工智能工具。

除此以外，人工智能还会传播虚假信息也是大家担心的问题，有些人还将其故意用于恶意目的。

虽然 ChatGPT 的成功引发了科技界一场明显的人工智能军备竞赛，大大小小的公司现在都在竞相开发人工智能工具并将其部署到尽可能多的产品中。但不管怎样，信息安全还是首位的。

参考链接：**

https://www.businessinsider.com/openai-chatgpt-generative-ai-stole-personal-data-lawsuit-children-medical-2023-6

https://www.reuters.com/legal/lawsuit-says-openai-violated-us-authors-copyrights-train-ai-chatbot-2023-06-29/

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

可关注我们的公众号：每天AI新工具