AI 文摘

OpenAI大反击!称纽约时报涉嫌故意操纵,且数据是「合理使用」





作者: 人工智能技术与时代人物风云 来源: 人工智能技术与时代人物风云

夕小瑶科技说 原创
作者 | 王二狗

大家好我是二狗。

《纽约时报》向法院起诉OpenAI侵犯版权后续事件来了!

就在今天,OpenAI进行了一场“危机公关”:直接在官方博客上撰文发声,反驳《纽约时报》的诉讼,其主要观点有四个:

1、我们正在和新闻机构积极合作并共同探索新的机会;

2、使用公开可用的互联网材料训练AI模型是合理使用,但我们仍然为机构提供选择退出的机会,因为这是合乎道德的做法;

3、“信息再现”是一种罕见的bug,我们正在努力将其降至零;

4、《纽约时报》没有讲述事情的全貌;

下面二狗就来看看OpenAI具体是如何展开这4点进行“危机公关”的。

正在和新闻机构合作并探索新的机会

OpenAI表示:“我们在技术设计过程中努力支持新闻机构,已经会见了数十家新闻机构以及像新闻/媒体联盟这样的领先行业组织,探索机会、讨论他们的担忧,并提供解决方案。我们的目标是学习、教育、倾听反馈并适应。”

OpenAI称其目标是支持健康的新闻生态系统,成为良好的合作伙伴,并创造互利的机会。基于这一点,OpenAI 与新闻机构建立了伙伴关系,以实现下面这些目标:

  • 部署我们的产品来帮助记者和编辑处理繁琐的任务,如分析庞大的公共记录和翻译新闻。

  • 通过对额外的历史、非公开内容进行训练,教会我们的 AI 模型关于世界的知识。

  • 在 ChatGPT 中实时展示内容并进行归属标记,为新闻出版商提供与读者连接的新方式。

OpenAI称与美联社、美国新闻项目和纽约大学的早期合作为他们的方法提供了一个参考。

二狗点评:

这是危机公关常用手段,要学会美化自己,表示自己已经做了很多合作的努力。

####使用公开可用的互联网材料训练AI模型 是合理使用

OpenAI针对这点给出了三条“有理有据”的解释:

1、使用公开可用的互联网材料训练AI模型是合理使用,这一点得到了长期和广泛接受的先例支持。这一原则对创作者公平,对创新者必要,对美国竞争力至关重要。

二狗点评:

说实话二狗第一次看到 OpenAI 的这个观点时是震惊的,因为总感觉「合理使用」这个词听起来是如此的熟悉,好像在哪里见过一样。另外OpenAI 这一波厉害啊,直接上升到了国家高度,合着不让它白嫖训练数据就影响到了提美国的竞争力,高啊是在是高。

2、训练 AI 模型是合理使用的原则得到了广泛的学者、图书馆协会、民间社会团体、初创公司、领先的美国公司、创作者、作者等的支持,他们最近向美国版权办公室提交了评论。其他地区和国家,包括欧洲联盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律——这对 AI 创新、进步和投资是一种优势。

二狗点评:

OpenAI先是说训练AI 模型的这种“合理使用”一直都是大家支持和默认的,怎么到我这里来就不行了呢?另外其他国家也都在法律上允许的呀!哼😠生气气!

3、话虽如此,法律权利对我们来说不如做好公民重要。我们在为出版商提供简单退出流程方面引领了 AI 行业,以防止我们的(爬虫)工具访问他们的网站,而且《纽约时报》在 2023 年 8 月采用了这一流程。

二狗点评:

OpenAI这次当起了乖宝宝:别看合理使用训练数据都是合法的,但我们也为出版商做出了退出流程,我们想的多周到啊!

“再现”是我们正在努力消除的罕见错误

OpenAI:

  • 我们的模型被设计和训练是为了学习概念,以便解决新问题。我们采取了措施来限制不经意的记忆并防止模型输出中再现。

  • 但是《纽约时报》故意操纵我们的模型来再现他们的文章是对我们技术的不适当使用,违反了我们的使用条款。

  • 正如人类获得广泛的教育以学习如何解决新问题一样,我们希望我们的 AI 模型观察世界信息的范围,包括来自每种语言、文化和行业。因为模型从人类知识的巨大总和中学习,任何一个领域——包括新闻——都是整体训练数据的一小部分,任何单一数据来源包括《纽约时报》对模型预期的学习都不重要。

二狗点评:

OpenAI开始甩锅了:文章复现只是技术bug、《纽约时报》涉嫌故意操控来输出内容复现、《纽约时报》的文章对AI模型的学习根本不重要。

《纽约时报》隐瞒了完整的故事

OpenAI:

我们与《纽约时报》的讨论似乎一直在我们最后一次通信(12 月 19 日)上取得建设性的进展。谈判的重点是围绕 ChatGPT 中的实时展示和归属标记建立高价值的合作伙伴关系,其中《纽约时报》将获得与现有和新读者联系的新方式,我们的用户将获得对他们报道访问。我们向《纽约时报》解释,就像任何单一来源一样,他们的内容对我们现有模型的训练没有实质性贡献,也不会对未来训练产生足够的影响。他们在 12 月 27 日提起的诉讼(我们是通过阅读《纽约时报》了解到的)对我们来说是一个惊讶和失望。

在此过程中,他们曾提到看到了一些他们内容的再现,但反复拒绝分享任何示例,尽管我们承诺调查并解决任何问题。例如,在 7 月,我们得知 ChatGPT 的一个功能可能以意想不到的方式复制实时内容后,我们立即关闭了该功能,这表明我们非常重视这一优先事项。

有趣的是,纽约时报引发的再现似乎来自多年前的文章,这些文章已在多个第三方网站上传播。看来他们故意操纵提示,经常包括文章的长篇摘录,以便让我们的模型再现。即使使用这样的提示,我们的模型通常不会像《纽约时报》暗示的那样行为,这表明他们要么指示模型再现,要么从许多尝试中挑选他们的示例。

尽管他们这种误用并不是典型的或被允许的用户活动,也不是《纽约时报》的替代品。无论如何,我们正在不断使我们的系统对抵御敌对攻击以再现训练数据更具抵抗力,并且在我们最近的模型中已经取得了很多进展。

我们认为《纽约时报》的诉讼毫无根据。尽管如此,我们仍然希望与《纽约时报》建立建设性的合作关系,并尊重其长期历史,其中包括 60 多年前报道第一个工作神经网络以及捍卫第一修正案自由。

我们期待着与新闻机构的持续合作,通过实现 AI 的变革潜力,帮助提升他们产生高质量新闻的能力。

二狗点评:

我们OpenAI是好人:我们一直在和《纽约时报》积极沟通,但是没想到他们反过头起诉了我们,我们很是震惊,而且吧我们再次声明《纽约时报》的训练文章对我们的ChatGPT的构建毫无帮助,但我们还是很重视,配合他们做了很多举措。但不管怎样,作为AI老大哥,我们很大气的!我们仍然希望与《纽约时报》建立建设性的合作关系!大家快来夸我吧!

最后,以上点评只代表二狗个人看法,欢迎大家各抒己见~

参考资料

[1]https://openai.com/blog/openai-and-journalism
[2]https://venturebeat.com/ai/openai-responds-publicly-to-ny-times-copyright-lawsuit-without-merit/

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具