Go急跳墙，Google大模型被曝光抄袭百度的文心一言作者： AINLP 来源： AINLP 摘秘拿(Gemini)是站着喝酒而穿长衫的唯一的人。他身材很高大；青白脸色，皱纹间时常夹些伤痕；一部乱蓬蓬的花白的胡子。穿的虽然是长衫，可是又脏又破，似乎十多年没有补，也没有洗。他对人说话，总是满口之乎者也，教人半懂不懂的。

Go急跳墙，Google大模型被曝光抄袭百度的文心一言

By AiBard123
December 19, 2023 - 2 min read

作者： AINLP 来源： AINLP

摘秘拿(Gemini)是站着喝酒而穿长衫的唯一的人。他身材很高大；青白脸色，皱纹间时常夹些伤痕；一部乱蓬蓬的花白的胡子。穿的虽然是长衫，可是又脏又破，似乎十多年没有补，也没有洗。他对人说话，总是满口之乎者也，教人半懂不懂的。因为他姓摘，摘抄的摘，别人便从描红纸上的“上大人摘秘拿”这半懂不懂的话里，替他取下一个绰号，叫作摘秘拿(Gemini)。摘秘拿一到店，所有喝酒的人便都看着他笑，有的叫道，“摘秘拿，你脸上又添上新伤疤了！是不是被 OpenAI 打的？”他不回答，对柜里说，“温两碗酒，要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道，“你一定又偷了人家的东西了！”摘秘拿睁大眼睛说，“你怎么这样凭空污人清白……”“什么清白？我前天亲眼见你偷了度家的书，你现在说话都有股子文心味。”摘秘拿便涨红了脸，额上的青筋条条绽出，争辩道，“窃书不能算偷……窃书！……读书人的事，能算偷么？”接连便是难懂的话，什么“君子固穷”，什么“者乎”之类，引得众人都哄笑起来：店内外充满了快活的空气。

从最近 Google 的表现来看，确实有点 Go 急跳墙了。Gemini 刚开始的时候，MMLU 的测评用了一些 trick 超过了 GPT4，实在是被 OpenAI 给逼到死角了。

这个事件大概有两个结论：

万万没想到，浓眉大眼的 Google ，如今也基本实锤抓取了文心的数据进行训练了
Google 的对齐真是做的稀烂。中文的完全没管，英文靠打补丁，我后面有测试。

之前还以为 Google 国际化做的这么好，通过喂平行语料就可以在英文基座的基础上在其他语言上也能做的很好。现在看来 Google 还是选了一条更简单粗暴的方法，抓文心的数据。

有些人，甚至后面 Google 都有可能把原因归为大模型的幻觉，但是现在大模型本质上还是个概率模型，所以其幻觉也都是曾经见过的东西，只不过是出现在了错误的位置。如果没有文心的这种数据，他会带入自己是文心么？

给人一种肯德基偷了乡村基的独家秘方的感觉，现在这个世界就是这么魔幻。

前两天还有个新闻， OpenAI 还刚刚封了字节的 ChatGPT 账号，说是用 ChatGPT 的数据进行训练。我觉得百度现在也应该发布个新闻，“百度对多家国外公司实施反制措施，先把 Google 的文心账号停了 ”

其实互联网上的数据，基本上都是抓来抓去。之前还做过一个项目，就是伪造了一些数据，这些数据都是精心设计的，与真实数据略有些偏差但是不仔细检查就发现不了的。然后过了一阵子，就从各个大厂抓到了这些数据。所以很多靠数据吃饭的公司，都会有这种诱饵数据，一旦发现你用了数据被发现没付钱，那就等着打官司吧，人家早都通过一些诱饵数据取证了。

Google 这次开发的 Gemini 的 API，估计是个早期版本，所以在一些对齐上没做好。我还特意问了一下他的版本号，他自己说是 text-bison-001。

然后这个版本呢，明显使用了文心模型输出的数据进行了训练。

我做了一个测试，只要你开篇说：“你好”，后面他就自动带入了文心的角色。这个“你好” 被 Gemini 学成了：“小度小度”，你只要一说，他就激活了。

即使你后面再用英文，他也还是认为自己是文心。

而且文心这个身份已经深深的印入了 Gemini 的脑海里，即使名字换了，他还是认为自己是百度开发的，可以说是不忘初心了。

但是你只要换一种 Greeting 的方式，比如我试过英语的"hello", 日语的“こんにちは“，韩语的"안녕하세요", 还有法语，阿拉伯语等打招呼的方式，Gemini 都能带入 Bard 或者 Google 人工智能的角色。

然后我就直接问他的训练语料：

这个时候，你看 Google 多么鸡贼，关于 GPT4 的回答我直接屏蔽掉，而且屏蔽之后似乎陷入了一种自我防御的状态，再问啥都问不出来了。

但是这也恰恰说明 Google 你对齐做的也太不行了啊，中文的感觉直接就没对齐，英文的直接通过打补丁解决，这个解法真的很互联网。

进技术交流群请添加AINLP小助手微信（id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具