AI 文摘

中文数据让LLM变笨?





作者: AINLP 来源: AINLP

事情的起因是知乎上有人针对一篇文章的疑问:

文章链接:

https://arxiv.org/abs/2401.10286

题目:Top in Chinese Data Propecessing: English Code Models

论文在摘要里提到:在对中文幻觉高度敏感的任务 中,实验结果表明,具有较少中文语言特性的模型,取得了更好的性能。

完整摘要:

尽管在语言模型应用中,任务与训练语料库之间的一致性是一个基本共识,但我们的一系 列实验和我们设计的度量标准揭示,基于代码的大型语言模型(LLMs)在非编码中文任务 中显著优于在与任务紧密匹配的数据上训练的模型。此外,在对中文幻觉高度敏感的任务 中,实验结果表明,具有较少中文语言特性的模型,取得了更好的性能。我们的实验结果可 以在中文数据处理任务中很容易地被复制,例如为检索增强生成(Retrieval-Augmented Generation, RAG)准备数据,只需简单地用基于代码的模型替换基础模型。此外,我们的研究 为讨论哲学上的“中文房间”思想实验提供了一个独特的视角。

在本文的4.2.2 Less Chinese Knowledge, Less Hallucination中

原文翻译:

表3展示了DeepSeek代码6.7b和Code Llama 7b的评估结果,它们都是在代码数据上训练的,并且具有几乎相 同数量的参数。DeepSeek代码6.7b得分低于Code Llama 7b在EXPERTS上的主要原因是,DeepSeek代码6.7b的 回答有时包含一些源材料中没有的信息【也就是幻觉比较重】。CCR指标也证实了Code Llama 7b具有较少 的幻觉。在我们的知识生成任务中,原始内容的逐字复制是必要的,因此具有较少中文知识的基于代码 的LLM表现更好【这个其实比较难评了,DeepSeek Code 6.7b和Code Llama 7b,这两个模型的训练细节都 完全不一样,没法直接归因到中文数据吧?】。实验结果表明,过多的中文知识可能会干扰任务的完成。这 一结果使我们深思:更大的模型可能拥有更多知识,然而在这个任务中,我们并不需要一个更有知识的模 型,而是需要一个更忠实的模型,减少幻觉。

表3:

然后就有人开始讨论:是否存在“中文会让大模型”变笨这一问题。

在知乎上提出这个问题的题主和论文作者沟通后,作者强调最大的一个贡献点:代码模型比普通llm在数据生成任务中效果要好很多,甚至于比论文中没提到的3.5和4.0效果都好,这个发现,对社区的帮助还是很大的。

作者希望大家多关注代码模型在非代码场景下的应用;关注我们提出的抹掉模型中文能力后,用同样中文数据用同样超参和轮数SFT后,在中文评测集上评测模型真实能力的避免训练数据污染的评测方法。

并且有本人的亲自回复:

太难了,我们的论文里根本没有涉及中文让大模型变笨这一话题。

我们论文里只是说,如果大模型本身包含太多中文知识,那么大模型在处理中文数据任务上(例如从文章中提取摘要、从文章中抽取QA对等给材料的任务)。模型会引入额外的幻觉。这些幻觉是有害的。例如某些特定的术语(黑话)就会被模型当成错词给改掉。

另外我们论文里重要的地方不是这里,重要的是把代码模型用在了代码以外的地方。我们认为所有不需要引入额外知识的数据处理任务(抽摘要、抽知识点、看材料阅读理解等等。不包括翻译等任务。),都是简单任务,都适合用体积小逻辑强的代码模型来做。大家如果有相关任务,只需要把之前的中文普通基座模型换成代码模型,SFT后就可以看到效果有飞跃性提升(只要别用Lora训)。因为GPT4也会引入中文幻觉,所以效果是比GPT4更好的。我们觉得大家以后要搞私有知识库,都会遇到内部数据标准化的问题,都可以用我们论文里的方法试试,模型小速度快效果好而且不会引入外部知识。

此外我们论文还提出了一种新的评价模型能力的办法,这个办法可以完全避免数据污染问题。就是把大模型的中文能力消除掉(通过破坏词表等方式),然后让大模型用中文数据训练(同样数据、同样超参、同样训练轮数),然后看模型在中文评测集上的分数。

最后,眼看着欧美大佬都在讨论AI安全话题,我们也凑了个热闹,论文里提出了用中文做个笼子,把AI关起来的方案。和Chinese Room这个哲学话题很像。

欢迎大家阅读我们的论文原文http://arxiv.org/abs/2401.10286 ,我们也会赶紧更新一版论文中的文字来回应近期的一些误读。

**总结

包大人也觉得这个4.2.2的地方实验有不严谨的地方,存在被人断章取义的风险。作者本文讨论的重点是额外的知识对于垂直的模型是不是有副作用,答案是有的,会引入额外的幻觉。并且额外的知识在同种语种下更容易激发出来,所以作者强调如果你的任务特别垂直,不需要引入额外的知识,或者依赖大模型本身的知识储备,那用代码模型要比完整的chat模型效果好,尤其是在减轻幻觉方面。

然后引发了“中文是否会让大模型变笨”这一有趣的讨论。 结论就是:有些简单任务本身不需要大模型太聪明,懂得太多成了负担,这时候中文数据集太多会让你垂直的任务“变笨”->“更多幻觉”。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)**

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具