AI 文摘

CALM:大模型融合新技巧





作者: AINLP 来源: AINLP

论文标题:LLM Augmented LLMs: Expanding Capabilities through Composition

所属机构:Google Research, Google DeepMind

摘要

本文提出了一种名为CALM(Composition to Augment Language Models)的新框架,用于通过组合现有的基础模型(如大型语言模型LLMs)与更具体的模型来扩展新的能力。CALM通过在模型之间引入交叉注意力机制,来组合它们的表示并启用新的能力。CALM的主要特点包括:(i)通过“重用”现有的LLMs以及少量额外的参数和数据来扩展LLMs在新任务上的能力;(ii)保持现有模型权重不变,从而保留现有能力;(iii)适用于多种领域和设置。实验表明,通过将PaLM2-S与针对低资源语言训练的较小模型相结合,可以在将低资源语言翻译成英语和为低资源语言进行算术推理的任务上实现高达13%的绝对改进。同样地,当PaLM2-S与针对代码特定模型相结合时,在代码生成和解释任务上相对于基础模型实现了40%的相对改进。

引言

大型语言模型(LLMs)已经在多个领域展示了其基础能力,如常识和事实推理、世界知识和连贯的语言生成。然而,由于其单一的结构,为这些模型增加新技能或进行增强是具有挑战性和成本高昂的。另一方面,多个新实例的这些模型正在针对新领域和任务进行训练。本文研究了如何有效地将现有基础模型与更具体的模型组合起来,以实现新能力的问题。为此,我们提出了CALM框架,它在模型之间引入交叉注意力,以组合它们的表示并启用新能力。

相关工作

参数高效微调

许多研究工作关注于如何通过引入少量可训练参数来高效地微调模型以适应新领域,同时保持原有模型的完整性。这种方法允许模型在不改变原始模型结构的情况下学习新任务,但挑战在于如何适应那些在原始训练数据集中不存在的新领域。

模型合并

通过使用任务向量平均等简单技术合并不同的专家模型,可以重新组合这些模型的不同能力。然而,这些方法仅在原始模型之间高度对齐时才有效。其他相关方法也仅适用于源自同一模型或大小相同的模型。

模型和任务的组合性

基于模块化编码器-解码器的方法允许灵活重用具有不同能力的编码器组件。过去的研究也从多模态的角度探索了组合性。例如,Alayrac等人通过在语言模型中引入跨注意力参数来关注来自图像编码器的表示,展示了两个模型之间能力的有效转移。

模型作为工具

另一种使用多个语言模型解决下游任务的方法是在模型的输入文本空间中进行组合。Schick等人展示了如何教会模型使用外部工具,这可能为将其他模型作为同一框架的一部分进行调用提供了机会。

CALM框架

CALM框架的目标是在不改变模型权重的情况下,通过组合锚定模型(mB)和增强模型(mA)来实现新的能力。

CALM在mA和mB的中间层表示上学习两组额外的参数:

(i)一组简单的线性变换,将mA的层表示映射到mB的表示维度;

(ii)一组交叉注意力层,使得mA的变换层表示与mB的层表示进行交叉注意力。

通过这种方式,CALM能够在不改变基础模型的情况下,利用增强模型的特定能力来解决新任务。

为了训练组合模型,需要一组训练数据,这些数据能够展示两个模型的“组合技能”。理想情况下,这些数据应该包含两个模型各自擅长的任务的组合。例如,如果一个模型擅长数学推理,另一个模型擅长语言生成,那么训练数据应该包含需要这两种技能的任务。

实验

本文在三个领域展示了CALM的应用:(a)通过组合一个专门训练于字符串键和数值映射的小型增强模型和一个能够执行算术运算的大型锚定模型,解决了包含这些键的算术表达式问题;(b)通过组合一个针对低资源语言预训练的增强模型和一个大型锚定模型,扩展了锚定模型在低资源语言的翻译和算术推理任务上的能力;(c)通过组合一个针对代码领域训练的增强模型和一个大型锚定模型,提高了代码生成和解释任务的性能。

结论

CALM框架成功地将锚定LLM与专业增强模型组合起来,以实现单个模型无法完成的新任务。CALM不需要更新个体模型,而是通过少量可训练的交叉注意力参数学习模型之间的密集交互。实验结果一致表明,CALM能够利用两个模型的专业知识。此外,CALM可以扩展到从多个增强模型中获取不同的知识。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具