AI 文摘

值得一看的大模型最新综述:兼看多语种大模型微调数据集Aya


  • By AiBard123
  • February 23, 2024 - 2 min read



作者: 老刘说NLP 来源: 老刘说NLP

今天是2024年2月14日,星期三,农历初五,开市大吉,祝大家新年快乐。

作短暂歇息之后,我们来看看一些有趣的工作,一个是一个新的大模型综述《Large Language Models: A Survey》里面的图挺漂亮的,读下来会很有收获。

另一个是多语种微调数据集Aya《Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning》,这对多语种能力的大模型能力训练有直接收益。

里面有十多张图很有趣,分享出来,供大家一起参考。

一、值得一看的新大模型综述,细节可多研究

一个新的大模型综述《Large Language Models: A Survey》,https://arxiv.org/abs/2402.06196,整个工作在模块设计上逻辑性不错,里面的图挺漂亮的,读下来会很有收获。

1、关于大模型的能力项的分类

当前,有很大一个方向是在探索大模型的能力边界,大模型所具备的能力,可以细分为基本能力Basic,包括知识理解能力World knowledge、理解能力Comprehension、多语种能力Multilingual、代码能力Coding;

也包括涌现能力Emerging,包括指令遵循能力Instruction following、推理能力Reasoning、fewshot能力In-context learning;

也包括增强后的能力Augmented,包括用户互动interacting with users、自我改良Self-improvement以及工具使用Tool utilization

2、关于当前主流大模型的分类

关于大模型的分类,目前已经有很多,从不同角度上作分类,例如基座模型、微调哦行、参数量量级分为小型、中型、大型,权限上是私有还是公有。

如下表所示,包括Encoder-Only、Decoder-only、Encoder-Decoder,也出现了很多大模型家族以及系列大模型,其中对应的tokens数量,训练数据集、参数量等。

例如,GPT Family(GPT-3、CODEX、WebGPT等)、LLaMA Family(LLaMA1、LLaMA2等)、PaLM Family(PaLM-2、Med-PaLM 2)

3、关于大规模参数量对fewshot的影响

GPT-3表明,大型模型对上下文信息的利用效率越来越高。在一项要求模型从单词中移除随机符号的简单任务中,无论是有自然语言任务描述还是没有自然语言任务描述,它都显示了上下文学习性能。

4、关于人类反馈学习RLHF的实现流程

人类反馈学习是当前chatgpt得以强大的重要隐私,我们依旧可以从sft\rm\ppo三个阶段进行回顾,十分经典。

另外,最新的强化,已经从ppo,逐步演化到dpo,可以关注这方面的进展。DPO优化人类偏好,同时避免强化学习。利用人类反馈对语言模型进行微调的现有方法,首先将奖励模型与提示数据集和人类对成对回答的偏好进行拟合,然后使用RL来找到使所学奖励最大化的策略。相比之下,DPO通过一个简单的分类目标直接优化最能满足偏好的策略,而不需要明确的奖励函数或RL。

5、关于当前代表性的大模型框架演变时间线

当前大模型演化已经经历了快速发展的过程,从2017年的bert到2023年的mixtral,可以拉一个时间线出来。

6、关于大模型研发过程中的不同部件

大模型研发是个pipeline很长的过程,可以进一步细分为Data Cleaning、Tokenizations、Positional Encoding、LLM Architectures、Model Pre-training、Fine-tuning and Instruction Tuning、Alignment、Decoding Strategies、Cost-Effective Training/Inference, Adaptation & Compression等,每一处细分细节,都是可以掌握和深挖的点。

7、关于当前大模型不同的位置编码

当前位置编码问题,在长文本建模中尤为重要,目前包括绝对位置编码Absolute Positional Embeddings、相对位置编码Relative Positional Embeddings、旋转位置编码Rotary Positional Embedding以及相对位置偏置Relative Positional Bias等。

8、关于大模型预训练数据的处理

Macrodata Refinement的后续阶段删除了CommonCrawl中近90%的原始文件,先后经过了去重、去噪等多项步骤。

9、关于当前大模型评估数据集

大模型性能评估是个大问题,当前出现了很多针对不同能力项的评估基准,例如测试代码能力的Humaneval,mbpp,测试数学能力的GSM8K以及MATH等,其评估指标计算方式,评估官方代码,官方榜单也值得关注。

10、关于大模型的应用及增强范式

关于大模型应用,是当前落地阶段最关注的话题,其中涉及到大模型的局限性LLM limitations(主要体现在幻觉Hallucination以及引申出来的一系列度量标准)、关于大模型的prompt工程(主要体现在Prompt Design and Engineering,涉及到Chain of Thought、Tree of Thought、 Self-Consistency、 Automatic Prompt Engineering等),

当前,也包括信息检索增强(Augmenting LLMs through external knowledge-RAG,涉及到检索器、检索工具(如langchain, lammaindex)以及问答中的prompt设计),也包括如何通过agent调用外部工具进行处理,如何使用知识图谱进行检索。

11、关于大模型Agent的论述

例如,HuggingGPT是一个典型的Agent框架,其利用大模型对huggingface上的一些api进行调用,从而完成特定场景下的应用。

一个典型的agent架构,包括外部知识、AI Agent、Utility、policy以及Action Executor模块

12、关于大模型结构的趋势

Switch Transformer encoder block,也就是当前MOE的常用架构,关于这块可以看看老刘之前的写过的一些文章。

13、关于模型量化加速与蒸馏

当前怎么在低资源下训练、使用大模型是一个很有趣的工作,最早的lora以及当前模型自蒸馏受到广泛关注。

将单个模型(实际上是多个模型)的知识提炼成较小模型的方法,通过这种方法创建更小的模型,可以获得更小的模型尺寸,甚至可以在边缘设备上使用,典型的过程如下图所示。

二、值得一看的多语种大模型微调数据集Aya

开源微调数据集十分重要,特别是多语种类型,最近的一个工作《Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning》(https://arxiv.org/abs/2402.06619)可以看看。

1、已有的多语种微调数据集

下表中比较不同的指令调整数据集,对勾代表允许商业使用的许可,≈代表不允许商业使用的限制性许可,错号代表无法获得许可证。

2、Aya微调数据集

图1显示了Aya数据集、Aya系列和Aya评估套件,这些都是由65种语言的流利使用者撰写的经过人工编辑的原创提示-回答对。

右边是Aya数据集,由44个单语和多语模板指令数据集和19

个翻译数据集组成,涵盖114种语言和三个主要任务:文本分类、自然语言生成和问题解答。 图中蓝色椭圆中的数值表示数据集中的语言数量。

总结

本文主要介绍大模型综述以及一个多语种微调数据集,关于实现流程、每个模块的进一步外延,都可以多看看,会很有收获。

假期已过半,大家多休息,让节奏慢下来。

参考文献

1、https://arxiv.org/abs/2402.06196

2、https://arxiv.org/abs/2402.06619

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具