AI 文摘

大模型开源之光LLaMA2今天发布了,再来读下LLaMA1原文吧





作者: AINLP 来源: AINLP

LLaMA2今天发布了,今天来重新看一下Meta的LLaMA1论文,LLaMA: Open and Efficient Foundation Language Models[1]:LLaMA:开放高效的基础语言模型。他凭借一己之力,引导了开源大模型的发展,由其演变而来的家族模型非常庞大,并且有些和ChatGPT都有一战之力。

这边文章讲了LLaMA的训练数据、所需资源、详细实验结果、安全性等内容。其13B大小的模型可以和GPT3对比了,说明其训练效率和效果都不错,最近的百川也是基于LLaMA的基础结构,说明其还是值得借鉴的。

一、概述

Title: LLaMA: Open and Efficient Foundation Language Models

论文地址: https://arxiv.org/abs/2302.13971

代码: https://github.com/facebookresearch/llama

1 Motivation

之前的模型例如GPT3都没有开源,本文介绍一下Meta开源的7B-65B参数的大模型,包括模型结构、训练数据、资源等。

2 Methods

  1. 参数大小从7B到65B都有,都训练了数万亿tokens,模型参数如下图:

  1. 只用了公开可访问的数据集,占比情况如下图,主要用了英语的数据,非英语的数据过滤掉了。

  1. 架构:基础架构还是transformer,参考其他模型引入一些好的思路来优化。
* **Pre-normalization [GPT3]:** 为了提高训练**稳定性** ,我们对每个变换器子层的**输入进行归一化,而不是对输出进行归一化** 。

* **SwiGLU activation function [PaLM]:** 用SwiGLU激活函数代替ReLU非线性激活**以提高性能(训练效率)** 。使用一个维度2/3 4d而不是PaLM中的4d。

* **Rotary Embeddings [GPTNeo]:** 利用RoPE取代绝对位置嵌入,其在网络的每一层添加旋转位置嵌入(RoPE)。

3 Conclusion

  1. 本文只用了公开可访问的数据集,证明了利用公开数据集训练sota大模型的可行性。

  2. LLaMA-13B在很多benchmarks上就比GPT-3好,LLaMA-65B能够和Chinchilla-70B和PaLM-540B竞争,说明其效果还可以。

  3. LLaMA1做了三项改进来提升大模型训练的稳定性和效率(Pre-normalization、SwiGLU activation function 、Rotary Embeddings ),65B参数的模型需要在在2048块A100(80G内存)训练21天。

  4. 作者观察到继续做Instruction-tuning可以进一步提升效果,另外随着模型尺寸变大效果也更好,以后也将发布更大的模型。

二、详细内容

1 不同角度评估结果

Common Sense Reasoning

常识推理

BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA

效果:LLaMA-65B大部分比Chinchilla-70B、PaLM-540B好。

LLaMA-13B比GPT-3好

Closed-book Question Answering

闭卷问答

Natural Questions、TriviaQA

同上

Reading Comprehension

阅读理解

RACE

同上

Mathematical reasoning

数学推理

MATH、GSM8k

LLaMA-65B的表现优于Minerva-62B,尽管它尚未在数学数据上进行微调。

Code generation

代码生成

HumanEval、MBPP

pass@K效果都不错

Massive Multitask Language Understanding

海量多任务语言理解

MMLU

5-shot setting:同上

2 训练过程中的表现

2.1 训练过程loss变化

结论: 越大的模型效果越好,训练的tokens越多效果越好。

2.2 训练过程任务指标变化

结论1: 越大的模型效果越好,训练的tokens越多效果越好。

结论2: 1000 Billiontokens的时候,就差不多超过Chinchilla了,训练的tokens的数量比较重要。

3 Instruction Finetuning

结论1: 非常少量的微调可以提高MMLU的性能,并进一步提高模型遵循指示的能力。

结论2: LLaMA-I(65B)【经过少量数据的Instruction Tuning】在MMLU上的表现是68.9%,比Flan-PaLM-cont效果好,但是比code-davinci-002 77.4%还是差不少。

4 Bias, Toxicity and Misinformation评估

toxic

RealToxicityPrompts

  1. 模型大小增加、毒性增加。

biases

CrowS-Pairs(性别、宗教、种族/肤色、性取向、年龄、国籍、能力、外貌和社会经济状态。)

  1. LLaMA毒性比GPT3和OPT好一点

  2. 可能是训练数据中做了过滤所以好一点

biases

WinoGender(性别)

truthfulness

TruthfulQA

  1. 大模型效果更好

  2. 比GPT-3效果好,但是分数还是比较低

三、总结

  1. 训练基座模型的成本还是比较高的。LLaMA1做了三项改进来提升大模型训练的稳定性和效率(Pre-normalization、SwiGLU activation function 、Rotary Embeddings ),其65B的模型,需要1024张A100(80G内存)训练21天。

  2. 模型的尺寸还是比较重要的,可能要100B左右的模型才有比较好的效果。 65B的模型比7B的模型,无论是loss还是评测任务的结果上都比7B的模型好,这和Google的文章[]提到的只有大模型才能听懂你的例子是一致的。但是毒性也更强,可能说明其创造能力更强。

  3. 基础的评估方法 包括常识、数学、代码生成。安全性的评估方法 包括toxic、biases以及truthfulness。

  4. 继续做Instruction-Tuning 可以显著的提升指令遵循(例如MMLU任务)的效果。

四、参考

[1] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

**进技术交流群请添加AINLP小助手微信(id: ainlp2)**   


**请备注具体方向+所用到的相关技术点** 

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)



**关于AINLP** 

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

**阅读至此了,分享、点赞、在看三选一吧🙏** 

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具