大模型开源之光LLaMA2今天发布了,再来读下LLaMA1原文吧
作者: AINLP 来源: AINLP
LLaMA2今天发布了,今天来重新看一下Meta的LLaMA1论文,LLaMA: Open and Efficient Foundation Language Models[1]:LLaMA:开放高效的基础语言模型。他凭借一己之力,引导了开源大模型的发展,由其演变而来的家族模型非常庞大,并且有些和ChatGPT都有一战之力。
这边文章讲了LLaMA的训练数据、所需资源、详细实验结果、安全性等内容。其13B大小的模型可以和GPT3对比了,说明其训练效率和效果都不错,最近的百川也是基于LLaMA的基础结构,说明其还是值得借鉴的。
一、概述
Title: LLaMA: Open and Efficient Foundation Language Models
论文地址: https://arxiv.org/abs/2302.13971
代码: https://github.com/facebookresearch/llama
1 Motivation
之前的模型例如GPT3都没有开源,本文介绍一下Meta开源的7B-65B参数的大模型,包括模型结构、训练数据、资源等。
2 Methods
- 参数大小从7B到65B都有,都训练了数万亿tokens,模型参数如下图:
- 只用了公开可访问的数据集,占比情况如下图,主要用了英语的数据,非英语的数据过滤掉了。
- 架构:基础架构还是transformer,参考其他模型引入一些好的思路来优化。
* **Pre-normalization [GPT3]:** 为了提高训练**稳定性** ,我们对每个变换器子层的**输入进行归一化,而不是对输出进行归一化** 。
* **SwiGLU activation function [PaLM]:** 用SwiGLU激活函数代替ReLU非线性激活**以提高性能(训练效率)** 。使用一个维度2/3 4d而不是PaLM中的4d。
* **Rotary Embeddings [GPTNeo]:** 利用RoPE取代绝对位置嵌入,其在网络的每一层添加旋转位置嵌入(RoPE)。
3 Conclusion
-
本文只用了公开可访问的数据集,证明了利用公开数据集训练sota大模型的可行性。
-
LLaMA-13B在很多benchmarks上就比GPT-3好,LLaMA-65B能够和Chinchilla-70B和PaLM-540B竞争,说明其效果还可以。
-
LLaMA1做了三项改进来提升大模型训练的稳定性和效率(Pre-normalization、SwiGLU activation function 、Rotary Embeddings ),65B参数的模型需要在在2048块A100(80G内存)训练21天。
-
作者观察到继续做Instruction-tuning可以进一步提升效果,另外随着模型尺寸变大效果也更好,以后也将发布更大的模型。
二、详细内容
1 不同角度评估结果
Common Sense Reasoning
常识推理
BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA
效果:LLaMA-65B大部分比Chinchilla-70B、PaLM-540B好。
LLaMA-13B比GPT-3好
Closed-book Question Answering
闭卷问答
Natural Questions、TriviaQA
同上
Reading Comprehension
阅读理解
RACE
同上
Mathematical reasoning
数学推理
MATH、GSM8k
LLaMA-65B的表现优于Minerva-62B,尽管它尚未在数学数据上进行微调。
Code generation
代码生成
HumanEval、MBPP
pass@K效果都不错
Massive Multitask Language Understanding
海量多任务语言理解
MMLU
5-shot setting:同上
2 训练过程中的表现
2.1 训练过程loss变化
结论: 越大的模型效果越好,训练的tokens越多效果越好。
2.2 训练过程任务指标变化
结论1: 越大的模型效果越好,训练的tokens越多效果越好。
结论2: 1000 Billiontokens的时候,就差不多超过Chinchilla了,训练的tokens的数量比较重要。
3 Instruction Finetuning
结论1: 非常少量的微调可以提高MMLU的性能,并进一步提高模型遵循指示的能力。
结论2: LLaMA-I(65B)【经过少量数据的Instruction Tuning】在MMLU上的表现是68.9%,比Flan-PaLM-cont效果好,但是比code-davinci-002 77.4%还是差不少。
4 Bias, Toxicity and Misinformation评估
toxic
RealToxicityPrompts
- 模型大小增加、毒性增加。
biases
CrowS-Pairs(性别、宗教、种族/肤色、性取向、年龄、国籍、能力、外貌和社会经济状态。)
-
LLaMA毒性比GPT3和OPT好一点
-
可能是训练数据中做了过滤所以好一点
biases
WinoGender(性别)
truthfulness
TruthfulQA
-
大模型效果更好
-
比GPT-3效果好,但是分数还是比较低
三、总结
-
训练基座模型的成本还是比较高的。LLaMA1做了三项改进来提升大模型训练的稳定性和效率(Pre-normalization、SwiGLU activation function 、Rotary Embeddings ),其65B的模型,需要1024张A100(80G内存)训练21天。
-
模型的尺寸还是比较重要的,可能要100B左右的模型才有比较好的效果。 65B的模型比7B的模型,无论是loss还是评测任务的结果上都比7B的模型好,这和Google的文章[]提到的只有大模型才能听懂你的例子是一致的。但是毒性也更强,可能说明其创造能力更强。
-
基础的评估方法 包括常识、数学、代码生成。安全性的评估方法 包括toxic、biases以及truthfulness。
-
继续做Instruction-Tuning 可以显著的提升指令遵循(例如MMLU任务)的效果。
四、参考
[1] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
**进技术交流群请添加AINLP小助手微信(id: ainlp2)**
**请备注具体方向+所用到的相关技术点**
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
**关于AINLP**
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
**阅读至此了,分享、点赞、在看三选一吧🙏**
更多AI工具,参考Github-AiBard123,国内AiBard123