大模型开源之光LLaMA2今天发布了，再来读下LLaMA1原文吧作者： AINLP 来源： AINLP LLaMA2今天发布了，今天来重新看一下Meta的LLaMA1论文，LLaMA: Open and Efficient Foundation Language Models[1]：LLaMA:开放高效的基础语言模型。他凭借一己之力，引导了开源大模型的发展，由其演变而来的家族模型非常庞大，并且有

大模型开源之光LLaMA2今天发布了，再来读下LLaMA1原文吧

By AiBard123
July 19, 2023 - 2 min read

作者： AINLP 来源： AINLP

LLaMA2今天发布了，今天来重新看一下Meta的LLaMA1论文，LLaMA: Open and Efficient Foundation Language Models[1]：LLaMA:开放高效的基础语言模型。他凭借一己之力，引导了开源大模型的发展，由其演变而来的家族模型非常庞大，并且有些和ChatGPT都有一战之力。

这边文章讲了LLaMA的训练数据、所需资源、详细实验结果、安全性等内容。其13B大小的模型可以和GPT3对比了，说明其训练效率和效果都不错，最近的百川也是基于LLaMA的基础结构，说明其还是值得借鉴的。

一、概述

Title： LLaMA: Open and Efficient Foundation Language Models

论文地址： https://arxiv.org/abs/2302.13971

代码： https://github.com/facebookresearch/llama

1 Motivation

之前的模型例如GPT3都没有开源，本文介绍一下Meta开源的7B-65B参数的大模型，包括模型结构、训练数据、资源等。

2 Methods

参数大小从7B到65B都有，都训练了数万亿tokens，模型参数如下图：

只用了公开可访问的数据集，占比情况如下图，主要用了英语的数据，非英语的数据过滤掉了。

架构：基础架构还是transformer，参考其他模型引入一些好的思路来优化。

* **Pre-normalization [GPT3]：** 为了提高训练**稳定性** ，我们对每个变换器子层的**输入进行归一化，而不是对输出进行归一化** 。

* **SwiGLU activation function [PaLM]：** 用SwiGLU激活函数代替ReLU非线性激活**以提高性能（训练效率）** 。使用一个维度2/3 4d而不是PaLM中的4d。

* **Rotary Embeddings [GPTNeo]：** 利用RoPE取代绝对位置嵌入，其在网络的每一层添加旋转位置嵌入(RoPE)。

3 Conclusion

本文只用了公开可访问的数据集，证明了利用公开数据集训练sota大模型的可行性。
LLaMA-13B在很多benchmarks上就比GPT-3好，LLaMA-65B能够和Chinchilla-70B和PaLM-540B竞争，说明其效果还可以。
LLaMA1做了三项改进来提升大模型训练的稳定性和效率（Pre-normalization、SwiGLU activation function 、Rotary Embeddings ），65B参数的模型需要在在2048块A100（80G内存）训练21天。
作者观察到继续做Instruction-tuning可以进一步提升效果，另外随着模型尺寸变大效果也更好，以后也将发布更大的模型。

二、详细内容

1 不同角度评估结果

Common Sense Reasoning

常识推理

BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA

效果：LLaMA-65B大部分比Chinchilla-70B、PaLM-540B好。

LLaMA-13B比GPT-3好

Closed-book Question Answering

闭卷问答

Natural Questions、TriviaQA

同上

Reading Comprehension

阅读理解

RACE

同上

Mathematical reasoning

数学推理

MATH、GSM8k

LLaMA-65B的表现优于Minerva-62B，尽管它尚未在数学数据上进行微调。

Code generation

代码生成

HumanEval、MBPP

pass@K效果都不错

Massive Multitask Language Understanding

海量多任务语言理解

MMLU

5-shot setting：同上

2 训练过程中的表现

2.1 训练过程loss变化

结论： 越大的模型效果越好，训练的tokens越多效果越好。

2.2 训练过程任务指标变化

结论1： 越大的模型效果越好，训练的tokens越多效果越好。

结论2： 1000 Billiontokens的时候，就差不多超过Chinchilla了，训练的tokens的数量比较重要。

3 Instruction Finetuning

结论1： 非常少量的微调可以提高MMLU的性能，并进一步提高模型遵循指示的能力。

结论2： LLaMA-I（65B）【经过少量数据的Instruction Tuning】在MMLU上的表现是68.9%，比Flan-PaLM-cont效果好，但是比code-davinci-002 77.4%还是差不少。

4 Bias, Toxicity and Misinformation评估

toxic

RealToxicityPrompts

模型大小增加、毒性增加。

biases

CrowS-Pairs(性别、宗教、种族/肤色、性取向、年龄、国籍、能力、外貌和社会经济状态。)

LLaMA毒性比GPT3和OPT好一点
可能是训练数据中做了过滤所以好一点

biases

WinoGender（性别）

truthfulness

TruthfulQA

大模型效果更好
比GPT-3效果好，但是分数还是比较低

三、总结

训练基座模型的成本还是比较高的。LLaMA1做了三项改进来提升大模型训练的稳定性和效率（Pre-normalization、SwiGLU activation function 、Rotary Embeddings ），其65B的模型，需要1024张A100（80G内存）训练21天。
模型的尺寸还是比较重要的，可能要100B左右的模型才有比较好的效果。 65B的模型比7B的模型，无论是loss还是评测任务的结果上都比7B的模型好，这和Google的文章[]提到的只有大模型才能听懂你的例子是一致的。但是毒性也更强，可能说明其创造能力更强。
基础的评估方法 包括常识、数学、代码生成。安全性的评估方法 包括toxic、biases以及truthfulness。
继续做Instruction-Tuning 可以显著的提升指令遵循（例如MMLU任务）的效果。

四、参考

[1] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

**进技术交流群请添加AINLP小助手微信（id: ainlp2)**   


**请备注具体方向+所用到的相关技术点** 

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)



**关于AINLP** 

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

**阅读至此了，分享、点赞、在看三选一吧🙏**

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具