AI 文摘

中文羊驼大模型二期项目v10隆重发布





作者: AINLP 来源: AINLP

Chinese-LLaMA-Alpaca-2大模型项目正式发布v1.0版本,开源Chinese-LLaMA-2-7B(基座模型)和Chinese-Alpaca-2-7B(指令/chat模型)。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。

项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

Llama-2

2023年7月19日,Meta发布了最新一代开源大模型Llama-2,其中包括四个模型大小:7B、13B、34B(推迟开源)、70B,且每个模型均包括基座模型Llama-2以及经过RLHF对齐的对话模型Llama-2-Chat。这些模型相比一代LLaMA在多个评测集上获得了显著的性能提升。

模型方面的主要特点如下:

  • 训练数据量(tokens)由原来的1T(7B/13B)和1.4T(33B/65B)全面提升至2T

  • 模型的最大上下文长度由2048提升至4096

  • 34B和70B模型额外使用了GQA(Grouped-Query Attention)技术以提升推理速度

其他特点如下:

  • 仍然需要从Meta申请模型,但条件更宽松

  • 模型分发方面相比一代LLaMA更加友好,开发者可发布二次开发的模型权重,无需像一代只能发布diff或者LoRA

  • 模型可以商用(仍然建议仔细阅读原许可证要求)

中文LLaMA-2、Alpaca-2技术特点

本项目推出了基于Llama-2的中文LLaMA-2以及Alpaca-2系列模型。

*Chinese-LLaMA-2-7B :基座模型,使用120G语料增量训练,与一期Plus系列模型一致

*Chinese-Alpaca-2-7B :指令/chat模型,在Chinese-LLaMA-2-7B的基础上进一步通过指令精调(5M条指令)获得

相比一期项目其主要特点如下:

一、经过优化的中文词表

  • 在一期项目中,我们针对一代LLaMA模型的32K词表扩展了中文字词(LLaMA:49953,Alpaca:49954),以期进一步提升模型对中文文本的编解码效率

  • 在本项目中,我们重新设计了新词表(大小:55296),进一步提升了中文字词的覆盖程度,同时统一了LLaMA/Alpaca的词表,避免了因混用词表带来的问题

二、基于FlashAttention-2的高效注意力

  • FlashAttention-2是高效注意力机制的一种实现,相比其一代技术具有更快的速度和更优化的显存占用

  • 当上下文长度更长时,为了避免显存爆炸式的增长,使用此类高效注意力技术尤为重要

三、基于NTK的自适应上下文扩展技术

  • 在一期项目中,我们实现了基于NTK的上下文扩展技术,可在不继续训练模型的情况下支持更长的上下文

  • 在上述基础上,我们进一步设计了方便的自适应经验公式,无需针对不同的上下文长度设置相应超参

  • 本项目模型原生支持4K上下文,利用上述技术可扩展至12K,并最高支持扩展至18K+(精度有一定损失)

四、简化的系统提示语

  • 在一期项目中,中文Alpaca系列模型使用了Stanford Alpaca的指令模板和系统提示语

  • 初步实验发现,Llama-2-Chat系列模型的默认系统提示语未能带来统计显著的性能提升,且其内容过于冗长

  • 本项目中的Alpaca-2系列模型简化了系统提示语,同时遵循Llama-2-Chat指令模板,以便更好地适配相关生态

主观评价效果

为了更加直观地了解模型的生成效果,本项目仿照Fastchat Chatbot Arena推出了模型在线对战平台,可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。题库来自于一期项目人工制作的200题,以及在此基础上额外增加的题目。测试模型包括:

*一期模型 :Chinese-Alpaca-Pro系列(7B/13B/33B)、Chinese-Alpaca-Plus系列(7B/13B/33B)

*二期模型 :Chinese-Alpaca-2(7B)

📊 模型在线对战:http://chinese-alpaca-arena.ymcui.com

以下是部分输出样例:‍‍‍

客观评价效果

本项目还在“NLU”类客观评测集合上对相关模型进行了测试。这类评测的结果不具有主观性,只需要输出给定标签(需要设计标签mapping策略),因此可以评测大模型的部分NLU能力。本项目在C-Eval评测数据集上测试了相关模型效果,其中验证集包含1.3K个选择题,测试集包含12.3K个选择题,涵盖52个学科。

实验结果表明,Chinese-LLaMA-2-7B和Chinese-Alpaca-2-7B相比前一代模型具有显著性能优势,甚至在大部分指标上超过一代Plus-13B模型的效果。‍‍

📚 技术报告

Yiming Cui, Ziqing Yang, Xin Yao. Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca. arXiv pre-print: 2304.08177v2. https://arxiv.org/abs/2304.08177v2

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

阅读至此了,分享、点赞、在看三选一吧🙏

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具