AI 文摘

🤗Firefly微调LLaMA-30B,OpenLLM榜单同量级第10名





作者: YeungNLP 来源: YeungNLP

此前Firefly项目微调了firefly-llama2-13b,在🤗Open LLM榜单上最好成绩为第三名(13B模型)。

突发奇想,Firefly是否能使用单卡V100微调30B的模型,实践后发现确实可行。相同的global batch size,训练速度大约比13B的模型慢一半。评测🤗Open LLM榜单,目前在所有30B模型中排名第十,超过Vicuna-30B。由于33B的模型太大,推理部署要求较高,目前暂未测试其生成效果。

值得注意的是,我们采用QLoRA训练方法,而非全量参数微调,相比榜单上的绝大多数30B的模型,需要更少的训练资源。进一步验证了Firefly项目的训练pipeline与QLoRA的有效性。如果你的训练资源非常有限,Firefly值得尝试。

此外,在firefly-llama2-13b的基础上,我们对训练数据进一步清洗过滤,提升训练数据的质量,训练了firefly-llama2-13b-v1.2。该模型支持多轮对话,并且在Open LLM榜单上分数为62.17分,比此前提升了0.13分。前天排名第7,如今排名大约13名,只能感叹榜单刷新太快了。

目前Firefly项目微调的LLaMA模型,使用的均为英文数据,未进行中文词表扩充。模型权重见Github项目介绍。

欢迎大家关注Firefly项目,目前已支持对XVERSE、通义千问Qwen、LLaMA-2、Baichuan、InternLM、ChatGLM2、Bloom、Ziya、LLaMA-1等开源大模型进行多轮对话指令微调。

项目地址:

https://github.com/yangjianxin1/Firefly

我们并未使用榜单中类似形式的训练数据,成绩的提升更多来自于对训练数据的清洗过滤,训练数据质量的提升。

​客观公正地说,Open LLM榜单只更多评价的是模型的客观常识做题能力,更全面地评估应该考虑竞技场的形式。

最后是一些碎碎念,自发布以来,Firefly受到了很多同学以及业内同行的关注和支持,不胜感激。在这个过程中也认识了很多新朋友,学习到了很多新知识。也深刻体验了"信息回不完"。

在维护Firefly项目的基础上,近期我们将集中更多精力在增量预训练项目Firefly-LLaMA-Chinese上,目前训练流程已开发完成,正在进行训练。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具