距离GPT-4更近一步MistralAI开源MixtralMoE模型
作者: 人工智能技术与时代人物风云 来源: 人工智能技术与时代人物风云
随着 ChatGPT 的发布,大模型进入快速发展期,2023 年 2 月 Llama 模型的开源更是为社区注入新的活力,推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。国产大模型诸如 ChatGLM、Baichuan、InternLM、Qwen 和 DeepSeek 等,以其卓越的性能和本土化优势,吸引了广泛的关注和讨论。在国际舞台上,Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐,开源模型的创新和潜力不断激发着社区的探索热情。
Mistral AI:简单点,做开源的方式简单点
在这场开源社区的"百模大战"中,Mistral AI 这家欧洲大模型初创企业,近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型,再次点燃了整个开源界的热情。与其他公司不同,Mistral AI 采取了截然不同的策略,他们低调行事,不搞铺天盖地的宣传,而是在短短两个月的时间里,直接在 X 上提供两个磁力链接,简单、直接、高效,没有多余的废话,这种做法在开源社区中独树一帜,更是彰显出他们对于技术的纯粹追求。
Mixtral 是什么模型?
Mixtral 8x7B 是 Mistral AI 全新发布的 MoE 模型,MoE 是 Mixture-of-Experts 的简称,具体的实现就是将 Transformer 中的 FFN 层换成 MoE FFN 层,其他部分保持不变。在训练过程中,Mixtral 8x7B 采用了 8 个专家协同工作,而在推理阶段,则仅需激活其中的 2 个专家。这种设计巧妙地平衡了模型的复杂度和推理成本,即使在拥有庞大模型参数的情况下,也能保证高效的推理性能,使得 MoE 模型在保持强大功能的同时,也具备了更优的实用性和经济性。
我们精心制作了 Llama 与 Mixtral 两个模型架构的对比图表,图中清晰展示了两者之间的主要差异所在——尤其是 FFN 层的设计。
在 Reddit 上的热烈讨论中,社区也普遍推测 GPT-4 可能也采用了 MoE(Mixture-of-Experts)架构。如果这一推断属实,MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里,整个开源社区已经围绕 MoE 模型展开了深入的研究和探索,但鲜有性能优异的 MoE 开源模型问世。
图:https://zhuanlan.zhihu.com/p/399496787
拥有 8 个专家的 Mixtral 能力几何
根据 Mistral 官方的详细介绍,Mixtral-8x7B 模型拥有 32k 的上下文长度,并具备多语言处理能力,包括英语、法语、意大利语和西班牙语。它在数学问题和代码生成的任务上表现尤为出色。
Mixtral 8x7B 大幅超过前代模型 Mistral 7B,在部分能力上甚至追平或者超越 Llama-2-70B 模型,这无疑将会在开源社区引发一波新的关注。
图:https://mistral.ai/news/mixtral-of-experts/
红色点代表 Llama-2 的各个尺寸的模型性能
OpenCompass 团队在这个周末对 Mixtral 模型进行了全面评测。结果显示,Mixtral 在多个能力维度上,包括学科知识、数学、编程、阅读理解和常识推理等方面,都展现了卓越的性能。值得注意的是,Mixtral 的表现不仅在近期开源模型中脱颖而出,甚至与上个月发布的 DeepSeek-67B 和 Qwen-72B 等模型相比也显示出了强劲的竞争力。此外,Mixtral-8x7B 的实际激活参数量大约只有 12B 左右,这证明基于 MoE 的高效模型设计,也能实现了以较小的模型规模达到大型模型的性能水平,真正实现“以小博大”。
推理-微调-评测
极速上手 MoE 大模型
推理
OpenCompass 团队也在第一时间复现了 Mixtral 的模型架构,支持了 Mixtral 的模型推理。目前相关工具和性能已开源至 GitHub:
https://github.com/open-compass/MixtralKit
(文末点击阅读原文可直达)
未来,我们将会持续更新,提供不同推理后端的推理示例,补充微调脚本,介绍更多关于 MoE 的前沿成果。
微调
XTuner 团队也在第一时间支持了 Mixtral 模型的QLoRA 和全量参数微调 ,QLoRA 微调只需一张 A100-80G,具体使用方法可参考 XTuner GitHub:
https://github.com/InternLM/xtuner/tree/main/xtuner/configs/mixtral
评测
同时,我们也在 OpenCompass 评测工具支持对 Mixtral-8x7B 在上百个开源数据集上进行一键式评测,欢迎访问 https://opencompass.org.cn/ 获取更多关于大模型能力评估的信息。
欢迎扫码加入 Mixtral-MoE 模型技术交流群,获取更多最新资讯~
[MMDetection全流程实战指南:手把手带你构建目标检测模型
2023-12-08
[30+视觉/多模态工具!通用Agent工具库AgentLego给大模型一双 “慧眼”
2023-12-07
从营员到导师,从社区成员到加入OpenMMLab,看孙家豪如何实现华丽转身
更多AI工具,参考Github-AiBard123,国内AiBard123