AI 文摘

【20241】仍然活跃的开源LLM





作者: 孔某人的低维认知 来源: 孔某人的低维认知

####0、前言

目前大家关注开源LLM模型的热潮已经褪去,但过去3个月这方面仍有一些工作发布。本文是我本轮调研的一个笔记,顺便发出来供读者参考。

由于这方面的玩家较多,也没有很合适效果或者影响力排序,所以为了尽量让顺序与社区中的认知相似,我综合考虑了模型知名度与口碑、下场时间、预期未来投入等方面进行了一个大致的排序,小范围内前后差异不大。

本文主要讨论通用场景的独立训练的基座LLM,多模态模型和领域特化模型等不在此列。

####1、国内厂商列表

1.1、阿里巴巴 千问Qwen

hf主页 https://huggingface.co/Qwen

Qwen系列的开源模型从2023年9月底开始发布,11月底的时候发布了1.8B与72B版本。

  • 模型的梯队:1.8B、7B、14B、72B。base和chat版本都齐备,并且有官方量化版本

  • 还有Qwen-VL、Qwen-Audio模型

Qwen系列模型效果的口碑还是不错的。

Qwen2系列可能会在近期开源。

####1.2、智谱 ChatGLM

hf主页 https://huggingface.co/THUDM

核心的ChatGLM开源模型只有6B版本,2023年3月发布了第一代,6月发布了第二代,10月底发布了第三代。截止到第三代仍然是发布比较勤的,目前为止没有第四代开源版本的消息。

  • 最新是ChatGLM3-6B,有32k context微调版本

  • 各类其他模型,包括CodeGeeX2、CogVLM、CoGVide、CogAgent等

ChatGLM系列发布较早且效果在当时较为不错,所以影响力很大。

####1.3、百川智能 Baichuan

hf主页 https://huggingface.co/baichuan-inc

Baichuan系列的开源模型在2023年6月发布了第一代7B,在7月发布了13B版本。在9月发布了第二代7B和13B版本呢。

  • 最新是Baichuan2系列,模型的梯队:7B、13B,有base和chat版本

发布仍算相对较早,有不小的影响力。

####1.4、智源 天鹰Aquila

hf主页 https://huggingface.co/BAAI

智源在2023年6月在LLM生态中的影响力还是挺大的,一方面是2023北京智源大会,另一方面是同时开源的一系列模型和工作。6月发布了Aquila 7B模型,并持续更新7B小版本到了8月。原本计划发布的33B最终难产。

在Aquila系列模型逐步淡出大家视野之后,又在10月发布了Aquila2系列模型,包括7B、34B,并在11月发布了70B版本。但由于这次的宣发很弱,以及大家对Aquila 1代的模型效果评价不高,所以大部多数人并未听说2代。

####1.5、上海人工智能实验室 书生·浦语InternLM

hf主页 https://huggingface.co/internlm

InternLM系列的第一代在7月开源7B版本,9月开源20B版本,在2024年1月开源第二代的7B、20B版本。

这个系列也有商汤的参与。

####1.6、元象科技 XVERSE

hf主页 https://huggingface.co/xverse

元象科技从官网来看主业是做元宇宙方向的。

XVERSE系列在8月开源13B版本,9月开源7B版本,11月开源65B版本。在11月更新了第二版的13B,在12月更新了第二版的65B版本。

值得一提的是,XVERSE-65B支持多种语言。

####1.7、幻方 深度求索DeepSeek

hf主页 https://huggingface.co/deepseek-ai

幻方主业是做量化基金的,在LLM方面起步算相对较晚的一批,但其LLM方面的工作看起来较为认真,且社区风评较好。

DeepSeek系列在11月开源了7B、67B两个版本,同时还有Coder系列特化版本。在2024年1月还开源了MoE 16B版本。

DeepSeek已经提供了商用API。

####1.8、零一万物 Yi

hf主页 https://huggingface.co/01-ai

零一万物也属于较晚入场的一批基座LLM公司,在11月发布了6B、34B版本,在2024年1月发布了VL-6B版本。

####1.9、昆仑万维 天工Skywork

hf主页 https://huggingface.co/Skywork

昆仑万维本身的主业也并非做基座LLM,但目前在这方面的动作较多,属于比较认真的玩家。

Skywork系列在10月开源了13B版本和Math特化版本,并开源有SkyPile语料库。

####1.10、深言科技 LingoWhale

hf主页 https://huggingface.co/deeplang-ai

LingoWhale在11月开源8B版本。

####1.11、猎户星空 Orion

hf主页 https://huggingface.co/OrionStarAI

猎户星空是猎豹移动旗下的公司,主业是智能机器人。从傅盛的公开发言来看,猎户星空也在很认真的开展LLM相关的工作,整体更侧重于参数量不太大的模型。

Orion系列在2024年1月开源14B版本,并附带LongChat、Chat-RAG、Chat-Plugin等版本。

值得一提的是,Orion系列支持除中文、英语外,还有日语、韩语,这与猎户星空已有客户需求是有关的。

####1.12、虎博科技 TigerBot

hf主页 https://huggingface.co/TigerResearch

https://github.com/TigerResearch/TigerBot

虎博科技在LLM方向介入也算是较早的,之前开源的模型是基于已有开源模型继续预训练的,大概从12月开始转为了独立预训练(存疑)。

####1.13、RWKV

hf主页 https://huggingface.co/BlinkDL

RWKV即使放眼全球也是相当特立独行的存在,基本上是靠彭博一人之力扛起了一个不被看好的LLM方向。禀临科技的官方主页上销售的主要是一些小家电,以灯具为主(捂脸)。

RWKV本质上是一个类似早年RNN系结构的网络架构,与现在的纯transformer系可谓格格不入,而且由于RNN系架构已经被认为不适合学习长程相关性,所以目前主流做LLM的人是看不上这个方案的。彭博应该也不是在最近才特立独行搞这个方向,而是之前几年就在独自坚守这个方向。

由于RWKV太过另类,我也没有太多关注其进展,但RWKV一直是相当活跃的。本文不再展开讨论。

####1.14、中科闻歌 雅意Yayi

hf主页 https://huggingface.co/wenge-research

中科闻歌的主业不完全是LLM方向,但看起来相关性还算是较高的。

Yayi系列从Yayi2开始才是独立预训练的,在12月发布了30B版本。

####1.X、其他新进厂商

####Vivo BlueLM

https://github.com/vivo-ai-lab

hf主页 https://huggingface.co/vivo-ai

在11月开源了7B模型。

####浪潮集团 Yuan

https://github.com/IEIT-Yuan

hf主页 https://huggingface.co/IEITYuan

在12月开源了2B、51B、102B模型

####中电信人工智能科技 星辰语义TeleChat

hf主页 https://huggingface.co/Tele-AI

在2024年1月开源了7B模型。

####1.Y、早期玩家/模型系列

从全球范围内来看,8月之后不少开源模型已经停更,这里仅收录一些知名的玩家。如有遗漏欢迎反馈补充。

####复旦 MOSS

https://github.com/OpenLMLab/MOSS

MOSS在2023年4月就已经开源,是中国比较早的独立的LLM工作。但目前已经没有下文。

看起来这条线跟上海人工智能实验室有一定关联,不清楚InternLM是否就是该方向的后续工作。

####面壁智能

https://huggingface.co/openbmb

CPM-Bee系列早在5月份就开源了1B、2B、5B、10B版本。但后续面壁再未发布独立预训练的LLM。

####2、海外厂商列表

####2.1、Meta Llama

hf主页 https://huggingface.co/meta-llama

Llama系列第一代发布于2023年2月,包括7B、13B、33B、65B,参数没有直接开源,但有泄露版本。基本可以算是目前全球开源LLM的宗师,大家或多或少都是直接基于它的方案自己训练或者进行魔改。第二代在7月发布,包括7B、13B、70B。

目前官方已确认Llama-3正在训练中。

####2.2、Mistral AI

hf主页 https://huggingface.co/mistralai

Mistral AI在9月开源了7B版本,在12月开源了MoE架构的Mixtral 8x7B,在整个LLM社区中引发了不小的震动。

####2.3、Stability AI StableLM

hf主页 https://huggingface.co/stabilityai

Stability AI主要似乎还是在做生图方向,在2023年4月发布了StableLM-Alpha系列模型,在8月发布了StableLM-Alpha v2,在9月发布了StableLM-3B-4E1T。

####2.4、TII Falcon

hf主页 https://huggingface.co/tiiuae

TII(Technology Innovation Institute)是一家阿联酋公司。

TII在4月开源了Falcon-rw系列模型,参数为1B、7B;在4月和5月开源了Falcon系列的7B和40B,在8月开源了180B模型,一度是后Llama时代中最大参数量的模型。但后续TII再无开源动作。

Falcon系列模型支持印欧语系的部分多语言。

####2.5、微软 Phi

hf主页 https://huggingface.co/microsoft?search_models=phi

微软并没有大参数量LLM的开源和闭源消息,但有一个小参数量(~1-2B)的系列工作,称为Phi。

Phi 1和Phi 1.5发布于9月份,Phi 2发布于12月。

####2.X、早期玩家/模型系列

####Meta OPT

hf主页 https://huggingface.co/facebook?search_models=OPT

OPT是Meta的早期LLM尝试,于2022年5月发布。OPT属于前Llama时代。

####BigScience BLOOM

BLOOM是一次开放社区训练LLM的尝试,于2022年7月发布,它的整个过程也是开源的。BLOOM属于前Llama时代。

####3、国内微调团队 拾遗

由于做微调和继续预训练的门槛相对于独立预训练低了非常多,所以有很多这方面的工作,鱼龙混杂。

虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代,由于目前在中文和英文中文混合场景下,开源LLM的竞争还不够充分,一些基于英文模型的中文扩展继续预训练模型仍然在被使用。所以本文加入本节少量列举一些有代表性的工作。也许再过1-2年,这个技术方案会完全退出历史舞台。

由于这方面历史工作较多,我并未花太多精力调研,如有遗漏请联系我补充。从我的记忆中,国内对于Llama的中文扩展做的较好的团队只有两家:OpenBuddy和Chinese-LLaMA-Alpaca系列。

####3.1、OpenBuddy

https://huggingface.co/OpenBuddy

OpenBuddy在英文模型的中文扩词表和继续预训练上一直算是比较活跃的,且开源的工作较多。虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代,但OpenBuddy目前仍然在活跃,也开始进行一些原生中文LLM的增强工作。

OpenBuddy在算力投入上是较多的,相对于其他团队来说它有涉猎70B及以上参数规模的模型。

####3.2、HFL Chinese-LLaMA-Alpaca

https://github.com/ymcui

https://huggingface.co/hfl

HFL是哈尔滨工业大学和科大讯飞的联合研究室,Chinese-LLaMA-Alpaca项目发布较早且质量较为不错,所以得到了较广的传播和使用。

HFL开源的中文扩展模型主要还是针对于Llama和Alpaca的,也有少量涉猎mixtral等模型。

####3.3、流萤Firefly

https://github.com/yangjianxin1/Firefly

https://huggingface.co/YeungNLP

Firefly系列我个人没有太多印象。它目前仍然有这方面的工作不断放出。

####4、总评

####4.1、开源的后续投入预计

现在开源LLM的热潮已经褪去一轮,虽然还有些新进厂商,以及未来随着算力成本的显著降低,应该还会有继续入场的厂商。但目前在开源界还活着的玩家也就是上面这些,也就是~20家的量级。

在我来看,大部分厂商可能并没有持续开源LLM的动力,已经开源的这些工作的目的更多是:

  • 证明自己的技术能力已经到达某一阶段,在刚入场后会做一段时间,直到能力追上gpt-3.5-turbo。后续可能会以较大的周期(例如1年)进行更新。

  • 内部LLM学习过程的副产品,食之无味弃之可惜,开源一下还可以再获取一些其他价值。

目前来看,基座LLM供应商已经有了明显的跟上层应用层抢饭碗的趋势,这可能会进一步削减其开源强能力模型的意愿。

####4.2、开源模型的代际

从效果上来说,目前开源LLM已经有了明显的代际划分,例如:

  • 现在的模型肯定好于1年前的,即使参数量上跨多级。

  • 现在的模型大概率好于半年前的

目前来看前Llama时代的模型都可以丢进垃圾桶了,2023年的模型也可以主要只看后4个月发布的。

####4.3、使用推荐

LLM模型的评测本就是一套烂账,开源方面更加一言难尽。现在整个社区对于新模型的关注已经不多了,除了少数历史口碑不错的厂商的新模型还会有人跟进之外,其他二线、三线团队的模型大部分已经无人问津。

从实际场景的角度来说,哪些模型比较好还是要看具体场景的实测的。不过由于现在选项太多,所以简单列一些可以首先尝试的系列:

  • Qwen系列,效果上口碑较好,发布时间也较新,模型规模梯队相对完善。

  • ChatGLM 第3代已经有点老,第4代没有消息

  • Baichuan系列,大概率会跟随Llama 3的发版推出7B、13B版本,主打一个中庸。

  • DeepSeek、Yi、Skywork、Orion,目前的新秀

目前开源模型的参数覆盖和能力梯队都还不完整,以及经常缺少function calling等商用API已经普及的关键特性,所以能选择范围仍很受限。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

希望留言可以到知乎对应文章下留言。

本文于2024.1.24首发于微信公众号与知乎

知乎链接 https://zhuanlan.zhihu.com/p/679589032

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具