【20241】仍然活跃的开源LLM 作者：孔某人的低维认知来源：孔某人的低维认知 ####0、前言目前大家关注开源LLM模型的热潮已经褪去，但过去3个月这方面仍有一些工作发布。本文是我本轮调研的一个笔记，顺便发出来供读者参考。由于这方面的玩家较多，也没有很合适效果或者影响力排序

【20241】仍然活跃的开源LLM

By AiBard123
January 30, 2024 - 2 min read

作者：孔某人的低维认知来源：孔某人的低维认知

####0、前言

目前大家关注开源LLM模型的热潮已经褪去，但过去3个月这方面仍有一些工作发布。本文是我本轮调研的一个笔记，顺便发出来供读者参考。

由于这方面的玩家较多，也没有很合适效果或者影响力排序，所以为了尽量让顺序与社区中的认知相似，我综合考虑了模型知名度与口碑、下场时间、预期未来投入等方面进行了一个大致的排序，小范围内前后差异不大。

本文主要讨论通用场景的独立训练的基座LLM，多模态模型和领域特化模型等不在此列。

####1、国内厂商列表

1.1、阿里巴巴千问Qwen

hf主页 https://huggingface.co/Qwen

Qwen系列的开源模型从2023年9月底开始发布，11月底的时候发布了1.8B与72B版本。

模型的梯队：1.8B、7B、14B、72B。base和chat版本都齐备，并且有官方量化版本
还有Qwen-VL、Qwen-Audio模型

Qwen系列模型效果的口碑还是不错的。

Qwen2系列可能会在近期开源。

####1.2、智谱 ChatGLM

hf主页 https://huggingface.co/THUDM

核心的ChatGLM开源模型只有6B版本，2023年3月发布了第一代，6月发布了第二代，10月底发布了第三代。截止到第三代仍然是发布比较勤的，目前为止没有第四代开源版本的消息。

最新是ChatGLM3-6B，有32k context微调版本
各类其他模型，包括CodeGeeX2、CogVLM、CoGVide、CogAgent等

ChatGLM系列发布较早且效果在当时较为不错，所以影响力很大。

####1.3、百川智能 Baichuan

hf主页 https://huggingface.co/baichuan-inc

Baichuan系列的开源模型在2023年6月发布了第一代7B，在7月发布了13B版本。在9月发布了第二代7B和13B版本呢。

最新是Baichuan2系列，模型的梯队：7B、13B，有base和chat版本

发布仍算相对较早，有不小的影响力。

####1.4、智源天鹰Aquila

hf主页 https://huggingface.co/BAAI

智源在2023年6月在LLM生态中的影响力还是挺大的，一方面是2023北京智源大会，另一方面是同时开源的一系列模型和工作。6月发布了Aquila 7B模型，并持续更新7B小版本到了8月。原本计划发布的33B最终难产。

在Aquila系列模型逐步淡出大家视野之后，又在10月发布了Aquila2系列模型，包括7B、34B，并在11月发布了70B版本。但由于这次的宣发很弱，以及大家对Aquila 1代的模型效果评价不高，所以大部多数人并未听说2代。

####1.5、上海人工智能实验室书生·浦语InternLM

hf主页 https://huggingface.co/internlm

InternLM系列的第一代在7月开源7B版本，9月开源20B版本，在2024年1月开源第二代的7B、20B版本。

这个系列也有商汤的参与。

####1.6、元象科技 XVERSE

hf主页 https://huggingface.co/xverse

元象科技从官网来看主业是做元宇宙方向的。

XVERSE系列在8月开源13B版本，9月开源7B版本，11月开源65B版本。在11月更新了第二版的13B，在12月更新了第二版的65B版本。

值得一提的是，XVERSE-65B支持多种语言。

####1.7、幻方深度求索DeepSeek

hf主页 https://huggingface.co/deepseek-ai

幻方主业是做量化基金的，在LLM方面起步算相对较晚的一批，但其LLM方面的工作看起来较为认真，且社区风评较好。

DeepSeek系列在11月开源了7B、67B两个版本，同时还有Coder系列特化版本。在2024年1月还开源了MoE 16B版本。

DeepSeek已经提供了商用API。

####1.8、零一万物 Yi

hf主页 https://huggingface.co/01-ai

零一万物也属于较晚入场的一批基座LLM公司，在11月发布了6B、34B版本，在2024年1月发布了VL-6B版本。

####1.9、昆仑万维天工Skywork

hf主页 https://huggingface.co/Skywork

昆仑万维本身的主业也并非做基座LLM，但目前在这方面的动作较多，属于比较认真的玩家。

Skywork系列在10月开源了13B版本和Math特化版本，并开源有SkyPile语料库。

####1.10、深言科技 LingoWhale

hf主页 https://huggingface.co/deeplang-ai

LingoWhale在11月开源8B版本。

####1.11、猎户星空 Orion

hf主页 https://huggingface.co/OrionStarAI

猎户星空是猎豹移动旗下的公司，主业是智能机器人。从傅盛的公开发言来看，猎户星空也在很认真的开展LLM相关的工作，整体更侧重于参数量不太大的模型。

Orion系列在2024年1月开源14B版本，并附带LongChat、Chat-RAG、Chat-Plugin等版本。

值得一提的是，Orion系列支持除中文、英语外，还有日语、韩语，这与猎户星空已有客户需求是有关的。

####1.12、虎博科技 TigerBot

hf主页 https://huggingface.co/TigerResearch

https://github.com/TigerResearch/TigerBot

虎博科技在LLM方向介入也算是较早的，之前开源的模型是基于已有开源模型继续预训练的，大概从12月开始转为了独立预训练（存疑）。

####1.13、RWKV

hf主页 https://huggingface.co/BlinkDL

RWKV即使放眼全球也是相当特立独行的存在，基本上是靠彭博一人之力扛起了一个不被看好的LLM方向。禀临科技的官方主页上销售的主要是一些小家电，以灯具为主（捂脸）。

RWKV本质上是一个类似早年RNN系结构的网络架构，与现在的纯transformer系可谓格格不入，而且由于RNN系架构已经被认为不适合学习长程相关性，所以目前主流做LLM的人是看不上这个方案的。彭博应该也不是在最近才特立独行搞这个方向，而是之前几年就在独自坚守这个方向。

由于RWKV太过另类，我也没有太多关注其进展，但RWKV一直是相当活跃的。本文不再展开讨论。

####1.14、中科闻歌雅意Yayi

hf主页 https://huggingface.co/wenge-research

中科闻歌的主业不完全是LLM方向，但看起来相关性还算是较高的。

Yayi系列从Yayi2开始才是独立预训练的，在12月发布了30B版本。

####1.X、其他新进厂商

####Vivo BlueLM

https://github.com/vivo-ai-lab

hf主页 https://huggingface.co/vivo-ai

在11月开源了7B模型。

####浪潮集团 Yuan

https://github.com/IEIT-Yuan

hf主页 https://huggingface.co/IEITYuan

在12月开源了2B、51B、102B模型

####中电信人工智能科技星辰语义TeleChat

hf主页 https://huggingface.co/Tele-AI

在2024年1月开源了7B模型。

####1.Y、早期玩家/模型系列

从全球范围内来看，8月之后不少开源模型已经停更，这里仅收录一些知名的玩家。如有遗漏欢迎反馈补充。

####复旦 MOSS

https://github.com/OpenLMLab/MOSS

MOSS在2023年4月就已经开源，是中国比较早的独立的LLM工作。但目前已经没有下文。

看起来这条线跟上海人工智能实验室有一定关联，不清楚InternLM是否就是该方向的后续工作。

####面壁智能

https://huggingface.co/openbmb

CPM-Bee系列早在5月份就开源了1B、2B、5B、10B版本。但后续面壁再未发布独立预训练的LLM。

####2、海外厂商列表

####2.1、Meta Llama

hf主页 https://huggingface.co/meta-llama

Llama系列第一代发布于2023年2月，包括7B、13B、33B、65B，参数没有直接开源，但有泄露版本。基本可以算是目前全球开源LLM的宗师，大家或多或少都是直接基于它的方案自己训练或者进行魔改。第二代在7月发布，包括7B、13B、70B。

目前官方已确认Llama-3正在训练中。

####2.2、Mistral AI

hf主页 https://huggingface.co/mistralai

Mistral AI在9月开源了7B版本，在12月开源了MoE架构的Mixtral 8x7B，在整个LLM社区中引发了不小的震动。

####2.3、Stability AI StableLM

hf主页 https://huggingface.co/stabilityai

Stability AI主要似乎还是在做生图方向，在2023年4月发布了StableLM-Alpha系列模型，在8月发布了StableLM-Alpha v2，在9月发布了StableLM-3B-4E1T。

####2.4、TII Falcon

hf主页 https://huggingface.co/tiiuae

TII(Technology Innovation Institute)是一家阿联酋公司。

TII在4月开源了Falcon-rw系列模型，参数为1B、7B；在4月和5月开源了Falcon系列的7B和40B，在8月开源了180B模型，一度是后Llama时代中最大参数量的模型。但后续TII再无开源动作。

Falcon系列模型支持印欧语系的部分多语言。

####2.5、微软 Phi

hf主页 https://huggingface.co/microsoft?search_models=phi

微软并没有大参数量LLM的开源和闭源消息，但有一个小参数量（~1-2B）的系列工作，称为Phi。

Phi 1和Phi 1.5发布于9月份，Phi 2发布于12月。

####2.X、早期玩家/模型系列

####Meta OPT

hf主页 https://huggingface.co/facebook?search_models=OPT

OPT是Meta的早期LLM尝试，于2022年5月发布。OPT属于前Llama时代。

####BigScience BLOOM

BLOOM是一次开放社区训练LLM的尝试，于2022年7月发布，它的整个过程也是开源的。BLOOM属于前Llama时代。

####3、国内微调团队拾遗

由于做微调和继续预训练的门槛相对于独立预训练低了非常多，所以有很多这方面的工作，鱼龙混杂。

虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代，由于目前在中文和英文中文混合场景下，开源LLM的竞争还不够充分，一些基于英文模型的中文扩展继续预训练模型仍然在被使用。所以本文加入本节少量列举一些有代表性的工作。也许再过1-2年，这个技术方案会完全退出历史舞台。

由于这方面历史工作较多，我并未花太多精力调研，如有遗漏请联系我补充。从我的记忆中，国内对于Llama的中文扩展做的较好的团队只有两家：OpenBuddy和Chinese-LLaMA-Alpaca系列。

####3.1、OpenBuddy

https://huggingface.co/OpenBuddy

OpenBuddy在英文模型的中文扩词表和继续预训练上一直算是比较活跃的，且开源的工作较多。虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代，但OpenBuddy目前仍然在活跃，也开始进行一些原生中文LLM的增强工作。

OpenBuddy在算力投入上是较多的，相对于其他团队来说它有涉猎70B及以上参数规模的模型。

####3.2、HFL Chinese-LLaMA-Alpaca

https://github.com/ymcui

https://huggingface.co/hfl

HFL是哈尔滨工业大学和科大讯飞的联合研究室，Chinese-LLaMA-Alpaca项目发布较早且质量较为不错，所以得到了较广的传播和使用。

HFL开源的中文扩展模型主要还是针对于Llama和Alpaca的，也有少量涉猎mixtral等模型。

####3.3、流萤Firefly

https://github.com/yangjianxin1/Firefly