一文看懂智谱AI的GLM4发布会-国产之光，无愧于此作者：数字生命卡兹克来源：数字生命卡兹克众所周知，国内的大模型公司，我一直很喜欢智谱AI。不只因为他们学术气息浓厚，技术底蕴深。更是因为这家公司的真诚、开放的态度，前端时间他们给AI创业者提供的“Z计划”，更是让我感叹他们的格局。今天，他们

一文看懂智谱AI的GLM4发布会-国产之光，无愧于此

作者：数字生命卡兹克来源：数字生命卡兹克

众所周知，国内的大模型公司，我一直很喜欢智谱AI。

不只因为他们学术气息浓厚，技术底蕴深。

更是因为这家公司的真诚、开放的态度，前端时间他们给AI创业者提供的“Z计划”，更是让我感叹他们的格局。

今天，他们终于正式召开了他们的发布会，但是这个发布会的结构还是非常“智谱”。

标题叫：

符合他们一贯作风，上午发布GLM4、ALL Tools、多模态大模型CogVLM3

、代码大模型CodeGeeX3、汇报技术进展，下午圆桌讨论讲干货。

核心还是GLM4的发布，这个应该是国内所有AI相关人员，都在关注的东西了，其意味不亚于去年大模型GPT4的发布。

毕竟，中国，也真的需要自己的，真正属于自己技术路线的大模型。

这块多说一句，GLM是跟GPT完全不同的技术路线，具体的可以看这张图。

基于Transformer架构的模型有三种：仅编码器架构（Encoder-only）、仅解码器架构（Decoder-only）、编码器-解码器架构（Encoder-Decoder）。

GPT走的是仅解码器架构，而智谱是借了编码器-解码器架构思想走的自己的路，这也是我为什么一直很关注他们。

他们之前开源的GLM6B，在国际上掀起了多少的风浪，也相信不用我多说了。

回到今天的GLM4发布会。

我觉得可以用3个点来总结掉：

从整体上看，智谱AI毫不避讳的直接对标OpenAI，用他们的话说，我们还在不断的追赶OpenAI，追赶GPT，他们有的，我们都要有。

一条一条来说。

一.GLM4基座模型的性能提升

首先是基座的评分：

几个比较主流的评测任务。我简单的介绍一些这些评测集的代表意义吧，让大家知道GLM4在哪些地方效果好，哪些地方跟GPT4还有一些差距。

MMLU(Massive Multitask Language Understanding)：这个测试是一个大规模多任务语言理解测试，主要评估大模型的对于知识的理解的，可以看到目前GLM4是81.5分，GPT4是86.4分，目前能达到GPT4的94%。
GSM8K (Grade School Math 8K)：主要是测试数学能力，基本就是小学数学和初中数学水平。GLM4打到GPT4的95%。

3.MATH：跟GSM8K 有点类似，也是偏数学，但是会更难更复杂一点，涉及到一些比较难的逻辑推理。目前GLM4只能达到GPT4的91%。

BBH (Big Bench Hackathon)：偏综合测试，有一堆综合类的任务，比如翻译、语言理解、逻辑推理等等乱七八糟的。这块GLM4很强，基本跟GPT4打平，能到99%。
HellaSwag：偏常识测试的任务，看看大模型有没有人类的常识。这块是目前GLM4对比GPT4最弱的一个，只能达到90%。
HumanEval: 纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。这块是GLM4唯一超越GPT4的任务，非常强，程序员有福了。。。

从这些里面，你就能大概知道GLM4目前是个啥水平了，智谱也很实诚，从来不会说全面超越GPT4这种鬼话，不弄虚做假，客观的承认差距，然后努力追赶，这点我非常非常喜欢。