UC伯克利LLM排行榜再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一
作者: HsuDan 来源: [HsuDan](https://mp.weixin.qq.com/s/Kczb7uBM0qrXsAndecSiKw)
UC伯克利主导的「LLM排位赛」(Chatbot Arena Leaderboard)再次更新!
这次的排行榜,加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
目前,Chatbot Arena Leaderboard 有3个评价机制,分别是:
-
Chatbot Arena Elo:基于Chatbot Arena(聊天机器人竞技场)收集的 42K 个匿名投票,使用Elo评分系统进行评分,获得Elo得分。
-
MT-Bench score:MT-Bench得分,基于一个具有挑战性的多轮基准测试和GPT-4评分,该方法在「Judging-LLM-as-a-judge」论文中提出并验证。
-
MMLU:一个广泛采用的基准测试。
论文地址:https://arxiv.org/pdf/2306.05685.pdf
另外,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,在一个扩展的用户共享的对话集上训练,且权重已公开。
项目地址:https://github.com/lm-sys/FastChat/tree/main#vicuna-weights
如下图是最新的LLM排名:
图注:增强版LLM排名榜单
在新的评价标准下,我们可以看到:
-
GPT-4依然稳居第一,而GPT-3.5回到了第二。
-
Anthropic的两款Claude模型也足够给力,占据第三和第四名。
-
UC伯克利最新发布的330亿参数 Vicuna 拿到第五名,再次占榜开源模型第一名,小幅领先微软华人团队开源的300亿参数 WizardLM 模型。
-
GPT-3.5、Claude-v1 和 Claude-instant-v1 在 MT-bench 得分上相差不大,但在 Elo 和 MMLU 得分上有被后者反超。
-
「开源」模型和「闭源」模型仍有明显差距,作为开源第一的Vicuna-33B也是如此。
-
谷歌的 PaLM2 有些大跌眼镜,竟落后于一众开源模型。
**PART ** 0 1
全新评价机制:MT-Bench
目前常用的评估大语言模型(LLM)性能的基准测试有MMLU、HellaSwag和HumanEval等。
但团队注意到,这些基准在评估LLM的人类偏好时可能会有不足。
图注:用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好
传统的基准通常是在具有简明输出的封闭式问题上测试LLM(例如,多项选择题),但这并不是大部分人在实践中使用聊天机器人的典型情况。
为了填补这一空白,在这次排行榜的更新中,除了Chatbot Arena Elo 系统之外,团队还增加了一个新的基准测试:MT-Bench 。
-
MT-bench 是一个具有挑战性的多轮问题集,旨在评估模型的对话和指令的遵循能力。
-
Chatbot Arena Elo 是一个众包的战斗平台,用户可以向聊天机器人提出任何问题,并为他们喜欢的答案投票。
这两个基准的设计都是以人类的偏好为主要衡量标准。
0 1
为什么选择 MT-Bench?
MT-Bench 是一个精心策划的基准,包括80个高质量、多回合的问题。这些问题是为评估模型在多轮对话中的对话流程和指令跟随能力而定制的。它们既包括常见的使用情景,也包括旨在区分聊天机器人的挑战性指令。
准确的说,MT-Bench 是对Chatbot Arena的质量控制补充。
通过在聊天机器人竞技场运行2个月收集的一部分用户数据的分析,团队确定了用户提示的8个主要类别:写作、角色扮演、提取、推理、数学、编码、知识一(STEM)和知识二(人文社科)。其中,每个类别有10个多轮问题,总共产生了160个问题。
在下图1中展示了一些问题示例。
图注:MT-Bench中的问题示例
0 2
用LLM评判LLM
最关键的问题来了,如何对聊天机器人的答案进行评分呢?
评估LLM的过程中,收集人类偏好是非常耗时且成本极高的一件事,但人类偏好对于评估又是「黄金标准」。
UC伯克利主导的团队在一开始便探索出了一种基于GPT-4的自动化评估管线。
团队还在最新的论文**「Judging LLM-as-a-judge」** 中进行了一项系统研究——揭示了LLM评判者的可靠性问题。
结果显示,像GPT-4这样强大的LLM评判者,可以与专家组和众包组的人类裁判的偏好非常好地对齐,一致性均超过了80%。这种一致性水平,已经可以和两个人类评判者之间的一致性相媲美。
而基于GPT-4的单个答案评分,也可以有效地对模型进行排名,并与人类偏好很好地匹配。因此,如果使用得当,LLM评判者完全可以作为人类偏好的可扩展、可解释的近似值。
不过,首先需要承认LLM作为评判者的潜在局限性:
-
位置偏差,即LLM评判者可能偏向于在成对比较中选择第一个答案。
-
冗长偏差,即LLM评判者可能会倾向于较长的答案,而不管其质量如何。
-
自我增强偏见,即LLM评判者可能倾向于自己的回答。
-
推理能力有限,即是LLM评判者在评判数学和推理问题时可能存在的缺陷。
图注:不同LLM评判者的立场偏见
然后为了减轻这些限制,团队探讨了如何利用少样本评判、思维链评判、基于参考的评判和微调评判来进行缓解。
**PART ** 0 2
结果分析
01
MT-Bench能有效区分LLM的性能差异
UC伯克利这次发布的增强版LLM排行榜,对28个模型进行了全面评估。
结果显示,不同能力的LLM之间有明显的区别,其分数与Chatbot Arena的Elo评级有很高的关联性。特别地,MT-Bench揭示了GPT-4和GPT-3.5/Claude之间,以及开源和专有模型之间明显的性能差距。
为了更深入地研究LLM之间的差距,团队选择了几个有代表性的LLM,并在下图中按类别细分了它们的性能。
结果显示,与GPT-3.5/Claude相比,GPT-4在编码和推理方面表现出色,而Vicuna-13B在几个特定类别(有提取、编码和数学)中明显落后。这表明开源模型仍有很大的改进空间。
图注:比较6个模型的8种能力:写作、角色扮演、推理、数学、编码、信息提取、自然科学、人文科学
02
多轮对话能力
团队接下来分析所选模型的多轮对话得分,如下表2所示。
图注:模型在第一轮和第二轮对话中的MT-bench得分,满分为10分
观察发现:
-
对于开源模型,性能从第一轮到第二轮明显下降(例如Vicuna-7B,WizardLM-13B),而强大的专有模型则保持一致性。
-
基于LLaMA的模型和那些具有许可权的模型(MPT-7B、Falcon-40B和指令调整的Open-LaMA)之间有相当大的性能差距。
参考: