AI 文摘

再看Llama2的实际体验与民间评测:从现有公开在线测试地址到几个测试例子看初步效果分析





作者: 老刘说NLP 来源: 老刘说NLP

今天是7月下旬的第一天,7月20日,北京暴雨蓝色预警,明天大降温,但不妨碍我们来看看一些新的东西。

地铁回程开始,我们来继续昨天的话题。

在昨天的文章中,我们介绍了Llama2这一模型,主要是从其建模数据和模型机构的角度来说的。

但理论毕竟是理论,真实的体感还是属于“一千个人中里有一千个哈姆雷特”的范畴。

因为,纵使当前已经有诸多大模型的榜单,但其测试范围、测试角度、测试数量、测试的多样性、与真实应用场景之间的gap还是依然存在的。

所以,我们更需要自己动手去测一测,找好自己的度量衡,得到自己的判断结果。或者说,这个模型基座的能力尚且如此,需要再基于已有场景做微调,或许会有更多惊喜的发现。

例如,我们社区测试的一个真实结果:

“昨天实验了一下LLAMA 2 ,确实 reasoning 能力和 GPT3.5 相当,但其他还是有距离,所以估计类似 llama 1, 得等衍生模型再去追能力了。”

“同步一些 LLaMA-2-chat 7B 和 13B 的使用体验,总结起来一句话:too much RLHF。Meta 给孩子整的有点不太会说话了,总是 I apologize balaba 的。例如下面,以70B的chat版本进行提问,让其翻译“我爱你”为英文,回复中扯了一堆价值观”。

因此,大家可以自己去体验一下。本文先介绍几个开放的可以自行体验的Llama2线上体验地址,涵盖了不同的版本,且提供参数的可视化配置。然后看看当前一些公开的榜单的一些评测结果【仅供参考】。最后,我们以实际的几个例子来看看效果,供大家一起参考。

一、先看几个可用的llama2测试入口

1、可切换版本的Llama2测试地址

**地址:https://llama.perplexity.ai ** ‍‍

同时提供llama-7b-chat\llama2-13-chat的在线测试

地址:https://www.llama2.ai

同时提供llama2-70B、llama2-13B以及llama2-7B几个模型的在线测试,这是基础模型版本。

2、huggingface.co上的Llama2体验地址

1)llama-2-13b-chat

地址:

https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chat

2)llama-2-7b-chat

地址:https://huggingface.co/spaces/huggingface-projects/llama-2-7b-chat

3)llama-2-70b-chat

地址:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI

二、再看现有的Llama2测试榜单

目前针对Llama2的评测迅速推进,已经逐步出现MTbench、superclueopen【中文版的MTbench】以及open llm leaderboard等,结果不一,可以自行判断:

1、MTbench多轮评测上的表现

MTbench是2轮对话测试榜单,使用GPT4进行打分。具体的评测方式和数据集,可以看之前的文章《也谈如何自动化评估大模型多轮对话性能:MT-Bench多轮对话评测基本思想与实现》,地址:https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A

结果如下:

首先,Llama-2表现出更强的指令遵循能力,但在提取/编程/数学方面仍明显落后于 GPT-3.5/Claude;

其次,Llama-2对安全过于敏感,可能导致对用户查询的误解,

最后,聊天性能可与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相媲美,非英语语言技能有限。

部分榜单排名如下:

2、Open LLM Leaderboard及其他榜单上的表现

Open LLM Leaderboard是最受欢迎的排行榜,但不确定它现在是否可信,因为在过去一个月里一直在修订,但尽管如此,新上的Llama 2,70b-chat版本排名很靠前。

地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

不过,在榜单https://github.com/aigoopy/llm-jeopardy中,Llama 2模型实际上是列表中最糟糕的模型之一。这是否只是意味着基本的Llama22没有类似琐事的知识?

另外,在另一个公开榜单,地址: https://docs.google.com/spreadsheets/d/1NgHDxbVWJFolq8bLvLkuPWKC7i_R6I6W/edit#gid=2011456595中,则表现得非常好,不过该榜单中的问题数据只有几十条。

例如,对于7B版本,效果很靠前:

又如,在13B版本,效果同样靠前:

2、superclue open上的表现

文章https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw对Llama-2-13B-Chat进行了评测,并公开课一些评测结果,这与上面的评测不同,主要面向中文评测,使用的测试数据均为中文。其评测方式与Mt Bench类似。

援引文章的描述,其得到了如下结论:

首先,对于Llama2在中文上表现根据评测结果,发现:Llama-2-13B-Chat在部分中文任务上表现尚可,在大部分中文任务上表现不稳定,弱于英文上的表现。虽然Llama2相比于Llama1的训练数据中文占比已经提升到了0.13%,但仍然无法有效处理大部分中文任务。

其次,在Llama2对比同内同等参数量级的模型效果上,根据评测结果发现:对于同等量级开源模型在中文上的效果,Llama-2-13B-Chat处于中游水平,位于baichuan-13B与ChatGLM2-6B之后。

最后,在SuperCLUE开放式多轮测评的常见中文任务中,与ChatGPT3.5比差距比较明显。

但是,我们必须要指出的是,上述榜单的测试范围、测试角度、测试数量、测试的多样性都很局限,与真实应用场景之间的gap还是依然存在,所以需要谨慎看待。

三、最后看在线上测试入口上的几组测试

根据上述提到的一些测试入口,我们可以进行一些具体例子的测试,供参考,不具有结论性的代表意义,如下:

首先,看抽取的一个例子。使用llama13 Bchat版本,这是知识图谱三元组臭去的一个例子,结果错误,但能听懂指令。

再看一些常识的问题,使用英文提问,其在回答世界最高的十座山峰上回答错误,对于表格上的回答也错误。

对于中文经典的鲁迅、周树人问题,不理解【本身就没见过】。另外,对其做人设攻击,攻击成功,这是目前大模型的通病,容易被外行人定义为套壳。

接着,我们来看数学运算,复杂点的乘法运算回答错误,鸡兔同笼问题,无论是中文还是英文回答都错误。

最后,看看复杂指令的即可,看其已经遵循的能力,下面是一个工具使用的例子,让其判定是否要使用查询天气的例子,并解析出论元。单轮可以,多轮不行。

总结‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

本文主要介绍了llama2的一些具体的版本评测。

本文先介绍几个开放的可以自行体验的Llama2线上体验地址,涵盖了不同的版本,且提供参数的可视化配置,大家可以自行看看。

当前一些公开的榜单的一些评测结果【仅供参考】,但其评测思路和评测数据值得我们借鉴。

从实际的几个例子来看,效果不是很好,但也不具备代表性,大家可以自行测试。

最后,中文版的llama2目前已经迅速跟上了,如Chinese llama2,大家可以跟进。

地铁到站,就到这儿,雨还是没落下来。

参考文献

1、https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A

2、https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具