再看Llama2的实际体验与民间评测:从现有公开在线测试地址到几个测试例子看初步效果分析
作者: 老刘说NLP 来源: 老刘说NLP
今天是7月下旬的第一天,7月20日,北京暴雨蓝色预警,明天大降温,但不妨碍我们来看看一些新的东西。
地铁回程开始,我们来继续昨天的话题。
在昨天的文章中,我们介绍了Llama2这一模型,主要是从其建模数据和模型机构的角度来说的。
但理论毕竟是理论,真实的体感还是属于“一千个人中里有一千个哈姆雷特”的范畴。
因为,纵使当前已经有诸多大模型的榜单,但其测试范围、测试角度、测试数量、测试的多样性、与真实应用场景之间的gap还是依然存在的。
所以,我们更需要自己动手去测一测,找好自己的度量衡,得到自己的判断结果。或者说,这个模型基座的能力尚且如此,需要再基于已有场景做微调,或许会有更多惊喜的发现。
例如,我们社区测试的一个真实结果:
“昨天实验了一下LLAMA 2 ,确实 reasoning 能力和 GPT3.5 相当,但其他还是有距离,所以估计类似 llama 1, 得等衍生模型再去追能力了。”
“同步一些 LLaMA-2-chat 7B 和 13B 的使用体验,总结起来一句话:too much RLHF。Meta 给孩子整的有点不太会说话了,总是 I apologize balaba 的。例如下面,以70B的chat版本进行提问,让其翻译“我爱你”为英文,回复中扯了一堆价值观”。
因此,大家可以自己去体验一下。本文先介绍几个开放的可以自行体验的Llama2线上体验地址,涵盖了不同的版本,且提供参数的可视化配置。然后看看当前一些公开的榜单的一些评测结果【仅供参考】。最后,我们以实际的几个例子来看看效果,供大家一起参考。
一、先看几个可用的llama2测试入口
1、可切换版本的Llama2测试地址
**地址:https://llama.perplexity.ai **
同时提供llama-7b-chat\llama2-13-chat的在线测试
地址:https://www.llama2.ai
同时提供llama2-70B、llama2-13B以及llama2-7B几个模型的在线测试,这是基础模型版本。
2、huggingface.co上的Llama2体验地址
1)llama-2-13b-chat
地址:
https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chat
2)llama-2-7b-chat
地址:https://huggingface.co/spaces/huggingface-projects/llama-2-7b-chat
3)llama-2-70b-chat
地址:
https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI
二、再看现有的Llama2测试榜单
目前针对Llama2的评测迅速推进,已经逐步出现MTbench、superclueopen【中文版的MTbench】以及open llm leaderboard等,结果不一,可以自行判断:
1、MTbench多轮评测上的表现
MTbench是2轮对话测试榜单,使用GPT4进行打分。具体的评测方式和数据集,可以看之前的文章《也谈如何自动化评估大模型多轮对话性能:MT-Bench多轮对话评测基本思想与实现》,地址:https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A
结果如下:
首先,Llama-2表现出更强的指令遵循能力,但在提取/编程/数学方面仍明显落后于 GPT-3.5/Claude;
其次,Llama-2对安全过于敏感,可能导致对用户查询的误解,
最后,聊天性能可与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相媲美,非英语语言技能有限。
部分榜单排名如下:
2、Open LLM Leaderboard及其他榜单上的表现
Open LLM Leaderboard是最受欢迎的排行榜,但不确定它现在是否可信,因为在过去一个月里一直在修订,但尽管如此,新上的Llama 2,70b-chat版本排名很靠前。
地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
不过,在榜单https://github.com/aigoopy/llm-jeopardy中,Llama 2模型实际上是列表中最糟糕的模型之一。这是否只是意味着基本的Llama22没有类似琐事的知识?
另外,在另一个公开榜单,地址: https://docs.google.com/spreadsheets/d/1NgHDxbVWJFolq8bLvLkuPWKC7i_R6I6W/edit#gid=2011456595中,则表现得非常好,不过该榜单中的问题数据只有几十条。
例如,对于7B版本,效果很靠前:
又如,在13B版本,效果同样靠前:
2、superclue open上的表现
文章https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw对Llama-2-13B-Chat进行了评测,并公开课一些评测结果,这与上面的评测不同,主要面向中文评测,使用的测试数据均为中文。其评测方式与Mt Bench类似。
援引文章的描述,其得到了如下结论:
首先,对于Llama2在中文上表现根据评测结果,发现:Llama-2-13B-Chat在部分中文任务上表现尚可,在大部分中文任务上表现不稳定,弱于英文上的表现。虽然Llama2相比于Llama1的训练数据中文占比已经提升到了0.13%,但仍然无法有效处理大部分中文任务。
其次,在Llama2对比同内同等参数量级的模型效果上,根据评测结果发现:对于同等量级开源模型在中文上的效果,Llama-2-13B-Chat处于中游水平,位于baichuan-13B与ChatGLM2-6B之后。
最后,在SuperCLUE开放式多轮测评的常见中文任务中,与ChatGPT3.5比差距比较明显。
但是,我们必须要指出的是,上述榜单的测试范围、测试角度、测试数量、测试的多样性都很局限,与真实应用场景之间的gap还是依然存在,所以需要谨慎看待。
三、最后看在线上测试入口上的几组测试
根据上述提到的一些测试入口,我们可以进行一些具体例子的测试,供参考,不具有结论性的代表意义,如下:
首先,看抽取的一个例子。使用llama13 Bchat版本,这是知识图谱三元组臭去的一个例子,结果错误,但能听懂指令。
再看一些常识的问题,使用英文提问,其在回答世界最高的十座山峰上回答错误,对于表格上的回答也错误。
对于中文经典的鲁迅、周树人问题,不理解【本身就没见过】。另外,对其做人设攻击,攻击成功,这是目前大模型的通病,容易被外行人定义为套壳。
接着,我们来看数学运算,复杂点的乘法运算回答错误,鸡兔同笼问题,无论是中文还是英文回答都错误。
最后,看看复杂指令的即可,看其已经遵循的能力,下面是一个工具使用的例子,让其判定是否要使用查询天气的例子,并解析出论元。单轮可以,多轮不行。
总结
本文主要介绍了llama2的一些具体的版本评测。
本文先介绍几个开放的可以自行体验的Llama2线上体验地址,涵盖了不同的版本,且提供参数的可视化配置,大家可以自行看看。
当前一些公开的榜单的一些评测结果【仅供参考】,但其评测思路和评测数据值得我们借鉴。
从实际的几个例子来看,效果不是很好,但也不具备代表性,大家可以自行测试。
最后,中文版的llama2目前已经迅速跟上了,如Chinese llama2,大家可以跟进。
地铁到站,就到这儿,雨还是没落下来。
参考文献
1、https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A
2、https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入
更多AI工具,参考Github-AiBard123,国内AiBard123