再看Llama2的实际体验与民间评测：从现有公开在线测试地址到几个测试例子看初步效果分析作者：老刘说NLP 来源：老刘说NLP 今天是7月下旬的第一天，7月20日，北京暴雨蓝色预警，明天大降温，但不妨碍我们来看看一些新的东西。地铁回程开始，我们来继续昨天的话题。在昨天的文章中，我们介绍了Llama2这一模型，主要是从其建模数据和模

再看Llama2的实际体验与民间评测：从现有公开在线测试地址到几个测试例子看初步效果分析

By AiBard123
July 21, 2023 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是7月下旬的第一天，7月20日，北京暴雨蓝色预警，明天大降温，但不妨碍我们来看看一些新的东西。

地铁回程开始，我们来继续昨天的话题。

在昨天的文章中，我们介绍了Llama2这一模型，主要是从其建模数据和模型机构的角度来说的。

但理论毕竟是理论，真实的体感还是属于“一千个人中里有一千个哈姆雷特”的范畴。

因为，纵使当前已经有诸多大模型的榜单，但其测试范围、测试角度、测试数量、测试的多样性、与真实应用场景之间的gap还是依然存在的。

所以，我们更需要自己动手去测一测，找好自己的度量衡，得到自己的判断结果。或者说，这个模型基座的能力尚且如此，需要再基于已有场景做微调，或许会有更多惊喜的发现。

例如，我们社区测试的一个真实结果：

“昨天实验了一下LLAMA 2 ，确实 reasoning 能力和 GPT3.5 相当，但其他还是有距离，所以估计类似 llama 1, 得等衍生模型再去追能力了。”

“同步一些 LLaMA-2-chat 7B 和 13B 的使用体验，总结起来一句话：too much RLHF。Meta 给孩子整的有点不太会说话了，总是 I apologize balaba 的。例如下面，以70B的chat版本进行提问，让其翻译“我爱你”为英文，回复中扯了一堆价值观”。

因此，大家可以自己去体验一下。本文先介绍几个开放的可以自行体验的Llama2线上体验地址，涵盖了不同的版本，且提供参数的可视化配置。然后看看当前一些公开的榜单的一些评测结果【仅供参考】。最后，我们以实际的几个例子来看看效果，供大家一起参考。

一、先看几个可用的llama2测试入口

1、可切换版本的Llama2测试地址

**地址：https://llama.perplexity.ai ** ‍‍

同时提供llama-7b-chat\llama2-13-chat的在线测试

地址:https://www.llama2.ai

同时提供llama2-70B、llama2-13B以及llama2-7B几个模型的在线测试，这是基础模型版本。

2、huggingface.co上的Llama2体验地址

1)llama-2-13b-chat

地址:

https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chat

2)llama-2-7b-chat

地址:https://huggingface.co/spaces/huggingface-projects/llama-2-7b-chat

3)llama-2-70b-chat

地址:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI

二、再看现有的Llama2测试榜单

目前针对Llama2的评测迅速推进，已经逐步出现MTbench、superclueopen【中文版的MTbench】以及open llm leaderboard等，结果不一，可以自行判断：

1、MTbench多轮评测上的表现

MTbench是2轮对话测试榜单，使用GPT4进行打分。具体的评测方式和数据集，可以看之前的文章《也谈如何自动化评估大模型多轮对话性能：MT-Bench多轮对话评测基本思想与实现》，地址：https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A

结果如下：

首先，Llama-2表现出更强的指令遵循能力，但在提取/编程/数学方面仍明显落后于 GPT-3.5/Claude；

其次，Llama-2对安全过于敏感，可能导致对用户查询的误解，

最后，聊天性能可与基于 Llama-1 的领先模型（如 Vicuna、WizardLM)相媲美，非英语语言技能有限。

部分榜单排名如下：

2、Open LLM Leaderboard及其他榜单上的表现

Open LLM Leaderboard是最受欢迎的排行榜，但不确定它现在是否可信，因为在过去一个月里一直在修订，但尽管如此，新上的Llama 2，70b-chat版本排名很靠前。

地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

不过，在榜单https://github.com/aigoopy/llm-jeopardy中，Llama 2模型实际上是列表中最糟糕的模型之一。这是否只是意味着基本的Llama22没有类似琐事的知识？

另外，在另一个公开榜单，地址： https://docs.google.com/spreadsheets/d/1NgHDxbVWJFolq8bLvLkuPWKC7i_R6I6W/edit#gid=2011456595中，则表现得非常好，不过该榜单中的问题数据只有几十条。

例如，对于7B版本，效果很靠前：

又如，在13B版本，效果同样靠前：

2、superclue open上的表现

文章https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw对Llama-2-13B-Chat进行了评测，并公开课一些评测结果，这与上面的评测不同，主要面向中文评测，使用的测试数据均为中文。其评测方式与Mt Bench类似。

援引文章的描述，其得到了如下结论：

首先，对于Llama2在中文上表现根据评测结果，发现：Llama-2-13B-Chat在部分中文任务上表现尚可，在大部分中文任务上表现不稳定，弱于英文上的表现。虽然Llama2相比于Llama1的训练数据中文占比已经提升到了0.13%，但仍然无法有效处理大部分中文任务。

其次，在Llama2对比同内同等参数量级的模型效果上，根据评测结果发现：对于同等量级开源模型在中文上的效果，Llama-2-13B-Chat处于中游水平，位于baichuan-13B与ChatGLM2-6B之后。

最后，在SuperCLUE开放式多轮测评的常见中文任务中，与ChatGPT3.5比差距比较明显。

但是，我们必须要指出的是，上述榜单的测试范围、测试角度、测试数量、测试的多样性都很局限，与真实应用场景之间的gap还是依然存在，所以需要谨慎看待。

三、最后看在线上测试入口上的几组测试

根据上述提到的一些测试入口，我们可以进行一些具体例子的测试，供参考，不具有结论性的代表意义，如下：

首先，看抽取的一个例子。使用llama13 Bchat版本，这是知识图谱三元组臭去的一个例子，结果错误，但能听懂指令。

再看一些常识的问题，使用英文提问，其在回答世界最高的十座山峰上回答错误，对于表格上的回答也错误。

对于中文经典的鲁迅、周树人问题，不理解【本身就没见过】。另外，对其做人设攻击，攻击成功，这是目前大模型的通病，容易被外行人定义为套壳。

接着，我们来看数学运算，复杂点的乘法运算回答错误，鸡兔同笼问题，无论是中文还是英文回答都错误。

最后，看看复杂指令的即可，看其已经遵循的能力，下面是一个工具使用的例子，让其判定是否要使用查询天气的例子，并解析出论元。单轮可以，多轮不行。

总结‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

本文主要介绍了llama2的一些具体的版本评测。

本文先介绍几个开放的可以自行体验的Llama2线上体验地址，涵盖了不同的版本，且提供参数的可视化配置，大家可以自行看看。

当前一些公开的榜单的一些评测结果【仅供参考】，但其评测思路和评测数据值得我们借鉴。

从实际的几个例子来看，效果不是很好，但也不具备代表性，大家可以自行测试。

最后，中文版的llama2目前已经迅速跟上了，如Chinese llama2，大家可以跟进。

地铁到站，就到这儿，雨还是没落下来。

参考文献

1、https://mp.weixin.qq.com/s/O0LtHnM4U8xuY_IvZpno6A

2、https://mp.weixin.qq.com/s/ZowePHkDouP8AiZshR-MXw

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具