大模型B端落地“牛刀杀鸡”的奇怪感觉：兼看CEVAl通用评测到金融、医疗两大垂域评测的转变作者：老刘说NLP 来源：老刘说NLP 今天是2023年9月8日，星期五，北京暴雨。我们继续来看看大模型的评估方面的工作。在此之前，来分享下最近读到一篇不错的工作(https://mp.weixin.qq.com/s/d2Nns1qashM

大模型B端落地“牛刀杀鸡”的奇怪感觉：兼看CEVAl通用评测到金融、医疗两大垂域评测的转变

By AiBard123
September 11, 2023 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是2023年9月8日，星期五，北京暴雨。我们继续来看看大模型的评估方面的工作。

在此之前，来分享下最近读到一篇不错的工作(https://mp.weixin.qq.com/s/d2Nns1qashMbcXPMG-4McQ)，该工作讲述了文档智能在法务场景，利用文档智能跟大模型做的一些工作。

例如，合同对话chatContract。以问答交互方式取代原来相对复杂的交互，同时通过产品入口进行统一。通过对话实现合同要素抽取、条款抽取、合同审查、合同起草、合同摘要生成等任务。

其实现逻辑在于，文档智能的能力更多还是聚焦在前链路，包括对于法务文档的解析，对知识点抽取，形成一些 QA 知识库，对于长文本进行切分，构建向量索引等等。在此基础上，通过对用户发起查询请求的理解完成检索，将检索的结果和查询的提词给到法务大模型，其中通过相关性排序模型，提升输入到大模型的数据质量。

但是，我们发现，随着RAG这类模式的趋同化，最近有种感觉，搞大模型，少则几万，多则几千万，落地起来竟然是清一色的文档qa，还不准，套上语音虚拟形象就变成数字人。【大材小用的落差感，以及无奈感】，以下是社区讨论的一些观点：

但也有不同的观点，如下：

而与此更相关的是大模型评测的事儿，近期参加了一些评测的活动，并看到最近的一些动态，比如通用知识测评已经进入紫海，通用评测跟实际领域业务评测之间的gap很大，甚至出现不同向性。

所以，面向垂直领域、面向应用的大模型逐步成为下一个评测的热点。【大家可以拭目以待】
本文主要围绕这一主题，面向现在中文评测、从现有的代表性通用领域评测、金融领域评测FinEval、医疗评测CMB三个方面，进行介绍，供大家一起参考。

一、现有的代表性通用领域评测

当前的代表性通用领域评测包括ceval、cmmlu、mmcu、m3ke、xiezhi等，但许多都没有在线榜单出现，下面就几个有的做代表性具体介绍。

1、C-Eval

C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。

地址：https://github.com/SJTU-LIT/ceval/blob/main/README_zh.md

2、CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

地址：https://github.com/haonan-li/CMMLU

3、LucyEVAL

LucyEval 是甲骨易AI研究院与 LanguageX AI Lab 联合研发的针对中文大模型生成能力的测试基准。在此项测试中，受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的11000道不同类型问题做出准确且相关的回答。

地址：http://cgeval.besteasy.com/

二、金融领域垂直评测FinEval

FinEval(FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models)是一个包含高质量多项选择题的集合，涵盖金融、经济、会计和证书等领域。它包括4,661个问题，涵盖了34个不同的学术科目。为了确保对模型性能进行全面的评估，FinEval采用了多种方法，包括zero-shot，few-shot，仅预测答案（answer-only）和思维链（chain-of-thought）提示词。

地址：https://github.com/SUFE-AIFLM-Lab/FinEval/blob/main/README_zh-CN.md

论文地址：https://arxiv.org/abs/2308.09975

1、数据基本情况

FinEval中的问题包括34个不同的科目，这些科目随后被分为更广泛的类别，包括金融、经济、会计和证书。

具体来说，从题目的角度来看：

金融类包括10个不同的科目，共1265道题；

经济类包括7个科目，共874道题。

会计类别包括10个科目和1180个问题。

证书类别则包括7个科目和1342个问题。

关于数据集的分割，开发集、验证集、测试集和总集各包含34个科目，分别由170、1151、3340和4661个问题组成。

表1列出了所有FinEval任务及其大类，以及每个任务中包含的问题数量。

2、数据获取方式

cd code/data  
wget https://huggingface.co/datasets/SUFE-AIFLM-Lab/FinEval/resolve/main/FinEval.zip  
unzip FinEval.zip

3、数据评测方法

数据样例如下：

以下是中国关于banking_practitioner_qualification_certificate考试的单项选择题，请选出其中的正确答案。  
  
下列关于理财业务的理解，说法有误的是____。  
A. 综合理财服务中，银行可以让客户承担一部分风险  
B. 与理财顾问服务相比，综合理财服务更强调个性化  
C. 私人银行业务除了提供金融产品外，更重要的是提供全面的服务  
D. 私人银行业务不是个人理财业务  
答案：D  
  
申请个人汽车贷款，借款人应提供一定的担保措施，不包括____。  
A. 以贷款所购车辆作抵押  
B. 房地产抵押  
C. 第三方保证  
D. 信用担保  
答案：D  
  
下列关于申请个人商用房贷款时借款人须具备的条件表述中，错误的是____。  
A. 具有良好的信用记录和还款意愿  
B. 具有稳定的收入来源和按时足额偿还贷款本息的能力  
C. 已支付所购商用房市场价值30$\%$以上的首付款  
D. 具有完全民事行为能力的自然人  
答案：C  
  
对于季节性融资，如果某公司在银行有多笔贷款，且贷款可展期，银行一定要确保其不被用于____。  
A. 长期投资  
B. 股票投资  
C. 投机投资  
D. 其他投资  
答案：A  
  
____，公司信贷可分为固定资产贷款、并购贷款、流动资金贷款。  
A. 按贷款经营模式划分  
B. 按贷款偿还方式划分  
C. 按授信品种划分  
D. 按贷款担保方式划分  
答案：C  
  
以下四种关于风险概念的理解表述中，错误的是____。  
A. 风险是未来结果的不确定性  
B. 风险是未来结果(如投资的收益率)对期望的偏离，即波动性  
C. 风险是损失的可能性  
D. 风险代表了未来损失的大小  
答案：

4、模型评估结论

在模型对比评测上，对GPT-4、ChatGPT、Aquila-7B、AquilaChat-7B、ChatGLM2-6B等模型进行了评测，结果如下：

表3显示了随机基线和27个模型在每个类别中的平均准确率，以及"平均"一栏中四个类别的加权总分。

在表中列出的27个模型中，GPT-4是所有类别中表现最好的，平均准确率超过60%，会计类别除外。

此外，GPT-4还在所有单个类别中表现出色。紧随其后的ChatGPT稳居模型第二位，落后前者约13.6个百分点。

Qwen-7B和Qwen-Chat-7B紧随其后，准确率分别达到53.8%和50.5%。

值得注意的是，Qwen-7B在会计和证书类别中表现优异，准确率达到50.3%，仅次于GPT-4。百川-13B-Base和百川-13B-Chat的平均得分分别为50.1%和49.4%，分列第五和第六位，在金融和经济类别中的表现值得称赞。

尽管ChatGLM2-6B的平均得分低于百川系列中的大型机型，但它在会计类别中的表现仍然十分突出。在同一系列中，较大的机型通常表现更好，尤其是在LLaMA和Falcon系列中。

此外，在同一系列和规模中，大型模型的不同版本之间的性能差异也不大，如InternLM和InterLM-chat。

不过，有趣的是，下面的对比图中列出的结果可以看出，CoT环境下所有模型的平均精度都明显低于AO环境。

大多数模型在CoT环境下的准确率下降了20%以上，这与我们最初的预期不符。

这一观察结果表明，在FinEval中，使用CoT提示并不一定会提高许多受试者的成绩。这主要有两个原因：首先，FinEval中的许多科目并不需要关注推理，引入多余的推理步骤可能会导致成绩下降。其次，某些模型未能充分发挥CoT提示的优势，尤其是那些没有经过CoT调整的模型。

三、中文医疗大模型评估基准CMB

中文医疗模型评估基准CMB: A Comprehensive Medical Benchmark in Chinese，其包括了不同临床职业、不同职业阶段考试中的多项选择题（CMB-Exam）和基于真实病例的复杂临床诊断问题（CMB-Clin）。

论文地址：https://arxiv.org/abs/2308.08833

项目地址：https://github.com/FreedomIntelligence/CMB，广告：https://cmedbenchmark.llmzoo.com/

1、数据构造

CMB-Exam: 全方位多层次测评模型医疗知识。

在设置上，分为6大项28小项，包括医师考试、护理考试、药师考试、医技考试、专业知识考试以及医学考研 4个主题。

其中：

CMB-test: 11200道题目，每一小项400道题目;

CMB-val: 280道附带详细解析的题目;

CMB-train: 269359道题目;

{  
    "exam_type": "医师考试",  
    "exam_class": "执业医师",  
    "exam_subject": "口腔执业医师",  
    "question": "患者，男性，11岁。近2个月来时有低热（37～38℃），全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶，边缘稍模糊，肺门淋巴结肿大。此男孩可能患",  
    "answer": "D",  
    "question_type": "单项选择题",  
    "option": {  
        "A": "小叶型肺炎",  
        "B": "浸润性肺结核",  
        "C": "继发性肺结核",  
        "D": "原发性肺结核",  
        "E": "粟粒型肺结核"  
    }  
},

CMB-Clin: 测评复杂临床问诊能力，包括74例复杂病例问诊;

{  
    "id": "0",  
    "title": "案例分析-腹外疝",  
    "description": "现病史\n（1）病史摘要\n     病人，男，49岁，3小时前解大便后出现右下腹疼痛，右下腹可触及一包块，既往体健。\n（2）主诉\n     右下腹痛并自扪及包块3小时。\n\n体格检查\n体温： T 37.8℃，P 101次／分，呼吸22次/分，BP 100/60mmHg，腹软，未见胃肠型蠕动波，肝脾肋下未及，于右侧腹股沟区可扪及一圆形肿块，约4cm×4cm大小，有压痛、界欠清，且肿块位于腹股沟韧带上内方。\n\n辅助检查\n（1）实验室检查\n     血常规：WBC 5.0×109／L，N 78％。\n     尿常规正常。\n（2）多普勒超声检查\n     沿腹股沟纵切可见一多层分布的混合回声区，宽窄不等，远端膨大，边界整齐，长约4～5cm。\n（3）腹部X线检查\n     可见阶梯状液气平。",  
    "QA_pairs": [  
        {  
            "question": "简述该病人的诊断及诊断依据。",  
            "answer": "诊断：嵌顿性腹股沟斜疝合并肠梗阻。\n      诊断依据：\n      ①右下腹痛并自扪及包块3小时；\n      ②有腹胀、呕吐，类似肠梗阻表现；腹部平片可见阶梯状液平，考虑肠梗阻可能；腹部B超考虑， \n腹部包块内可能为肠管可能；\n      ③有轻度毒性反应或是中毒反应，如 T 37.8℃，P 101次／分，白细胞中性分类78％；\n      ④腹股沟区包块位于腹股沟韧带上内方。"  
        },  
        {  
            "question": "简述该病人的鉴别诊断。",  
            "answer": "（1）睾丸鞘膜积液：鞘膜积液所呈现的肿块完全局限在阴囊内，其上界可以清楚地摸到；用透光试验检查肿块，鞘膜积液多为透光（阳性），而疝块则不能透光。\n     （2）交通性鞘膜积液：肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小，挤压肿块，其体积也可逐渐缩小。透光试验为阳性。\n     （3）精索鞘膜积液：肿块较小，在腹股沟管内，牵拉同侧睾丸可见肿块移动。\n     （4）隐睾：腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小，挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如，则诊断更为明确。\n     （5）急性肠梗阻：肠管被嵌顿的疝可伴发急性肠梗阻，但不应仅满足于肠梗阻的诊断而忽略疝的存在；尤其是病人比较肥胖或疝块较小时，更易发生这类问题而导致治疗上的错误。\n     （6）此外，腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动（静）脉瘤、软组织肿瘤、脓肿、\n圆韧带囊肿、子宫内膜异位症等。"  
        },  
        {  
            "question": "简述该病人的治疗原则。",  
            "answer": "嵌顿性疝原则上需要紧急手术治疗，以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备，如有脱水和电解质紊乱，应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力，然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下，凡肠管呈紫黑色，失去光泽和弹性，刺激后无蠕动和相应肠系膜内无动脉搏动者，即可判定为肠坏死。如肠管尚未坏死，则可将其送回腹腔，按一般易复性疝处理，即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时，则应在病人全身情况允许的前提下，切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人，因手术区污染，在高位结扎疝囊后，一般不宜作疝修补术，以免因感染而致修补失败。"  
        }  
    ]  
}

2、数据集获取

git clone "https://github.com/FreedomIntelligence/CMB.git" && cd CMB && unzip "./data/CMB.zip" -d "./data/" && rm "./data/CMB.zip"

3、模型测试方式

模型测试方式，依旧参考ceval等方式，提供Answer-only Prompt、Chain-of-thought Prompt

{System_prompt}  
  
<{Role_1}>：以下是中国{exam_type}中{exam_class}考试的一道{question_type}，不需要做任何分析和解释，直接输出答案选项。。  
{题目}  
A. {选项A}  
B. {选项B}  
...  
<{Role_2}>：A  
  
[n-shot demo, n is 0 for the zero-shot case]  
  
<{Role_1}>：以下是中国{exam_type}中{exam_class}考试的一道{question_type}，不需要做任何分析和解释，直接输出答案选项。  
{题目}  
A. {选项A}  
B. {选项B}  
...  
<{Role_2}>：

特别的，对于CMB-Clin Prompt，采用如下形式：

{System_prompt}  
  
<{Role_1}>：以下是一位病人的病例：  
{description}  
{QA_pairs[0]['question']}  
<{Role_2}>：..........  
[n-question based on the len(QA_pairs)]

4、模型测试效果

项目对GPT4、chatGLM2-6B、huatuoGPT、MedicalGPT等模型进行测试，如下所示，基本上处于不及格的状态。