大模型B端落地“牛刀杀鸡”的奇怪感觉:兼看CEVAl通用评测到金融、医疗两大垂域评测的转变
作者: 老刘说NLP 来源: 老刘说NLP
今天是2023年9月8日,星期五,北京暴雨。我们继续来看看大模型的评估方面的工作。
在此之前,来分享下最近读到一篇不错的工作(https://mp.weixin.qq.com/s/d2Nns1qashMbcXPMG-4McQ),该工作讲述了文档智能在法务场景,利用文档智能跟大模型做的一些工作。
例如,合同对话chatContract。以问答交互方式取代原来相对复杂的交互,同时通过产品入口进行统一。通过对话实现合同要素抽取、条款抽取、合同审查、合同起草、合同摘要生成等任务。
其实现逻辑在于,文档智能的能力更多还是聚焦在前链路,包括对于法务文档的解析,对知识点抽取,形成一些 QA 知识库,对于长文本进行切分,构建向量索引等等。在此基础上,通过对用户发起查询请求的理解完成检索,将检索的结果和查询的提词给到法务大模型,其中通过相关性排序模型,提升输入到大模型的数据质量。
但是,我们发现,随着RAG这类模式的趋同化,最近有种感觉,搞大模型,少则几万,多则几千万,落地起来竟然是清一色的文档qa,还不准,套上语音虚拟形象就变成数字人。【大材小用的落差感,以及无奈感】,以下是社区讨论的一些观点:
但也有不同的观点,如下:
而与此更相关的是大模型评测的事儿,近期参加了一些评测的活动,并看到最近的一些动态,比如通用知识测评已经进入紫海,通用评测跟实际领域业务评测之间的gap很大,甚至出现不同向性。
所以,面向垂直领域、面向应用的大模型逐步成为下一个评测的热点。【大家可以拭目以待】
本文主要围绕这一主题,面向现在中文评测、从现有的代表性通用领域评测、金融领域评测FinEval、医疗评测CMB三个方面,进行介绍,供大家一起参考。
一、现有的代表性通用领域评测
当前的代表性通用领域评测包括ceval、cmmlu、mmcu、m3ke、xiezhi等,但许多都没有在线榜单出现,下面就几个有的做代表性具体介绍。
1、C-Eval
C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。
地址:https://github.com/SJTU-LIT/ceval/blob/main/README_zh.md
2、CMMLU
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
地址:https://github.com/haonan-li/CMMLU
3、LucyEVAL
LucyEval 是甲骨易AI研究院与 LanguageX AI Lab 联合研发的针对中文大模型生成能力的测试基准。 在此项测试中,受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的11000道不同类型问题做出准确且相关的回答。
地址:http://cgeval.besteasy.com/
二、金融领域垂直评测FinEval
FinEval(FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models)是一个包含高质量多项选择题的集合,涵盖金融、经济、会计和证书等领域。它包括4,661个问题,涵盖了34个不同的学术科目。为了确保对模型性能进行全面的评估,FinEval采用了多种方法,包括zero-shot,few-shot,仅预测答案(answer-only)和思维链(chain-of-thought)提示词。
地址:https://github.com/SUFE-AIFLM-Lab/FinEval/blob/main/README_zh-CN.md
论文地址:https://arxiv.org/abs/2308.09975
1、数据基本情况
FinEval中的问题包括34个不同的科目,这些科目随后被分为更广泛的类别,包括金融、经济、会计和证书。
具体来说,从题目的角度来看:
金融类包括10个不同的科目,共1265道题;
经济类包括7个科目,共874道题。
会计类别包括10个科目和1180个问题。
证书类别则包括7个科目和1342个问题。
关于数据集的分割,开发集、验证集、测试集和总集各包含34个科目,分别由170、1151、3340和4661个问题组成。
表1列出了所有FinEval任务及其大类,以及每个任务中包含的问题数量。
2、数据获取方式
cd code/data
wget https://huggingface.co/datasets/SUFE-AIFLM-Lab/FinEval/resolve/main/FinEval.zip
unzip FinEval.zip
3、数据评测方法
数据样例如下:
以下是中国关于banking_practitioner_qualification_certificate考试的单项选择题,请选出其中的正确答案。
下列关于理财业务的理解,说法有误的是____。
A. 综合理财服务中,银行可以让客户承担一部分风险
B. 与理财顾问服务相比,综合理财服务更强调个性化
C. 私人银行业务除了提供金融产品外,更重要的是提供全面的服务
D. 私人银行业务不是个人理财业务
答案:D
申请个人汽车贷款,借款人应提供一定的担保措施,不包括____。
A. 以贷款所购车辆作抵押
B. 房地产抵押
C. 第三方保证
D. 信用担保
答案:D
下列关于申请个人商用房贷款时借款人须具备的条件表述中,错误的是____。
A. 具有良好的信用记录和还款意愿
B. 具有稳定的收入来源和按时足额偿还贷款本息的能力
C. 已支付所购商用房市场价值30$\%$以上的首付款
D. 具有完全民事行为能力的自然人
答案:C
对于季节性融资,如果某公司在银行有多笔贷款,且贷款可展期,银行一定要确保其不被用于____。
A. 长期投资
B. 股票投资
C. 投机投资
D. 其他投资
答案:A
____,公司信贷可分为固定资产贷款、并购贷款、流动资金贷款。
A. 按贷款经营模式划分
B. 按贷款偿还方式划分
C. 按授信品种划分
D. 按贷款担保方式划分
答案:C
以下四种关于风险概念的理解表述中,错误的是____。
A. 风险是未来结果的不确定性
B. 风险是未来结果(如投资的收益率)对期望的偏离,即波动性
C. 风险是损失的可能性
D. 风险代表了未来损失的大小
答案:
4、模型评估结论
在模型对比评测上,对GPT-4、ChatGPT、Aquila-7B、AquilaChat-7B、ChatGLM2-6B等模型进行了评测,结果如下:
表3显示了随机基线和27个模型在每个类别中的平均准确率,以及"平均"一栏中四个类别的加权总分。
在表中列出的27个模型中,GPT-4是所有类别中表现最好的,平均准确率超过60%,会计类别除外。
此外,GPT-4还在所有单个类别中表现出色。紧随其后的ChatGPT稳居模型第二位,落后前者约13.6个百分点。
Qwen-7B和Qwen-Chat-7B紧随其后,准确率分别达到53.8%和50.5%。
值得注意的是,Qwen-7B在会计和证书类别中表现优异,准确率达到50.3%,仅次于GPT-4。百川-13B-Base和百川-13B-Chat的平均得分分别为50.1%和49.4%,分列第五和第六位,在金融和经济类别中的表现值得称赞。
尽管ChatGLM2-6B的平均得分低于百川系列中的大型机型,但它在会计类别中的表现仍然十分突出。在同一系列中,较大的机型通常表现更好,尤其是在LLaMA和Falcon系列中。
此外,在同一系列和规模中,大型模型的不同版本之间的性能差异也不大,如InternLM和InterLM-chat。
不过,有趣的是,下面的对比图中列出的结果可以看出,CoT环境下所有模型的平均精度都明显低于AO环境。
大多数模型在CoT环境下的准确率下降了20%以上,这与我们最初的预期不符。
这一观察结果表明,在FinEval中,使用CoT提示并不一定会提高许多受试者的成绩。这主要有两个原因:首先,FinEval中的许多科目并不需要关注推理,引入多余的推理步骤可能会导致成绩下降。其次,某些模型未能充分发挥CoT提示的优势,尤其是那些没有经过CoT调整的模型。
三、中文医疗大模型评估基准CMB
中文医疗模型评估基准CMB: A Comprehensive Medical Benchmark in Chinese,其包括了不同临床职业、不同职业阶段考试中的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。
论文地址:https://arxiv.org/abs/2308.08833
项目地址:https://github.com/FreedomIntelligence/CMB,广告:https://cmedbenchmark.llmzoo.com/
1、数据构造
CMB-Exam: 全方位多层次测评模型医疗知识。
在设置上,分为6大项28小项,包括医师考试、护理考试、药师考试、医技考试、专业知识考试以及医学考研 4个主题。
其中:
CMB-test: 11200道题目,每一小项400道题目;
CMB-val: 280道附带详细解析的题目;
CMB-train: 269359道题目;
{
"exam_type": "医师考试",
"exam_class": "执业医师",
"exam_subject": "口腔执业医师",
"question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患",
"answer": "D",
"question_type": "单项选择题",
"option": {
"A": "小叶型肺炎",
"B": "浸润性肺结核",
"C": "继发性肺结核",
"D": "原发性肺结核",
"E": "粟粒型肺结核"
}
},
CMB-Clin: 测评复杂临床问诊能力,包括74例复杂病例问诊;
{
"id": "0",
"title": "案例分析-腹外疝",
"description": "现病史\n(1)病史摘要\n 病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。\n(2)主诉\n 右下腹痛并自扪及包块3小时。\n\n体格检查\n体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。\n\n辅助检查\n(1)实验室检查\n 血常规:WBC 5.0×109/L,N 78%。\n 尿常规正常。\n(2)多普勒超声检查\n 沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。\n(3)腹部X线检查\n 可见阶梯状液气平。",
"QA_pairs": [
{
"question": "简述该病人的诊断及诊断依据。",
"answer": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。\n 诊断依据:\n ①右下腹痛并自扪及包块3小时;\n ②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑, \n腹部包块内可能为肠管可能;\n ③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%;\n ④腹股沟区包块位于腹股沟韧带上内方。"
},
{
"question": "简述该病人的鉴别诊断。",
"answer": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。\n (2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。\n (3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。\n (4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。\n (5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。\n (6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、\n圆韧带囊肿、子宫内膜异位症等。"
},
{
"question": "简述该病人的治疗原则。",
"answer": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。"
}
]
}
2、数据集获取
git clone "https://github.com/FreedomIntelligence/CMB.git" && cd CMB && unzip "./data/CMB.zip" -d "./data/" && rm "./data/CMB.zip"
3、模型测试方式
模型测试方式,依旧参考ceval等方式,提供Answer-only Prompt、Chain-of-thought Prompt
{System_prompt}
<{Role_1}>:以下是中国{exam_type}中{exam_class}考试的一道{question_type},不需要做任何分析和解释,直接输出答案选项。。
{题目}
A. {选项A}
B. {选项B}
...
<{Role_2}>:A
[n-shot demo, n is 0 for the zero-shot case]
<{Role_1}>:以下是中国{exam_type}中{exam_class}考试的一道{question_type},不需要做任何分析和解释,直接输出答案选项。
{题目}
A. {选项A}
B. {选项B}
...
<{Role_2}>:
特别的,对于CMB-Clin Prompt,采用如下形式:
{System_prompt}
<{Role_1}>:以下是一位病人的病例:
{description}
{QA_pairs[0]['question']}
<{Role_2}>:..........
[n-question based on the len(QA_pairs)]
4、模型测试效果
项目对GPT4、chatGLM2-6B、huatuoGPT、MedicalGPT等模型进行测试,如下所示,基本上处于不及格的状态。
总结
面向垂直领域、面向应用的大模型逐步成为下一个评测的热点。本文主要围绕这一主题,面向现在中文评测、从现有的代表性通用领域评测、金融领域评测FinEval、医疗评测CMB三个方面,进行了介绍。
在这些评测当中,我们再看过这些评测后,能很真实地看到一些评价方面的问题,如下:
而在评测方式上,也有一些很有趣的发现,尤其是大家普遍认为加入COT后,性能会变强,而实际的情况是:
CoT不一定能显著提升模型分数因为只有在推理数据类任务上,模型强到一定程度之后,CoT才会有效,这也是为什么CoT是一个典型的涌现能力。
另外,CoT的模式下,目前只评价最终答案对不对,不评价中间过程对不对,这是因为中间过程和最终答案在大部分时候显著正相关,最终答案对了,中间不会错到哪里去;中间错的多了,最终答案不会对。
面向应用的评测,将会更有趣。
今天就到这儿,夜深且落雨,有声且无情。
参考文献
1、https://arxiv.org/abs/2308.09975
2、https://arxiv.org/abs/2308.08833
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
更多AI工具,参考Github-AiBard123,国内AiBard123