AI 文摘

多模态模型大常用数据集及处理策略:兼看Chatlaw法律问答中的知识图谱融合思路





作者: 老刘说NLP 来源: 老刘说NLP

今天是2024年6月3日,星期一,北京,天气晴。

我们先来回顾下昨日大模型进展。

重点的,我们来看看两个主要问题,一个是关于现有多模态模型的数据集、处理方式情况,从中看看数据上的一些事儿,另一个是chatlaw引入知识图谱的执行逻辑,也是进一步提升大家对agent以及知识图谱的感知,会有一些收获。

供大家一起参考并思考。

问题1:关于现有多模态模型的数据集、处理方式情况

关于多模态的进展,可以看看最近的工作**《A Survey of Multimodal Large Language Model from A Data-centric Perspective》(https://arxiv.org/abs/2405.16640)** ,该工作综述了多模态大语言模型研究的进展,包括数据收集、处理、训练、微调和评估。

其中有一些值得关注的点可以看看,重点关注数据部分:

例如,对于整个多模态大模型的生产pipeline:

对于多模态大模型的数据生成:

其中,关于常用的数据集:

又如,关于图像多模态模型的处理。在微调阶段,针对不同模型的图像模态的数据集和处理方法的详细列表。表示该数据集是使用特定模型内的某种方法新生成的,而其他数据集(无)则作为该模型的原始数据源。"-“表示直接使用原始数据源而不进行额外处理。#Examples表示每个数据集的统计信息。

又如,关于音频多模态和视频多模态的主流模型、数据集以及数据处理方案

问题2:Chatlaw引入知识图谱的执行逻辑

去年受到广泛关注的chatlaw最近有更新,之前其通过引入keyword关键词进行增强召回,取得了一定的效果。而近期,其更新的工作引入agent,并融合知识图谱,我们可以看看,对应的工作为**《Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model》** (https://arxiv.org/pdf/2306.16092)。

我们重点来看2张图。

一个是整体的框架。

Chatlaw的框架,以下几个点:

(a)提供一个全面且多样化的法律数据集。多源数据经过去重和降噪处理,随后通过人工微调产生高质量的QA数据集、知识图谱和代理数据集;

(b)将大型语言模型(LLM)扩展到混合专家(MoE)模型。该模型利用分词器通过多头自注意力机制嵌入法律提示,并通过多个专家处理文本特征。每个专家基于加权和贡献最终输出;

(c)采用多代理协作框架。该框架涉及多个角色,每个代理遵循“感知-思考-行动”的三步过程:法律助理与用户互动以收集信息并填写知识图谱节点。法律研究员从法律数据集中分析和提取法律实体、关系和重要案例;法律编辑协助用户查阅文件、选择模板和填写文件,同时确保数据安全的防火墙策略。高级律师进行案例研究,评估项目的相关性,并提供全面结果。

另一个是其中知识图谱的运行逻辑。

具体地,其将法律咨询过程抽象为构建专业知识图谱。

首先,确定法律咨询问题的类型涉及获取相应的预定义实体集。

随后,律师指导咨询者回答问题的过程基于这个实体集。他们向用户提问,收集关键信息,扩展相应的节点,直到形成一个完整的咨询知识图谱,作为后续过程的基础;

在具体实现上,使用法律助理代理来实现这一过程。法律助理首先根据咨询问题选择适当的预定义实体集群,并初步填写信息节点。 对于信息不足的节点,则整合成新问题来询问用户,引导向知识图谱中添加更多相关信息;

如图1(c)所示,展示了一个离婚咨询的案例实践。法律助理根据用户输入选择预定义的实体集群“婚姻问题”,并从四个节点询问用户“子女信息”、“双方意图”、“财务信息”和“历史信息”。在相应的节点补充完整信息后,综合信息被传递给法律研究员,后者根据不同的节点关键词检索相应的案例,并继续后续步骤。

总结

本文主要介绍了两个工作,一个是关于现有多模态模型的数据集、处理方式情况,从中看看数据上的一些事儿,另一个是chatlaw引入知识图谱的执行逻辑。

关于其中的数据索引,数据处理这些,整理很不容易,大家可以站在巨人的肩膀上进一步前进。

参考文献

1、https://arxiv.org/abs/2405.16640

2、https://arxiv.org/pdf/2306.16092

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具