AI 文摘

谷歌提出TrueTeacher:基于大型语言模型的学习事实一致性评价





作者: AINLP 来源: AINLP

©原创 · 作者 | 楠木

研究方向 | 大语言模型

论文名称:

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

论文链接:
https://arxiv.org/pdf/2305.10601.pdf

01

动机

事实一致性评估通常使用自然语言推理(NLI)模型进行,但这些模型在评估摘要方面的成功率有限。先前的工作使用合成训练数据改进了这些模型。然而,数据通常是基于扰动的人工撰写的摘要,这些摘要的特征往往与真实模型生成的摘要不同,并且对可能的事实错误的覆盖范围有限。或者,大型语言模型(LLM)最近在直接评估生成任务方面显示出了有希望的结果,但对于实际使用来说,计算成本太高。受这些限制的启发,我们引入了TrueTeacher,这是一种通过使用LLM注释不同模型生成的摘要来生成合成数据的方法。与之前的工作不同,TrueTeacher不依赖于人工撰写的摘要,而且天生就是多语言的。

总之,这项工作包括以下贡献:

1.我们介绍了TrueTeacher,这是一种基于用LLM注释模型生成的摘要的合成数据生成方法,并展示了其有效性和稳健性。
2.我们在事实一致性评估任务中对FLAN PaLM 540B进行了评估,并表明通过使用我们的方法,可以将其知识提炼成一个更小的模型。
3.我们进行了一项系统研究,在苹果与苹果的比较中重新评估了任务的现有合成数据生成方法,并确定了它们的局限性。
4.我们在生成多语言合成数据以实现事实一致性方面进行了第一次实验,并证明了其有用性。
5.我们发布了一个包含140万TrueTeacher培训示例的数据集,用于我们的实验。

02

TrueTeacher

在本节中,我们描述了TrueTeacher,这是我们为摘要中的事实一致性评估任务生成合成示例的方法。我们的主要动机是使用真实模型生成的摘要中的事实不一致性,而不是扰动的黄金摘要。为此,我们使用不同能力的生成摘要模型生成了一组不同的摘要,并利用LLM对其进行标记以确保一致性。

一些输出摘要预计会包含一致性错误,我们假设性能强大的LLM可以推广到任务中,并以足够的质量标记它们,以便对训练有用。使用模型生成的摘要不仅可以生成更真实的文本,还可以潜在地包含罕见的错误,这些错误很难与扰动逻辑结合起来。

以下表示我们的数据生成过程示例:

我们的数据生成过程如图2所示。为了创建模型生成的摘要,我们首先训练各种摘要模型。

接下来,我们选择一个文档语料库,并使用SM中的所有摘要模型来摘要D中的所有文档,从而产生模型生成的输出摘要的集合O。TrueTeacher不需要黄金摘要,这使它可以与任何文档D集合一起使用,并使其比以前的方法更具可扩展性。

最后,LLM会被提示在O中标记所有摘要,以保持w.r.t的一致性。

由于我们利用LLM进行标记,我们的方法可能会受益于LLM质量的持续进步。此外,以前的方法通常依赖于特定于语言的组件(例如,信息提取),这限制了它们在多种语言中的适用性。由于最近的LLM是在多语言数据上预先训练的,我们的方法可以很容易地应用于非英语语言。

03

实验

我们应用TrueTeacher生成了一个大规模的合成数据集,用于总结和实验中的事实一致性评估,以评估我们方法的有效性和实用性。

3.1 合成数据生成过程

为了应用TrueTeacher,我们如下实例化摘要数据集T、预先训练的LM和文档语料库D。**

我们部署FLAN-PaLM 540B作为我们的LLM教师。基于FLAN的模型经过训练以遵循自然语言中的指令,FLAN-PaLM在密切相关的NLI任务中进行了微调。因此,我们希望它能够很好地推广到实际一致性评估中。为了简单起见,我们使用了零样本提示,因为在早期实验中应用少量快照或连锁反应提示并没有提高性能。

在这个设置中应用TrueTeacher产生了140万个合成示例(见表1中的统计数据)。正如预期的那样,较大的模型输出的示例更加一致。为了促进进一步的研究,我们公开了这个数据集。我们利用这个数据集来训练学生模型,该模型预测文档摘要对的事实一致性标签。

3.2 TRUE基准的主要结果

表二表示了TRUE基准汇总子集的ROC-AUC结果。

这一强大的结果证明了TrueTeacher在具有挑战性的设置中的高效性。值得注意的是,我们的模型也优于我们用作教师的×50倍大的FLAN-PaLM。这可以归因于对特定任务的大规模知识提炼,这代表了该任务的大型模型的“专有技术”,而不需要保持其他任务的性能。

3.3 重新评估合成数据生成方法

表3显示了我们的研究结果。我们计算了三个平均分数:基于CNN/DM文档的域内测试集,基于XSum文档的域外测试集,以及来自TRUE的原始数据集。

3.4 定性分析

图3给出了一个案例研究,基于同一份文件,从所有评估方法中随机抽取(而不是精心挑选)一个负面例子。

3.5 抽象性分析

表四表示了平均抽象性得分(越低越好),在5k个例子的随机样本上测量。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

阅读至此了,分享、点赞、在看三选一吧🙏

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具