关于大模型的数据泄漏问题的思考
作者: AINLP 来源: AINLP
提纲
1 简介
2 方法
** 2.1 Rephrasing techniques**
** 2.2 LLM Decontaminator**
3 实验
4 讨论
参考文献
####1 简介
目前有不少关于大模型benchmark可信度的担忧,怀疑由于数据泄漏导致最终评测结果的不可信,也就是大模型在训练阶段就见到某些评测数据了。研究人员发现了如果大模型训练数据中包含评测数据的某些变体,即便13B的模型也很容易对某个benchmark过拟合,从而获得足够匹敌GPT-4的高分, 同时还提出了一种基于大模型的数据净化方案,用于检测存在数据泄漏的训练数据。
####2 方法
研究人员主要探索训练数据如果包含评测数据的变体,是否会影响最终大模型在benchmark上的表现,并将评测数据的变体称为“rephrased samples” (可以参考下图样例,rephrased sample跟原数据语义一致,但是表现形式有明显差异)。实验思路是先提出了可以生成数据更多变体的rephrasing technique,基于该方法构建出benchmark评测数据所对应的rephrased sample,从而分析训练数据包含rephrased samples对于最终评测结果的影响。然后再提出一个可以检测rephrased sample的方案LLM Decontaminator,用于从训练数据中移除rephrased sample,保证评测结果不受数据泄漏影响。
图1: rephrased sample示例
####2.1 Rephrasing techniques
基于文本rephrasing techniques方法包括重新调整词语为止或者用同义词替代等方式,基于code的方法,则包括调整代码风格,命名方式,注释等内容。除此之外,研究人员还提出了一种简洁的方法,整体流程如下图。在给定数据t下,通过设置合适的prompt让强力的语言模型生成t的变体,然后利用包括n-gram重叠度计算等多种检测手段去检测t的变体,若没被检测出来,则被认为是rephrased sample,反之,重复以上操作。 这种rephrasing technique可以构建更加高质量的rephrased sample,而不容易被包括字符串检测等手段检测出来。
图2: 一种rephrasing samples的流程图
####2.2 LLM Decontaminator
关于数据泄漏检测的方法目前有4种类型,第一种是N-gram overlap,基于字符串去检测文本中n-gram重合度的,第二种是Embedding similar search, 基于句子embedding去检测文本向量距离的,第三种是Decoding matching,让模型自重补全测试数据的完成prompt从而判断训练过程是否见过,第四种是Influence function, 计算测试数据对于每个训练样本的影响程度从而发现对训练数据影响最显著的测试数据,再由人进行判断。
图3: 现存4种不同类型的检测方法介绍
研究人员也提出了新的检测方案,思路也很简单,分两步走。给定一个数据t,第一步得到t的句向量,并在训练数据中找到K个跟它距离最近的数据,第二步是依次利用大模型去判断t跟上一步返回的候选结果之间是否存在关联,从而判断训练数据中是否包括t的rephrased sample。 流程上很像“召回+精排”,利用句向量来做召回,利用大模型来做精排打分。
图4: LLM decontaminator流程图
####3 实验结论
a) 研究人员在MMLU, HumanEval, GSM-8k三个benchmark进行了实验,比对了普通训练的模型跟在训练数据中加入评测数据的变体(rephrased samples)的模型,发现往训练数据加入rephrased samples后,模型在benchmark上的表现会大幅度提升,甚至匹敌GPT-4的表现,从而说明训练数据中的rephrased sample也应该被视作数据泄漏,是需要从训练数据中移除出去的。
图5: rephrased samples的影响
b)比较了不同数据泄漏的检测方案,最终发现本文提出的LLM Decontaminator在各方面有亮眼且稳定的表现。此外,基于LLM Decontaminator,研究人员初步分析了几个不同benchmark的数据泄漏情况。
图6: 不同检测方案的效果对比
图7: 不同benchmark的数据泄漏情况
####4 讨论
** 这篇文章是想引起对于各种大模型benchmark的思考,不考虑数据泄漏问题而只看benchmark指标是有问题的。在benchmark上把分数刷到再高,就能说明大模型效果更佳强大吗?是不是也要去考虑下评测结果的合理性?这篇文章中提出的Rephrasing techniques跟LLM Decontaminator都有点抛砖引玉的味道,真实场景下铁定会更加复杂,如何设计更加有效的Decontaminator来保证评测结果的合理性还有待进一步研究。**
** 还是那个观点,benchmark只是个参考,模型的真实能力到底有几分几两,体验的人多了,自然就有数了,时间会告诉我们答案。**
参考文献
1 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
https://arxiv.org/pdf/2311.04850.pdf
进技术交流群请添加AINLP小助手微信(id: ainlp2)
请备注具体方向+所用到的相关技术点
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
阅读至此了,分享、点赞、在看三选一吧🙏
更多AI工具,参考Github-AiBard123,国内AiBard123