AI 文摘

DenoSent:一个结合对比学习、去噪生成学习的自监督句子表征训练方法





作者: NLP前沿 来源: NLP前沿

https://arxiv.org/pdf/2401.13621.pdf  
https://github.com/xinghaow99/DenoSent  

这篇文章介绍了一种名为DenoSent的自监督句子表示学习方法,它结合了对比学习和生成学习的方法来提高句子表示的质量。DenoSent的核心思想是从句子内部(intra-sentence)和句子之间(inter-sentence)两个角度来学习句子表示。下面是DenoSent算法原理的详细介绍:

1.自监督学习框架

*对比学习(Contrastive Learning) :这种方法通过构建正样本对(相似的句子)和负样本对(不相似的句子),在表示空间中拉近相似句子的距离,同时推远不相似句子的距离。这通常通过数据增强策略来实现,例如随机删除、交换或重排句子中的单词。

*生成学习(Generative Learning)

*去噪目标(Denoising Objective) :DenoSent提出了一种新的去噪目标,通过在句子内部引入离散噪声(discrete noise)和连续噪声(continuous noise),生成噪声句子,然后训练模型将这些噪声句子恢复到原始形式。这种方法类似于自编码器(AutoEncoder),其中编码器(encoder)将句子编码为固定维度的向量,而解码器(decoder)则尝试从这个向量重构原始句子。

*去噪策略

*离散噪声 :通过机器翻译或大型语言模型(LLM)对句子进行重写,引入离散噪声,同时保持句子的基本语义不变。

*连续噪声 :在嵌入的句子上应用高比例的dropout,使得大部分元素被设置为零,迫使模型在重构过程中保留足够的语义信息。

*模型结构

  • DenoSent采用了与原始Transformer相似的编码器-解码器结构,但对编码器输出进行了池化(pooling),将序列长度压缩到1,作为句子表示。在训练过程中,模型通过交叉注意力(cross-attention)操作来恢复噪声句子。

*训练目标

  • DenoSent的训练目标是最小化去噪损失(denoising loss),即模型预测的噪声句子与原始句子之间的差异。此外,还可以结合对比学习目标,通过优化对比损失(contrastive loss)来进一步改进句子表示。

*实验结果

  • 实验表明,DenoSent在多种句子级任务上,如语义文本相似性(STS)、重排序(reranking)、检索(retrieval)和分类(classification)任务上,都取得了与对比学习方法相媲美甚至更好的性能。

总的来说,DenoSent通过结合对比学习和生成学习的优势,提出了一种新的自监督学习框架,能够有效地学习高质量的句子表示,并且具有良好的泛化能力。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具