一个RAG嵌入模型微调数据构建pipeline 作者： PaperAgent 来源： PaperAgent 创建用于微调自定义嵌入模型的合成数据生成pipeline *创建知识库：首先准备您的特定领域知识库，例如包含信息的PDF或其他文档。将这些文档的内容转换为纯文本格式。 *数据分块：将您的文本数据划分为大约每个256个token的

一个RAG嵌入模型微调数据构建pipeline

作者： PaperAgent 来源： PaperAgent

创建用于微调自定义嵌入模型的合成数据生成pipeline

*创建知识库 ：首先准备您的特定领域知识库，例如包含信息的PDF或其他文档。将这些文档的内容转换为纯文本格式。

*数据分块 ：将您的文本数据划分为大约每个256个token的可管理chunk（RAG后续使用的块大小）。

*使用LLM生成问题 ：使用语言模型（LLM）为每个文本块生成K个问题。这些问题应该能够根据块内的内容得到回答。示例提示：“生成五个可以利用以下文本回答的问题：[插入chunk内容]。”

*可选生成困难的负例 ：通过生成与正确问题相似但答案错误或误导的问题来创建困难的负例。或者，在训练期间使用批量中的其他随机样本作为负例（批内负例）。

*去重和过滤对 ：删除“重复”的问题-上下文对以确保独特性。使用LLM通过定义自定义的质量评估标准来评判和过滤掉质量较低的对。

*微调嵌入模型 ：使用准备好的数据，使用Sentence Transformers 3.0微调嵌入模型。

https://x.com/_philschmid/status/1798388387822317933
pip install -U sentence-transformers
https://sbert.net/docs/installation.html