RAG进阶：一个ctrl-c就能拿走的图文检索框架作者： NLP前沿来源： NLP前沿 HuixiangDou 是群聊场景的 LLM 知识助手。群里人多口杂，机器人显然不应该答复所有消息，它的设计规则为：无关内容不吭声——拒答明确该答的，直接回复——检索不能违反核心价值观——可靠 https://github.com/InternLM/HuixiangDou 在上一篇文章中，我们介绍如何用知识图谱提升稠

RAG进阶：一个ctrl-c就能拿走的图文检索框架

作者： NLP前沿来源： NLP前沿

HuixiangDou 是群聊场景的 LLM 知识助手。群里人多口杂，机器人显然不应该答复所有消息，它的设计规则为：

在上一篇文章中，我们介绍如何用知识图谱提升稠密检索能力，本文分享 HuixiangDou 在图文检索 中的软件设计考量。

软件设计

目前 GitHub 上已经有很多知名 RAG 框架：

HuixiangDou 聚焦在群聊场景，除了能提供业务数据上的精度报告外，在实现层面没有历史包袱，因此更简单有效。

鼓励用户拿走代码

不仅仅是 pip install 再调 API，HuixiangDou 假设用户也喜欢直接 copy 走源码。

这样能同时改善双方的体验：

因此 HuixiangDou 源码有三个核心目录：

*primitive 。一些基础设计，如多模态 query、切分方法 splitter 、特征读写 faiss 等

*service 。RAG 需要的 pipeline 逻辑，如网络搜索、混合知识图谱做拒答等

*frontend 。群聊软件（如飞书、微信等）的接入方法

相对于 langchain ，HuixiangDou 的设计更贴合每个模块原本的功能，例如：

如果用户希望构建自己的 RAG 应用，既不希望引入庞大依赖又不想自己写，ctrl-c 拿走 primitive 目录即可。HuixiangDou 还提供了单元测试和精度报告，保证拿走的都是可靠的。

图文混合检索

如果有 10G 显存，HuixiangDou 目前可用 Visualized-BGE 提取图片特征，图片和文字的特征放入同一个 faiss 库中，等待后续检索。

特征库构建过程和纯文本模态完全相同：

python3 -m huixiangdou.service.feature_store --config_path config-multimodal.ini

然后用以下命令，运行一个简单的 gradio WebUI：

python3 tests/test_query_gradio.py --config_path config-multimodal.ini

提交问题和图片，可以检索图片所属文档，并作答：

运行需注意：

得益于 primitive 的简洁设计，HuixiangDou 在默认情况下，仍然是仅需 1.5G 显存的 BCE 纯文本模型。我们已对齐了实现多模态前后的业务精度。

总结

本文分享了 HuixiangDou 在实现图片混合检索过程中，在设计层面的考量，我们更鼓励用户拿走代码。

可关注我们的公众号：每天AI新工具