AI 文摘

【文档问答科普系列】什么是对话式文档问答





作者: AINLP 来源: AINLP

导读

最近大家都在找大语言模型(LLM)的落地方向,其中一个比较热门的赛道是文档知识库问答。小老弟将围绕知识库文档这个方向,连续推送一系列相关文章,包括文档知识库问答的组成,涉及到的技术,效果等。整个系列定位受众为非NLP从业人员,所以会非常科普向,业内同学可酌情阅读。

LLM(Large Language Model)的大火是由ChatGPT带起来的,但经过接近一年的发展,开源大语言模型也各放异彩,因此,未来的文章将不会特意突出ChatGPT,而是统一称LLM。

当然,圈外的同学也应该建立这样一个认识:ChatGPT(特别是GPT4)是LLM的代表以及目前能力最强的闭源模型,但其他模型也在如火如荼的发展,如国产的ChatGLM、Baichuan,国外的Llama2,Bard等,未来LLM也将会深入到我们生活的各个角落。

或不多说,进入正题。

LLM模型的知识是由训练时候的语料决定的,对于一些通识问题会得到比较可靠的答案,但是对于一些非常规的领域或者企业内部的知识,LLM无法发挥其作用。

ChatGPT完全给出了一个错误的答案,这是由LLM模型本身的“Hallucination “问题造成的, Hallucination即幻觉,可以理解为”一本正经的胡说八道“。

如何解决这个问题?

一种方法是,用最新的数据继续去训练模型,将知识“注入“到模型中。但这种方法,首先需要一定的算力资源进行模型训练,其次,数据需要清洗、整理,模型训练需要调参,最后,可能折腾了很久后发现效果一般,所以这种方法门槛较高,不太适合普通企业或个人进行实践。

另外一种方法,即本文提到的,基于知识库问答。通俗的讲,如果把对LLM的提问认为是考试,那么基于知识库问答,就是给到参考答案的开卷考试。当然,我们的考题答案可能不在参考资料中, 所以也需要LLM做到“知之为知之,不知为不知“。

基于文档问答的总体框架如下:

1

用户提问后,根据问题到知识库中进行搜索,查找与问题相关的文本。

2

将搜到的文本与用户问题,一起送入LLM。

3

LLM根据问题和文本,进行阅读理解,生成最终答案(或者给到答案不在资料中的回答)。

这里面的核心是**“Smart Retriever”** 和**“Generator”** 。

即检索模块,和生成模块。

这两部分将会在该系列科普文进行展开更新,欢迎大家关注后续文章。

另外,对AGI比较关注的同学,应该听说 New Bing,即带有ChatGPT问答的Bing搜索,这也是可以让LLM具有实时的知识的一种方法:加入联网搜索功能

大致流程是首先对用户的问题,调用搜索引擎进行查询,然后将搜索结果一起丢给LLM,让LLM结合搜索结果和问题,进行回答。实际上这种方法和知识库搜索也类似,只不过这里的“知识”不是来自于问答,而是来自于网页内容解析后的结果。当然,工程实现起来要更复杂,涉及到网络爬虫,网页内容的解析等工作。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

阅读至此了,分享、点赞、在看三选一吧🙏

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具