AI 文摘

今日大模型动态跟踪:开源中英语义向量模型BGE及利用大模型做知识图谱本体是否靠谱的工作评估





作者: 老刘说NLP 来源: 老刘说NLP

今天是立秋,不知不觉,秋天已来。

今天我们来看看一些新鲜事儿,讨论两个话题。

一个是新的语义编码模型BGE,官方说法性能很强,其在langchain等项目中可以扮演重要的召回作用。

一个是利用大模型进行图谱本体生成的工作,这个实验结果个结论也很有趣,这些供大家参考。

一、新的中英语义向量模型BGE

今天有个新的工作,针对当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源。

为加快解决大模型的制约问题,智源发布开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力较好。

此外,与鉴于当前中文社区缺乏全面的评测基准,也发布了中文语义向量表征能力评测基准C-MTEB (Chinese Massive Text Embedding Benchmark),包含6大类评测任务和31个数据集,共涵盖6大类评测任务(检索、排序、句子相似度、推理、分类、聚类),涉及31个相关数据集。

FlagEmbedding:

https://github.com/FlagOpen/FlagEmbedding

BGE 模型链接:

https://huggingface.co/BAAI/

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

C-MTEB 评测基准链接:

https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

此外,也有测试地址:

!pip install sentence_transformers

from langchain.embeddings import HuggingFaceBgeEmbeddings

model_name = “BAAI/bge-small-en”
model_kwargs = {‘device’: ‘cpu’}
encode_kwargs = {’normalize_embeddings’: False}
hf = HuggingFaceBgeEmbeddings(
model_name=model_name,
model_kwargs=model_kwargs,
encode_kwargs=encode_kwargs
)
embedding = hf.embed_query(“hi this is harrison”)

我们来看看一些真实体验,来自社区:

体验1:

“https://huggingface.co/BAAI/bge-large-zh
我用这个接口测试了一下,感觉相近的文本可以在0.8左右,感觉还可以。
但是不太明白的是,差距很大的文本,相似度也有0.6,07,这是什么原因呢[疑问]”这其实有点像低秩问题。

体验2:

“m3e之前默认是mean pooling,BGE用的CLS,我测了效果没有他们自己说的那么好,不过确实是好了一点点。”

而关于这个,还有其他的一些评测榜单,例如:

https://huggingface.co/spaces/mteb/leaderboard

而具体的效果如何,能否对问答问答有用,还需要进一步实验。

二、LLMs4OL:基于大模型建本体

今天社区有讨论工作《LLMs4OL: Large Language Models for Ontology Learning》一文,是一个介绍利用大模型进行本体构建的工作。

论文地址:https://arxiv.org/abs/2307.16648

群友需求是其想寻找LLM帮助建立KG的自动化, KG虽然有点概念,但没真正入坑, 看看这文章结论靠谱吗? 是否值得追着实验实验等。

结果如下:​

​该工作从实体类型打标,上下位识别,关系识别三个任务上进行了实验,但指标大模型并不高。finetune后高一些【也没高到哪儿去】,可辅助加人工。

也就是说,本体这个东西主观性很强,也是图谱构建最耗时跟最烦人的地方,这个大模型并没有给出根治方案。综上所述,不靠谱,还得靠人。

参考文献

1、https://mp.weixin.qq.com/s/J8mG-J5KLkkWr6fQnkscZw

2、https://arxiv.org/abs/2307.16648

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

​​​​​​​

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具