今日大模型动态跟踪：开源中英语义向量模型BGE及利用大模型做知识图谱本体是否靠谱的工作评估

By AiBard123
August 9, 2023 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是立秋，不知不觉，秋天已来。

今天我们来看看一些新鲜事儿，讨论两个话题。

一个是新的语义编码模型BGE，官方说法性能很强，其在langchain等项目中可以扮演重要的召回作用。

一个是利用大模型进行图谱本体生成的工作，这个实验结果个结论也很有趣，这些供大家参考。

一、新的中英语义向量模型BGE

今天有个新的工作，针对当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。

为加快解决大模型的制约问题，智源发布开源可商用中英文语义向量模型BGE（BAAI General Embedding），在中英文语义检索精度与整体语义表征能力较好。

此外，与鉴于当前中文社区缺乏全面的评测基准，也发布了中文语义向量表征能力评测基准C-MTEB (Chinese Massive Text Embedding Benchmark)，包含6大类评测任务和31个数据集，共涵盖6大类评测任务（检索、排序、句子相似度、推理、分类、聚类），涉及31个相关数据集。

FlagEmbedding：

https://github.com/FlagOpen/FlagEmbedding

BGE 模型链接：

https://huggingface.co/BAAI/

BGE 代码仓库：

https://github.com/FlagOpen/FlagEmbedding

C-MTEB 评测基准链接：

https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

此外，也有测试地址：

!pip install sentence_transformers

from langchain.embeddings import HuggingFaceBgeEmbeddings

model_name = “BAAI/bge-small-en”
model_kwargs = {‘device’: ‘cpu’}
encode_kwargs = {’normalize_embeddings’: False}
hf = HuggingFaceBgeEmbeddings(
model_name=model_name,
model_kwargs=model_kwargs,
encode_kwargs=encode_kwargs
)
embedding = hf.embed_query(“hi this is harrison”)

我们来看看一些真实体验，来自社区：