bge杀疯了，又更新SOTA向量&排序模型了！作者： NLP前沿来源： NLP前沿好像不用多说啥，“BGE”这个模型的名气应该非常非常大了。 Bge-m3，Bge-reranker应该算是现在最好用的开源语义召回组合了。又新开源了3个模型，继续刷记录。仍然是多语言的。但是这次使用了gemma

bge杀疯了，又更新SOTA向量&排序模型了！

By AiBard123
August 7, 2024 - 2 min read

作者： NLP前沿来源： NLP前沿

好像不用多说啥，“BGE”这个模型的名气应该非常非常大了。

Bge-m3，Bge-reranker应该算是现在最好用的开源语义召回组合了。又新开源了3个模型，继续刷记录。仍然是多语言的。但是这次使用了gemma2微调，所以相比于上一个版本的向量模型，肯定是更消耗资源，但是效果提升还是蛮多的。

C-MTEB 如下。

AIR-Bench

模型地址 ：https://huggingface.co/BAAI/bge-multilingual-gemma2

reranker因为是对召回结果排序的，所以一次用户请求，可能会调用多次，所以直接开源的一个轻量级的优化版本，虽然base也是基于gemma2的。优化策略：token compression, layerwise reduction。（没看代码，不做解读），模型在 BEIR 和 MIRACL 上获得了SOTA性能。

模型地址 ：https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight

除次之外，BAAI/bge-en-icl，具备上下文学习能力：通过在query中提供少量示例，可以显着增强模型处理新任务的能力，但是应该不支持中文。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！

最新文章推荐阅读

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具