bge杀疯了,又更新SOTA向量&排序模型了!
作者: NLP前沿 来源: NLP前沿
好像不用多说啥,“BGE”这个模型的名气应该非常非常大了。
Bge-m3,Bge-reranker应该算是现在最好用的开源语义召回组合了。又新开源了3个模型,继续刷记录。仍然是多语言的。但是这次使用了gemma2微调,所以相比于上一个版本的向量模型,肯定是更消耗资源,但是效果提升还是蛮多的。
C-MTEB 如下。
AIR-Bench
模型地址 :https://huggingface.co/BAAI/bge-multilingual-gemma2
reranker因为是对召回结果排序的,所以一次用户请求,可能会调用多次,所以直接开源的一个轻量级的优化版本,虽然base也是基于gemma2的。优化策略:token compression, layerwise reduction。(没看代码,不做解读),模型在 BEIR 和 MIRACL 上获得了SOTA性能。
模型地址 :https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight
除次之外,BAAI/bge-en-icl,具备上下文学习能力:通过在query中提供少量示例,可以显着增强模型处理新任务的能力,但是应该不支持中文。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读
更多AI工具,参考Github-AiBard123,国内AiBard123