OmniLMM OmniLMM是一系列面向图文理解的开源多模态大模型,接受图像和文本输入,并提供高质量的文本输出。该系列包括两个版本:OmniLMM-12B和OmniLMM-3B。其中,OmniLMM-12B具有领先性能,具备较为丰富的多模态世界知识,并实现了实时多模态交互。而OmniLMM-3B则可以高效部署在大多数GPU和个人电脑上,包括移动手机等终端设备,具有优秀性能和双语支持。 可关注我们的公众号:每天AI新工具 广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621