AI 文摘

刷新多个SOTA!多模态大模型InternVL开源视觉基础模型扩展到60亿个参数,可实现像素级识别





作者: 人工智能技术与时代人物风云 来源: 人工智能技术与时代人物风云

点击下方卡片,关注“AICV与前沿”

文章地址:https://arxiv.org/pdf/2312.14238.pdf
项目地:https://github.com/OpenGVLab/InternVL

00 | 导言

大型语言模型(llm)的指数级增长为多模态AGI系统开辟了许多可能性。然而,视觉语言基础模型(也是多模态AGI的关键要素)的进展并没有跟上LLM的步伐。

这项工作中设计了一个大规模的视觉语言基础模型(InternVL),该模型将视觉基础模型扩展到60亿个参数,并使用来自各种来源的web级图像-文本数据逐步将其与LLM对齐。该模型可以广泛应用于32个通用视觉语言基准,包括视觉感知任务,如图像级或像素级识别,视觉语言任务,如zero-shot图像/视频分类,zero-shot图像/视频文本检索,并与llm链接以创建多模态对话系统。它具有强大的视觉能力,可以成为ViT-22B的一个很好的替代品。

贡献:

(1)提出了一种大规模视觉语言基础模型——internvl,首次将大规模视觉编码器与llm进行了对齐。该模型在广泛的通用视觉语言任务上表现出色,包括视觉感知任务、视觉语言任务和多模态对话。

(2)为了有效训练大规模视觉语言基础模型,引入了一种渐进式图像-文本对齐策略。该策略最大限度地利用网络规模的噪声图像-文本数据进行对比学习,并将细粒度、高质量的数据用于生成学习。

(3)将所提出的模型与当前最先进的视觉基础模型和vllm进行了广泛的比较。结果表明,InternVL在广泛的通用视觉语言学任务上取得了领先的表现。

01 | 方法

1.1 架构

InternVL模型的训练策略

如图3所示,与传统的纯视觉主干和双编码器模型不同,本文提出的InternVL采用视觉编码器InternViT - 6b和语言中间件QLLaMA进行设计。具体来说,InternViT-6B是一款具有60亿个参数的视觉transformer,为实现性能和效率之间的良好权衡而定制。QLLaMA是一个拥有80亿个参数的语言中间件,使用多语言增强的LLaMA进行初始化。它可以为图像-文本对比学习提供强大的多语言表示,或者作为连接视觉编码器和现成的LLM解码器的桥梁。

InternVL包括三个渐进的阶段,包括视觉语言对比训练、视觉语言生成训练和监督微调。具体来说,为了使两个大型组件在模式和结构上存在实质性差距,引入了一种渐进式对齐训练策略。训练策略是渐进式的,从大规模噪声数据上的对比学习开始,逐步向精细高质量数据上的生成学习发展。通过这种方式,可以确保有效组织和充分利用来自各种来源的网络规模的图像-文本数据。然后,配备对齐的视觉编码器和语言中间件,InterVL模型就像一把瑞士军刀。它拥有灵活的组成,可以适应广泛的通用视觉语言任务。这些任务范围从视觉感知和图像/视频文本检索到图像字幕、视觉问答和多模态对话等。

1.2 模型设计

大型视觉编码器:internViT - 6B 作者使用vanilla vision transformer (ViT)实现了InternVL的视觉编码器。为了匹配llm的规模,将视觉编码器扩展到60亿个参数,得到了internViT - 6B模型。为了在准确性、速度和稳定性之间取得良好的平衡,对internViT - 6B进行了超参数搜索。在{32,48,64,80}范围内改变模型深度,在{64,128}范围内改变头部尺寸,在{4,8}范围内改变MLP比率。根据给定的模型尺度和其他超参数计算模型宽度和头数。

在LAION-en数据集的100M子集上使用对比学习来测量不同配置的internViT - 6B变体的准确性、速度和稳定性。报告了以下发现:

(1)速度。对于不同的模型设置,当计算不饱和时,深度较小的模型显示出更快的图像速度。然而,随着GPU计算的充分利用,速度差异变得可以忽略不计;

(2)准确性。在参数数量相同的情况下,深度、封头尺寸和MLP比对性能的影响较小。根据这些发现,最终模型的最稳定的配置如表1所示

语言中间件:QLLaMA 提出了语言中间件QLLaMA来协调视觉和语言特征。如图3所示,QLLaMA是在预先训练好的多语言LLaMA基础上开发的,新增96个可学习的查询和随机初始化的跨注意层(10亿个参数)。这种方式使QLLaMA能够顺利地将视觉元素集成到语言模型中,从而增强组合特性的一致性和有效性。

与最近流行的使用轻量级“glue”层(如QFormer和线性层)连接视觉编码器和llm的方法相比,本文的方法有三个优点:

(1)通过使用预训练的权值进行初始化,QLLaMA可以将internViT - 6B生成的图像标记转换为与llm对齐的表示;

(2) QLLaMA具有80亿个视觉语言对齐参数,是QFormer的42倍。因此,即使使用冻结的LLM解码器,InternVL也可以在多模态对话任务上取得令人满意的性能。

(3)它还可以应用于对比学习,为图像-文本对齐任务提供强大的文本表示,如zero-shot图像分类和图像-文本检索

“瑞士军刀”模型:InternVL 通过灵活地结合视觉编码器和语言中间件,InternVL可以支持各种视觉或视觉语言任务。

(1)对于视觉感知任务,可以使用InternVL的视觉编码器internviti - 6b作为视觉任务的主干。给定输入图像,模型可以生成特征映射用于密集预测任务,或者使用全局平均池化和线性投影进行图像分类。

使用InternVL的不同方法

(2)对于对比任务,如图4 (a) (b)所示,引入了InternVL-C和InternVLG两种推理模式,使用视觉编码器或结合使用InternViT和QLLaMA对视觉特征进行编码。具体来说,将注意力池应用于intervit的视觉特征或QLLaMA的查询特征,计算全局视觉特征。此外,通过从QLLaMA的[EOS]令牌中提取特征,将文本编码为。通过计算之间的相似度得分,支持各种对比任务,如图像-文本检索。

(3)对于生成任务,与QFormer不同,QLLaMA由于其按比例放大的参数,固有地具有很好的图像字幕能力。QLLaMA的查询对来自internvit - 6b的可视化表示进行重组,并作为QLLaMA的前缀文本。随后的文本token依次生成。

(4)对于多模态对话,引入了InternVLChat,利用InternVL作为可视化组件与llm连接。为此有两种不同的配置。一种选择是独立使用InternViT-6B,如图4 (c)所示。另一种选择是同时使用完整的InternVL模型,如图4 (d)所示。

1.3 对齐策略

如图3所示,InternVL的训练分为视觉语言对比训练、视觉语言生成训练和监督微调三个递进阶段。这些阶段有效地利用了来自不同来源的公共数据,从网络上嘈杂的图像文本对到高质量的标题、VQA和多模态对话数据集。

视觉语言对比训练。在第一阶段,进行对比学习,将InternViT-6B与多语言LLaMA-7B在网络规模、噪声图像文本对上进行对齐。这些数据都是公开的,包含多语言内容,包括LAION-en、LAIONmulti、LAION-COCO、COYO、Wukong等。使用这些数据集的组合并过滤掉一些极低质量的数据来训练模型。如表2所示,原始数据集包含60.3亿对图像-文本对,清理后剩下49.8亿对。

在训练过程中,采用LLaMA-7B将文本编码为Tf,使用InternViT-6B提取视觉特征If。根据CLIP的目标函数,

在一批图像-文本对的相似度得分上最小化对称交叉熵损失。这个阶段让InternVL在zero-shot等对比任务上表现出色图像分类与图像-文本检索,以及视觉这个阶段的编码器在语义分割等视觉感知任务上也能表现良好。

视觉语言生成训练 在第二阶段的培训中,将InternViT-6B与QLLaMA对接,采用生成式培训策略。具体来说,QLLaMA在第一阶段继承了LLaMA-7B的重量。将InternViT - 6b和QLLaMA保持冻结状态,只训练新添加的可学习查询和具有过滤的高质量数据的跨注意层。表2总结了第二阶段的数据集。可以看到,这一阶段进一步过滤掉了标题质量较低的数据,从第一阶段的49.8亿减少到10.3亿。

这一阶段的损失被计算为三个组成部分的总和:图像-文本对比(ITC)损失、图像-文本匹配(ITM)损失和基于图像的文本生成(ITG)损失。这使得查询能够提取强大的视觉表示,并进一步将特征空间与llm对齐。

监督微调 为了展示InternVL在创建多模态对话系统中的优势,通过MLP层将其与现有的LLM解码器(例如Vicuna或InternLM)连接起来,并进行监督微调(SFT)。如表3所示,收集了大量高质量的指令数据,总计约400万个样本。由于QLLaMA和LLM的特征空间相似,即使冻结LLM解码器,也可以选择只训练MLP层或同时训练MLP层和QLLaMA,从而获得鲁棒性能。这种方法不仅加快了SFT过程,而且保持了llm的原始语言能力。

02 | 实验结果

阶段1:在这一阶段,对图像编码器InternViT- 6b进行随机初始化,对文本编码器LLaMA-7B使用预训练好的权值进行初始化。所有参数都是完全可训练的。

阶段2:在这一阶段,interviti - 6b和QLLaMA从第一阶段继承了它们的权值,而QLLaMA中新的可学习查询和交叉注意层是随机初始化的。得益于第一阶段学习到的强大表征,将InternViT- 6b和QLLaMA保持冻结状态,只训练新的参数。

阶段3:在这个阶段,有两种不同的构型。一种是单独使用InternViT-6B,如图4 (c)所示。另一种是同时使用整个InternVL模型,如图4 (d)所示。

Zero-shot 图像识别

Zero-shot 图像-文本检索

Zero-shot图像描述

得益于对大量高质量图像-文本对的视觉语言生成训练,QLLaMA在zero-shot图像字幕方面具有前景广阔的能力。如表10所示,在COCO Karpathy测试集上,QLLaMA的零射击性能优于其他模型。在Flickr30K Karpathy测试和NoCaps val集上,它也取得了与当前最先进的模型相当的结果。当InternVL与LLM(例如vicana - 7b /13B)连接并进行SFT时,可以观察到Flickr30K和NoCaps在zero-shot上的显著增强,如表9所示。

点击下方卡片,关注“AICV与前沿”

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具