AI新工具
banner

DIVA


介绍:

DIVA通过自监督扩散过程优化CLIP模型的视觉表现。









DIVA

DIVA(DIffusion model as a Visual Assistant)是一种通过生成模型的反馈来优化CLIP(Contrastive Language-Image Pretraining)模型视觉表现的后处理方法。具体来说,DIVA利用文本到图像的扩散模型生成的反馈,来优化CLIP的图像表示,仅需要图像数据而不需要对应的文本数据。实验表明,DIVA在诸多图像分类和检索基准测试中提升了CLIP模型的性能,同时增强了多模态理解和分割任务中的表现,而仍保持了CLIP强大的零样本能力。

DIVA的使用场景:
  1. 图像分类与检索:在多达29个图像分类和检索基准测试中,DIVA提升了模型的表现。
  2. 多模态理解:在MMVP-VLM基准测试中,DIVA显著提高了CLIP模型对细粒度视觉能力的评估表现。
  3. 图像分割:DIVA可以提升视觉模型在图像分割任务中的性能。
  4. 生成模型辅助:DIVA利用生成模型的反馈,优化基于文本和图像的预训练模型的视觉表示。
安装与准备工作:
  1. 使用git clone命令克隆DIVA仓库,并安装所需的Python包。
  2. 下载并准备预训练权重,涉及的模型包括OpenAI ViT-L-14、MetaCLIP、SigLIP、DFN和Stable Diffusion模型。
  3. 修改CLIP、OpenCLIP和timm包中一些源代码以适应DIVA的条件设计。
训练与评估:

准备工作完成后,可以通过运行相应的脚本(如DIVA_for_OpenAICLIP.sh)来启动训练。

可视化:

DIVA还提供了性能提升的可视化结果,展示在多个基准测试中的改善效果。

这是一个综合的处理方法,旨在通过扩散模型的反馈来克服CLIP模型在视觉表现上的不足,适用于各种多模态理解和图像处理任务。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621