AI 文摘

图生文多模态大模型开源项目回顾:兼看20240307大模型进展早报





作者: 老刘说NLP 来源: 老刘说NLP

今天是20224年3月7日,星期四,北京,晴

今天我们来谈谈两件事,一个是回顾20240307大模型进展早报。

另一个是,我们来回顾当前图生文的一些代表性项目。‍‍

供大家一起参考并思考。‍

一、20240307大模型进展早报

我们继续来看看大模型相关的一些进展,过去一天,主要还是围绕在大模型数据集、大模型评估、text2sql等工作上。

以下是文字版本:

【老刘说NLP20240307大模型进展早报】

1、老刘说NLP技术社区顺利完成2024年第四讲

对2月大模型技术,包括多模态RAG、KGRAG、长文本、开源项目等做全面总结。回放地址及PPT可参考社区内部通知**【如需观看,可加入社区,关注公众号,在后台菜单栏中点击会员社区->会员入群加入】** ,我们最后介绍了kg-rag的一些方案以及一个具体的代码实现过程

2、关于多模态图生文的方案总结

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation?tab=readme-ov-file,涉及多模态leadboard,其中囊括了现有主流模型及其性能表现。

3、关于知识图谱。

将输入文本转化为简单KG的一种思路:

地址:https://github.com/rahulnyk/knowledge_graph

4、关于大模型显卡资源

英伟达发布新规:其他硬件禁止使用CUDA,https://www.tomshardware.com/pc-components/gpus/nvidia-bans-using-translation-layers-for-cuda-software-to-run-on-other-chips-new-restriction-apparently-targets-zluda-and-some-chinese-gpu-makers

5、关于开源数据集

Internet Archive Public Domain Books (English):包含超过65万本英文公共领域图书(约610亿字)的数据集:

https://huggingface.co/datasets/storytracer/internet_archive_books_en

6、关于大模型数学能力微调

MathScale: 数学推理的规模化指令微调MathScale: Scaling Instruction Tuning for Mathematical Reasoning,

提出了一种名为MathScale的简单且可扩展的方法,利用GPT-3.5创建高质量的数学推理数据。该方法首先从种子数学问题中提取主题和知识点,然后构建概念图,最后用于生成新的数学问题,总量达到两百万:https://arxiv.org/pdf/2403.02884

7、关于大模型评估

LLM作为评判者的实证研究:微调的评判模型本质是特定任务的分类器,An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers

结论很有趣,尽管微调的评判模型在领域内测试集上达到了很高的准确率,甚至超过了GPT4,但它们本质上是特定任务的分类器,其泛化能力和公正性严重不及GPT4:https://arxiv.org/pdf/2403.02839

8、关于数据增强

数据增强的LLMs:数据视角、学习范式和挑战:Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges

,有论述利用大型语言模型进行数据增强的各种策略:https://arxiv.org/pdf/2403.02990

9、关于大模型理论学习

自然语言处理中的预训练-微调范式教程:A Tutorial on the Pretrain-Finetune Paradigm for Natural Language Processing

地址:https://arxiv.org/pdf/2403.02504

10、关于大模型text-SQL

基于大模型的文本转SQL能力的基准测试,Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

地址:https://arxiv.org/pdf/2403.02951

二、再看图生文的一些代表性工作

在多模态领域,文生图(text2image)和图生文(image2text)是两个主要方向,其中也出现了许多工作和开源项目,我们来回顾下。

1、支持多模态的ChatGLM模型-VisualGLM-6B

VisualGLM-6B模型支持图像、中文和英文的多模态对话语言模型,语言模型部分以为底座ChatGLM-6B;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

预训练阶段数据来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文,将视觉信息对齐到ChatGLM的语义空间;

微调阶段数据为指令集数据,包含了来自MiniGPT-4和LLAVA项目的一部分英文图文数据,以及许多经典的跨模态工作数据集,模型在长视觉问答数据上训练,以生成符合人类偏好的答案

地址:https://github.com/THUDM/VisualGLM-6B,https://arxiv.org/abs/2301.12597

2、MiniGPT-4多模态模型

minigpt4是在blip2的基础上设计的,对比blip2,模型结构基本一致。minigpt4主要对blip2的第二步训练(视觉到文本生成)改进,Linear Layer修改了输出维度,同时对LLM模型输入时,增加了prompt,提高了模型的问答能力。

Linear Layer: 由于vit输出的编码向量维度默认为768,此处就是一个升维操作,变成4096(对比blip2,这里是2560)。

img embed:图像经过vit和Q-Former之后,得到图像的embeding编码,编码最后一维为768,经过Linear Layer,转成4096维。

对应信息: 地址:https://github.com/Vision-CAIR/MiniGPT-4,https://huggingface.co/Vision-CAIR/MiniGPT-4/tree/main

《MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning》,https://arxiv.org/abs/2310.09478

《MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models》,https://arxiv.org/abs/2304.10592

3、Qwen-VL视觉语言模型

Qwen-VL:以Qwen-7B的预训练模型作为语言模型的初始化,并以Openclip ViT-bigG作为视觉编码器的初始化,中间加入单层随机初始化的cross-attention,经过约1.5B的图文数据训练得到,最终图像输入分辨率为448。

Qwen-VL-Chat: 在Qwen-VL的基础上进行微调,形成Qwen-VL-Chat,支持多图、多轮问答、创作等能力。

《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》 https://arxiv.org/abs/2308.12966

Qwen-VL-Chat Tutorial:https://github.com/QwenLM/Qwen-VL/blob/master/TUTORIAL.md

4、CLIP视觉预训模型:用于生成图像-文本对齐向量表示

CLIP模型采用文本作为监督信号,属于多模态学习的领域。该模型将文本和图像映射到一个共同的隐空间,以实现它们在语义上的对齐。

使用400million的数据文本对,跟webText差不多,称为WIT,即WebImageText,<图像,文本描述>样本进行训练,CLIP通过一个线性层将两个模态的向量映射到一个空间。

文字编码器是transformer,编码器模型使用了ViT等

《Learning Transferable Visual Models From Natural Language Supervision》,https://github.com/openai/CLIP.git,https://github.com/mlfoundations/open_clip

《Reproducible scaling laws for contrastive language-image learning》,https://arxiv.org/abs/2212.07143

5、BLIP-2图文模型

BLIP-2视觉语言模型,主要解决的就是视觉和语言的向量对齐问题,bilp2预训练主要分成2步:固定vit,进行视觉和语言的表征学习;固定llm模型,学习从图像生成文本。

《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》:https://arxiv.org/pdf/2301.12597.pdf,https://github.com/salesforce/LAVIS/tree/main/projects/blip2

总结

本文主要回顾了回顾20240307大模型进展早报以及当前图生文的一些代表性项目,可以作为大家进一步跟进大模型进展的一个指引,供大家一起参考。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具