图生文多模态大模型开源项目回顾：兼看20240307大模型进展早报作者：老刘说NLP 来源：老刘说NLP 今天是20224年3月7日，星期四，北京，晴今天我们来谈谈两件事，一个是回顾20240307大模型进展早报。另一个是，我们来回顾当前图生文的一些代表性项目。‍‍ 供大家一起参考并思考。‍ 一、20240307

图生文多模态大模型开源项目回顾：兼看20240307大模型进展早报

By AiBard123
March 7, 2024 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是20224年3月7日，星期四，北京，晴

今天我们来谈谈两件事，一个是回顾20240307大模型进展早报。

另一个是，我们来回顾当前图生文的一些代表性项目。‍‍

供大家一起参考并思考。‍

一、20240307大模型进展早报

我们继续来看看大模型相关的一些进展，过去一天，主要还是围绕在大模型数据集、大模型评估、text2sql等工作上。

以下是文字版本：

【老刘说NLP20240307大模型进展早报】

1、老刘说NLP技术社区顺利完成2024年第四讲 。

对2月大模型技术，包括多模态RAG、KGRAG、长文本、开源项目等做全面总结。回放地址及PPT可参考社区内部通知**【如需观看，可加入社区，关注公众号，在后台菜单栏中点击会员社区->会员入群加入】** ，我们最后介绍了kg-rag的一些方案以及一个具体的代码实现过程 。

2、关于多模态图生文的方案总结

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation?tab=readme-ov-file，涉及多模态leadboard，其中囊括了现有主流模型及其性能表现。

3、关于知识图谱。

将输入文本转化为简单KG的一种思路：

地址：https://github.com/rahulnyk/knowledge_graph

4、关于大模型显卡资源

英伟达发布新规：其他硬件禁止使用CUDA，https://www.tomshardware.com/pc-components/gpus/nvidia-bans-using-translation-layers-for-cuda-software-to-run-on-other-chips-new-restriction-apparently-targets-zluda-and-some-chinese-gpu-makers

5、关于开源数据集

Internet Archive Public Domain Books (English)：包含超过65万本英文公共领域图书(约610亿字)的数据集：

https://huggingface.co/datasets/storytracer/internet_archive_books_en

6、关于大模型数学能力微调

MathScale: 数学推理的规模化指令微调MathScale: Scaling Instruction Tuning for Mathematical Reasoning，

提出了一种名为MathScale的简单且可扩展的方法，利用GPT-3.5创建高质量的数学推理数据。该方法首先从种子数学问题中提取主题和知识点，然后构建概念图，最后用于生成新的数学问题，总量达到两百万：https://arxiv.org/pdf/2403.02884

7、关于大模型评估

LLM作为评判者的实证研究：微调的评判模型本质是特定任务的分类器，An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers

结论很有趣，尽管微调的评判模型在领域内测试集上达到了很高的准确率，甚至超过了GPT4，但它们本质上是特定任务的分类器，其泛化能力和公正性严重不及GPT4：https://arxiv.org/pdf/2403.02839

8、关于数据增强

数据增强的LLMs：数据视角、学习范式和挑战：Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges

，有论述利用大型语言模型进行数据增强的各种策略：https://arxiv.org/pdf/2403.02990

9、关于大模型理论学习

自然语言处理中的预训练-微调范式教程：A Tutorial on the Pretrain-Finetune Paradigm for Natural Language Processing

地址：https://arxiv.org/pdf/2403.02504

10、关于大模型text-SQL

基于大模型的文本转SQL能力的基准测试，Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

地址：https://arxiv.org/pdf/2403.02951

二、再看图生文的一些代表性工作

在多模态领域，文生图(text2image)和图生文(image2text)是两个主要方向，其中也出现了许多工作和开源项目，我们来回顾下。

1、支持多模态的ChatGLM模型-VisualGLM-6B

VisualGLM-6B模型支持图像、中文和英文的多模态对话语言模型，语言模型部分以为底座ChatGLM-6B；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

预训练阶段数据来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文，将视觉信息对齐到ChatGLM的语义空间；

微调阶段数据为指令集数据，包含了来自MiniGPT-4和LLAVA项目的一部分英文图文数据，以及许多经典的跨模态工作数据集，模型在长视觉问答数据上训练，以生成符合人类偏好的答案

地址:https://github.com/THUDM/VisualGLM-6B，https://arxiv.org/abs/2301.12597

2、MiniGPT-4多模态模型

minigpt4是在blip2的基础上设计的，对比blip2，模型结构基本一致。minigpt4主要对blip2的第二步训练（视觉到文本生成）改进，Linear Layer修改了输出维度，同时对LLM模型输入时，增加了prompt，提高了模型的问答能力。

Linear Layer: 由于vit输出的编码向量维度默认为768，此处就是一个升维操作，变成4096（对比blip2，这里是2560）。

img embed:图像经过vit和Q-Former之后，得到图像的embeding编码，编码最后一维为768，经过Linear Layer，转成4096维。

对应信息: 地址:https://github.com/Vision-CAIR/MiniGPT-4，https://huggingface.co/Vision-CAIR/MiniGPT-4/tree/main

《MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning》，https://arxiv.org/abs/2310.09478

《MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models》，https://arxiv.org/abs/2304.10592

3、Qwen-VL视觉语言模型

Qwen-VL:以Qwen-7B的预训练模型作为语言模型的初始化，并以Openclip ViT-bigG作为视觉编码器的初始化，中间加入单层随机初始化的cross-attention，经过约1.5B的图文数据训练得到，最终图像输入分辨率为448。

Qwen-VL-Chat: 在Qwen-VL的基础上进行微调，形成Qwen-VL-Chat，支持多图、多轮问答、创作等能力。

《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》 https://arxiv.org/abs/2308.12966

Qwen-VL-Chat Tutorial：https://github.com/QwenLM/Qwen-VL/blob/master/TUTORIAL.md

4、CLIP视觉预训模型:用于生成图像-文本对齐向量表示

CLIP模型采用文本作为监督信号，属于多模态学习的领域。该模型将文本和图像映射到一个共同的隐空间，以实现它们在语义上的对齐。

使用400million的数据文本对，跟webText差不多，称为WIT，即WebImageText，<图像，文本描述>样本进行训练，CLIP通过一个线性层将两个模态的向量映射到一个空间。

文字编码器是transformer，编码器模型使用了ViT等

《Learning Transferable Visual Models From Natural Language Supervision》，https://github.com/openai/CLIP.git,https://github.com/mlfoundations/open_clip

《Reproducible scaling laws for contrastive language-image learning》,https://arxiv.org/abs/2212.07143

5、BLIP-2图文模型

BLIP-2视觉语言模型，主要解决的就是视觉和语言的向量对齐问题，bilp2预训练主要分成2步:固定vit，进行视觉和语言的表征学习；固定llm模型，学习从图像生成文本。

《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》：https://arxiv.org/pdf/2301.12597.pdf，https://github.com/salesforce/LAVIS/tree/main/projects/blip2

总结

本文主要回顾了回顾20240307大模型进展早报以及当前图生文的一些代表性项目，可以作为大家进一步跟进大模型进展的一个指引，供大家一起参考。

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具