AI 文摘

2024文生视频大模型综述论文:Sora大揭秘





作者: 人工智能大讲堂 来源: 人工智能大讲堂

文生视频大模型如何处理视频数据?采用什么架构建模时序关系?今天给大家分享一篇关于OpenAI在2024年2月发布的文本到视频生成AI模型Sora的综述论文。

后台回复sora获取pdf

在正式看这篇论文之前,建议先了解下文生文,文生图大模型。

像ChatGPT这类文生文大模型能够根据输入的提示文本生成输出文本。

像Stable Diffusion,DALLE这类文生图大模型能够根据输入的提示文本生成输出图像。

文生文大模型,处理文本的核心架构是Transformer,需要将文本转换成Token输入到模型,还要将模型的输出Token转转成文本。

文生图大模型,处理图像输入的核心架构是CNN或者Vision Transormer,当使用ViT时需要图片划分成Patchs。

总结一下:

文生文大模型:

输入输出:文本

模型架构:Transformer

文生图大模型:

输入输出:文本,图像

模型架构:

文本:Transformer

图像:CNN或者Vision Transormer

大模型之所以强大,除了模型架构,还需要在海量数据上进行自监督预训练。

文生文大模型中,BERT采用掩码方式,GPT采用的是自回归方式。

文生图大模型中,MAE和BeiT采用的图像掩码的方式。

除了文生文,文生图大模型,还有文生视频大模型,例如,Openai最近发布的Sora,虽然视频是由多帧图像组成的,但帧与帧之间并不是独立的,前后是有关联的,所以,文生视频的模型架构要能够处理这种关联关系。

如何处理视频这种数据?采用什么架构才能处理这种关系?今天给大家分享一篇关于OpenAI在2024年2月发布的文本到视频生成AI模型Sora的综述论文。论文由Lehigh大学和微软研究院的研究人员合作撰写,旨在全面回顾Sora模型的背景、相关技术、应用、现存挑战以及未来发展方向。

  1. 简介
  • 定义:Sora 是由 OpenAI 于 2024 年 2 月发布的文本到视频生成 AI 模型。

  • 特点:能够根据文本指令生成现实或想象的场景视频,展示模拟物理世界的潜力。

  • 背景

    • 历史:从传统图像生成技术到深度学习革命。

    • 先进技术概念:探讨大型语言模型(LLMs)的扩展定律和突现能力。

  • 技术

    • Sora 概述:基于扩散变换器的架构。

    • 数据预处理:处理不同时长、分辨率和宽高比的视频和图像。

    • 建模:使用扩散变换器模型进行视频生成。

    • 语言指令遵循:通过训练视频字幕生成器来提高遵循文本指令的能力。

    • 提示工程:设计和优化输入以指导模型生成特定输出。

    • 可信度:讨论安全性、其他利用、对齐和信任度的挑战。

  • 应用

    • 电影制作:自动化内容生成和电影制作。

    • 教育:定制和动态教育材料。

    • 游戏:创建动态、高保真视频内容和响应性游戏环境。

    • 医疗保健:用于早期疾病检测和治疗规划。

    • 机器人技术:机器人的视觉和决策能力。

  • 讨论

    • 限制:物理真实性、空间和时间复杂性、人机交互和使用限制。

    • 机会:学术界、行业和社会的潜在影响。

  • 结论

    • 对开发者和研究者的综述,基于技术报告和现有文献的逆向工程。

    • 期待开源社区的合作,共同开发 Sora 的开源版本。

推荐阅读

1.图解tokenization

2.图解Word2vec

3.图解Transformer

4.图解GPT2

5.图解Bert

6.大模型VS朴素贝叶斯,OpenAI API实战课,看大模型如何暴捶传统文本分类方法

7.让大模型直接情感分析,都什么年代了还计算Embedding和余弦夹角呢?

8.让大模型做聊天机器人,那些套壳网站就是这么做的

9.善用LangChain中的链式调用和记忆力,简化大模型应用开发

10.如何让大模型回答更准确?RAG检索增强生成是个好办法

11.除了RAG,微调也可以让大模型更专业

12.大模型让机器人聪明,我再给它加个嘴巴和耳朵,让它能听会说

分享一篇2024年的大语言模型综述论文

2024新作:探究大模型推理能力综述论文

点这里👇关注我,记得标星哦~

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具