2024文生视频大模型综述论文:Sora大揭秘
作者: 人工智能大讲堂 来源: 人工智能大讲堂
文生视频大模型如何处理视频数据?采用什么架构建模时序关系?今天给大家分享一篇关于OpenAI在2024年2月发布的文本到视频生成AI模型Sora的综述论文。
后台回复sora获取pdf
在正式看这篇论文之前,建议先了解下文生文,文生图大模型。
像ChatGPT这类文生文大模型能够根据输入的提示文本生成输出文本。
像Stable Diffusion,DALLE这类文生图大模型能够根据输入的提示文本生成输出图像。
文生文大模型,处理文本的核心架构是Transformer,需要将文本转换成Token输入到模型,还要将模型的输出Token转转成文本。
文生图大模型,处理图像输入的核心架构是CNN或者Vision Transormer,当使用ViT时需要图片划分成Patchs。
总结一下:
文生文大模型:
输入输出:文本
模型架构:Transformer
文生图大模型:
输入输出:文本,图像
模型架构:
文本:Transformer
图像:CNN或者Vision Transormer
大模型之所以强大,除了模型架构,还需要在海量数据上进行自监督预训练。
文生文大模型中,BERT采用掩码方式,GPT采用的是自回归方式。
文生图大模型中,MAE和BeiT采用的图像掩码的方式。
除了文生文,文生图大模型,还有文生视频大模型,例如,Openai最近发布的Sora,虽然视频是由多帧图像组成的,但帧与帧之间并不是独立的,前后是有关联的,所以,文生视频的模型架构要能够处理这种关联关系。
如何处理视频这种数据?采用什么架构才能处理这种关系?今天给大家分享一篇关于OpenAI在2024年2月发布的文本到视频生成AI模型Sora的综述论文。论文由Lehigh大学和微软研究院的研究人员合作撰写,旨在全面回顾Sora模型的背景、相关技术、应用、现存挑战以及未来发展方向。
- 简介
-
定义:Sora 是由 OpenAI 于 2024 年 2 月发布的文本到视频生成 AI 模型。
-
特点:能够根据文本指令生成现实或想象的场景视频,展示模拟物理世界的潜力。
-
背景
-
历史:从传统图像生成技术到深度学习革命。
-
先进技术概念:探讨大型语言模型(LLMs)的扩展定律和突现能力。
-
-
技术
-
Sora 概述:基于扩散变换器的架构。
-
数据预处理:处理不同时长、分辨率和宽高比的视频和图像。
-
建模:使用扩散变换器模型进行视频生成。
-
语言指令遵循:通过训练视频字幕生成器来提高遵循文本指令的能力。
-
提示工程:设计和优化输入以指导模型生成特定输出。
-
可信度:讨论安全性、其他利用、对齐和信任度的挑战。
-
-
应用
-
电影制作:自动化内容生成和电影制作。
-
教育:定制和动态教育材料。
-
游戏:创建动态、高保真视频内容和响应性游戏环境。
-
医疗保健:用于早期疾病检测和治疗规划。
-
机器人技术:机器人的视觉和决策能力。
-
-
讨论
-
限制:物理真实性、空间和时间复杂性、人机交互和使用限制。
-
机会:学术界、行业和社会的潜在影响。
-
-
结论
-
对开发者和研究者的综述,基于技术报告和现有文献的逆向工程。
-
期待开源社区的合作,共同开发 Sora 的开源版本。
-
推荐阅读
6.大模型VS朴素贝叶斯,OpenAI API实战课,看大模型如何暴捶传统文本分类方法
7.让大模型直接情感分析,都什么年代了还计算Embedding和余弦夹角呢?
9.善用LangChain中的链式调用和记忆力,简化大模型应用开发
12.大模型让机器人聪明,我再给它加个嘴巴和耳朵,让它能听会说
点这里👇关注我,记得标星哦~
更多AI工具,参考Github-AiBard123,国内AiBard123