AI 文摘

关于Sora的一些碎碎念





作者: 吃果冻不吐果冻皮 来源: 吃果冻不吐果冻皮

【点击】加入大模型技术交流群

原文:https://zhuanlan.zhihu.com/p/683185877

Sora的横空出世还是震惊了不少人的,但仔细看Sora的technical report会发现,其实没太多东西,大家好像对Sora或者OpenAI的工作过度神话了。

核心观点

原来想写一篇文章讲一下Sora这个工作并没有多难的(至少和ChatGPT比起来要好追很多),昨天读到了红博士的分析,基本所有观点都一致,就不花时间再写一遍了(主要红博士写的更加专业),强烈推荐大家读一下。

去魅Sora: OpenAI 鲜肉小组的小试牛刀  
https://mp.weixin.qq.com/s/H8UYQ27nNPbW2jetseJgYQ  

简单总结几个核心观点:

  • Sora = Magvit + DiT + NaViT + Video Caption,技术上没有太多的创新,但工程上做了大量的工作

“Sora是采用了Meta的 DiT (2022.12) 框架,融合了Google的 MAGViT (2022.12) 的Video Tokenize方案,借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率,使用OpenAI DALL-E 3 (2023.09) 里的图像描述方案生成了高质量Video Caption(视频描述),即文本-视频对,实现了准确的条件生成。”

  • 要给年轻人充足的算力,这个是现在大模型公司最难决策的事,找到那些年轻人,解决组织问题

”而 OpenAI的文化,允许小团队像Startup一样运作。所以两个刚刚毕业的PhD,领导一个全新的项目,并不意外。当整个公司的人,都在 All in ChatGPT 和 DALL-E 两个大项目的时候,Sora 其实是一个不起眼的小项目。“

  • 不是世界模型,不一定用了UE数据

“Sora 这套框架的优化目标是找训练数据的分布,而不是数据的最小描述长度。所以Sora team对博客的标题起的是物理世界的模拟器,不是物理世界规律的发现者。”

“没必要。把事情想复杂了。Why bother?模型中应该没有,既没有作为模型的超参数,更没有把虚幻引擎的渲染作为 pipeline 的一部分。搞那么复杂没用,既难work,又与end2end的反向传播的理念背道而驰。简单而可扩展的模型架构,是Scaling up的关键。那为什么生成的一些场景和细节,与游戏有些像?因为Youtube和Twitch上有非常多游戏视频,被做进了训练数据集,而且这种数据有个好处,游戏直播有很多的讲解,是非常高质量的数据,相比影视作品和常规UGC,版权风险也更小。”

没有做出Sora的几点反思

既然做出Sora不是特别难,那为什么又是OpenAI先做出了Sora。正好我们自己从去年10月开始做视频生成,在技术路线选择上和Sora基本一致,从一开始就坚定地all in diffusion transformer,也训练了自己的video autoencoder,可以说Sora有的组件我们都做了,但结果和Sora有一些差距。Sora出来之后也做了一下反思。

  • 技术发展的速度比想象中快很多。当时我们开始做视频生成的时候,没有Pika也没有SVD,可能只有runway能生成一些视频。我们当时的判断视频生成技术爆发需要1年左右的时间,中间Pika和SVD出来的时候,我们觉得整个领域加速了,时间会缩短半年,但是没想到仅仅3个月Sora就出现了。这个期间和很多周边在做和关注视频生成领域的researcher和创业者聊,我们一开始所谓的1年时间技术爆发已经是很乐观的估计了(大概90%的人都觉得会比这个时间更晚)。所以我们一开始觉得可以先花点时间做探索,做技术积累,比别人还有一些领先优势,但是其实一开始就应该是刺刀见红的状态去做这个事情。以后做技术预判的时候可以直接把估计的时间除以2或者除以4,基本不会有大问题。

  • 需要把目标定高两个台阶。这个和对技术的发展速度的判断是相关的,因为觉得技术没那么快成熟,所以我们一开始的目标是半年内做到显著优于runway,pika出来之后目标调整为显著优于pika。大概两个月的时间我们做了第一版模型,基本和pika comparable,年终总结的时候觉得只要一两个月就能显著优于pika,还在为目标能提前达成沾沾自喜。然后规划了在未来6个月内做三件事:1. 用更多的高质量视频数据,包括合成数据和打标数据;2. 把时长从5秒做到1分钟;3. Scale up diffusion transformer。结果一个月后OpenAI就放出了Sora,这三件事别人都已经做完了。下次定目标和计划就应该直接过第二阶段的当作第一阶段的目标来push,不然只能按部就班。

  • 做更多“因为相信所以看到”的事。某个大佬说因为看到所以相信很好,但更难的事因为相信所以看到。Ilya对GPT是因为相信所以看到。而我们对ChatGPT或者视频生成,相信大多数人(包括我自己)都是因为看到所以相信的。Sora出来之前,大家对diffusion模型能不能scale up都有疑问,Sora出来之后就变成视频模型是world model了。既然我们在10月份就相信diffusion transformer可以scale up,那就应该凭着这份相信直接上大规模的卡去训练下一个时代的视频生成模型,而不是只用几百张卡做小规模探索。几百张卡可能是大模型创业公司算力的1%,但OpenAI算力的1%是上千张卡。想要比OpenAI做的快,只能凭借这份相信取用公司10%甚至更多的算力。

Sora之后视频生成怎么做

很简单就两条路。

一,“因为看到所以相信”,用最快的速度去复现Sora。当有人给出了一个方法可以做到很高的水平的时候,即使中间缺乏很多细节,follow一条有大体框架的路,把里面的细节一点点补上。当然,OpenAI的tech report讲的都是很框架性的东西,实际执行的时候会踩很多坑,但这个过程是大家擅长的。正如国内追赶GPT3.5的速度一样,我一点也不怀疑有人能几个月内复现出Sora。当这里面可能只有速度最快的几个玩家还能分到一杯羹,拼的是组织的执行力。速度慢的复现Sora的时间可能会比开源社区还慢,当然去做视频生成领域的llama可能也是有价值的事。

二,“因为相信所以看到”,有更好的视频生成方案吗?如果没有,就直接scale up,跳过复现Sora的阶段。如果有,那这个方案是什么呢?auto regressive?mask image modeling?希望能在未来的一两个月能找到相信的方案,然后吸取之前的经验教训,直接开干。

历史文章: 2024年1月大模型文章集锦

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具