AnimateLCM:高速AI视频生成模型,只需4步推理,生成速度提高20倍以上
作者: 小麦AIGC 来源: 小麦AIGC
最近香港中文大学的研发团队在潜在一致性模型(LCM)的基础上,提出了一项新的解决方案,允许在最少的步骤内生成高保真视频。
了解AI图像视频技术的小伙伴可能知道LCM技术通过减少生成过程中的迭代步骤可以大幅加快图像生成速度,之前我们也介绍过使用开源方法AnimateDiff和LCM-LoRA来快速生成视频,但AnimateLCM不仅生成速度快,而且生成视频的一致性要更好。
技术原理
AnimateLCM的核心创新在于提出了一种解耦一致性学习策略,将图像生成先验和运动生成先验的蒸馏过程分开处理。
这种方法首先在高质量的图像数据集上训练图像一致性模型,然后通过3D膨胀(3D Inflation)将图像扩散模型和图像一致性模型适应到3D视频特征,最后在视频数据上进行一致性蒸馏,得到最终的视频一致性模型。
此外,AnimateLCM还提出了一种特殊的初始化策略,以减轻膨胀过程中可能的特征损坏。
AnimateLCM除了可以支持文字转视频、图片转视频,还可以与布局控制适配器如T2I-Adapter和ControlNet相集成,指定视频中的某些元素(如角色动作、场景布局等)以实现更加定制化的视频内容。一起来看看官方的演示效果。
文字转视频
实感
动漫
卡通3D
图片转视频
可控生成
线上体验
https://huggingface.co/spaces/wangfuyun/AnimateLCM
如果出现error报错,可以切换模型试试,比如LoRA模型选择none。
项目资源
代码和模型暂未开源,请关注项目主页。
项目主页:
Github:
https://github.com/G-U-N/AnimateLCM
论文:
https://arxiv.org/abs/2402.00769
END
如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。
点个在看,你最好看
更多AI工具,参考Github-AiBard123,国内AiBard123