MobileDiffusion:谷歌发布在手机端实现近实时文本到图像生成技术
作者: 小麦AIGC 来源: 小麦AIGC
Google Research的研究团队提出了一种新的方法MobileDiffusion,能够在设备端(on-device)快速实现文本到图像生成。
MobileDiffusion模型只有520M大小,在高配的iOS和安卓设备上,只需0.5秒就可以生成512x512分辨率的图像(如下方视频)。
技术原理
MobileDiffusion是一个高效的潜在扩散模型(Latent Diffusion Model),专门为移动设备设计。
研究人员优化了模型架构,将UNet架构中包含了更多的Transformer块,并在更高分辨率下跳过自注意力(Self-Attention layer)层。
除此之外,还优化了图像解码器,训练了精简版的变分自动编码器(VAE),比SD小得多,但具有更好的质量指标。
另外,研究人员还采用DiffusionGAN技术来在推理过程中实现一步采样,并在利用GAN对去噪步骤进行建模的同时,微调了一个预训练扩散模型。
生成效果演示:
不过谷歌还未开源代码或提供产品demo,我们持续保持关注。
官方博客:
论文:
https://arxiv.org/abs/2311.16567
END
如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。
点个在看,你最好看
更多AI工具,参考Github-AiBard123,国内AiBard123