AI 文摘

MobileDiffusion:谷歌发布在手机端实现近实时文本到图像生成技术





作者: 小麦AIGC 来源: 小麦AIGC

Google Research的研究团队提出了一种新的方法MobileDiffusion,能够在设备端(on-device)快速实现文本到图像生成。

MobileDiffusion模型只有520M大小,在高配的iOS和安卓设备上,只需0.5秒就可以生成512x512分辨率的图像(如下方视频)。

技术原理

MobileDiffusion是一个高效的潜在扩散模型(Latent Diffusion Model),专门为移动设备设计。

研究人员优化了模型架构,将UNet架构中包含了更多的Transformer块,并在更高分辨率下跳过自注意力(Self-Attention layer)层。

除此之外,还优化了图像解码器,训练了精简版的变分自动编码器(VAE),比SD小得多,但具有更好的质量指标。

另外,研究人员还采用DiffusionGAN技术来在推理过程中实现一步采样,并在利用GAN对去噪步骤进行建模的同时,微调了一个预训练扩散模型。

生成效果演示:

不过谷歌还未开源代码或提供产品demo,我们持续保持关注。

官方博客:

https://goo.gle/3vWqE5J

论文:

https://arxiv.org/abs/2311.16567

END

如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。

点个在看,你最好看

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具