AI 文摘

MGIE:苹果开源多模态大语言模型引导的图像编辑,用手机拍照改图一气呵成





作者: 小麦AIGC 来源: 小麦AIGC

苹果最近开源了一个新的图像编辑模型——MGIE。

该模型支持通过文本指令来进行图像编辑,提高了图像操作的可控性和灵活性,不需要详细描述或者使用遮罩。

人类提供的指令往往过于简单,过去的方法不能很好地理解和遵循人的实际要求。

因为多模态大语言模型(MLLM)在跨模态理解和生成视觉感知响应方面具有良好的能力,所以苹果的研究人员借助MLLM,基于人类简单指令来生成更富有表达力的指令,以便对模型提供更明确的引导。

线上体验

为了能更好地体验该模型的图像编辑能力,外网网友搭建了线上的Gradio界面,支持手机访问(模型是运行在线上的),可以实现即拍即编辑(如下方视频)。

感兴趣的小伙伴可以访问下面链接亲自体验下(手机电脑均可):

http://128.111.41.13:7122/

项目资源

本地Gradio部署:

https://github.com/tsujuifu/pytorch_mgie

Apple官方Github:

https://github.com/apple/ml-mgie

END

如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。

点个在看,你最好看

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具