MGIE：苹果开源多模态大语言模型引导的图像编辑，用手机拍照改图一气呵成作者：小麦AIGC 来源：小麦AIGC 苹果最近开源了一个新的图像编辑模型——MGIE。该模型支持通过文本指令来进行图像编辑，提高了图像操作的可控性和灵活性，不需要详细描述或者使用遮罩。人类提供的指令往往过于简单，过去的方法不能很好地理解和遵循

MGIE：苹果开源多模态大语言模型引导的图像编辑，用手机拍照改图一气呵成

作者：小麦AIGC 来源：小麦AIGC

苹果最近开源了一个新的图像编辑模型——MGIE。

该模型支持通过文本指令来进行图像编辑，提高了图像操作的可控性和灵活性，不需要详细描述或者使用遮罩。

人类提供的指令往往过于简单，过去的方法不能很好地理解和遵循人的实际要求。

因为多模态大语言模型（MLLM）在跨模态理解和生成视觉感知响应方面具有良好的能力，所以苹果的研究人员借助MLLM，基于人类简单指令来生成更富有表达力的指令，以便对模型提供更明确的引导。

线上体验

为了能更好地体验该模型的图像编辑能力，外网网友搭建了线上的Gradio界面，支持手机访问（模型是运行在线上的），可以实现即拍即编辑（如下方视频）。

感兴趣的小伙伴可以访问下面链接亲自体验下（手机电脑均可）：

http://128.111.41.13:7122/

项目资源

本地Gradio部署：

Apple官方Github：

END

如果喜欢上面的内容，请关注小麦AIGC，最新内容每日更新；如有好的选题建议，也可以给我们发消息哦。

点个在看，你最好看

可关注我们的公众号：每天AI新工具