MGIE:苹果开源多模态大语言模型引导的图像编辑,用手机拍照改图一气呵成
作者: 小麦AIGC 来源: 小麦AIGC
苹果最近开源了一个新的图像编辑模型——MGIE。
该模型支持通过文本指令来进行图像编辑,提高了图像操作的可控性和灵活性,不需要详细描述或者使用遮罩。
人类提供的指令往往过于简单,过去的方法不能很好地理解和遵循人的实际要求。
因为多模态大语言模型(MLLM)在跨模态理解和生成视觉感知响应方面具有良好的能力,所以苹果的研究人员借助MLLM,基于人类简单指令来生成更富有表达力的指令,以便对模型提供更明确的引导。
线上体验
为了能更好地体验该模型的图像编辑能力,外网网友搭建了线上的Gradio界面,支持手机访问(模型是运行在线上的),可以实现即拍即编辑(如下方视频)。
感兴趣的小伙伴可以访问下面链接亲自体验下(手机电脑均可):
http://128.111.41.13:7122/
项目资源
本地Gradio部署:
https://github.com/tsujuifu/pytorch_mgie
Apple官方Github:
https://github.com/apple/ml-mgie
END
如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。
点个在看,你最好看
更多AI工具,参考Github-AiBard123,国内AiBard123