AI新工具
banner

AAIELA


介绍:

AAIELA允许用户通过音频指令修改图像,实现语言与视觉的无缝转换。









AAIELA

AAIELA: AI辅助图像编辑,通过语言和音频控制

AAIELA项目旨在让用户通过简单的音频指令来修改图像。它结合了开放源码的AI模型,包括计算机视觉、语音转文本、大型语言模型(LLMs)和文本到图像的修复,创造了一种将口语与视觉转换无缝连接的编辑体验。

项目结构

  • detectron2: 用于对象检测、关键点检测、实例/全景分割等。
  • faster_whisper: 包含实现了OpenAI Whisper的语音转录/翻译功能。
  • language_model: 使用小型语言模型(如Phi-3)或其他LLM API(如Gemini、Claude、GPT4等)从自然语言指令中提取对象、动作和提示。
  • sd_inpainting: 包含基于文本条件的Stable Diffusion v1.5修复模型。

使用场景

  1. 图像编辑:用户上传一张图像并通过语音指令进行修改,例如“将天空替换成满天星星的夜空”。
  2. 多对象编辑:处理复杂指令,如“在那个男人的右边放一个牛仔帽,并在他的脖子上系一条红围巾”。
  3. 面部特征修改:基于语音指令对面部特征进行修改,如“让我微笑”或“改变我的眼睛颜色”。

项目工作流程

  1. 上传:用户上传一张图像。
  2. 分割:通过Detectron2进行图像分割。
  3. 音频输入:用户录制音频指令。
  4. 转录:使用Faster Whisper将音频转录为文本。
  5. 文本理解:通过LLM提取对象、动作和提示。
  6. 图像修复
    • 选择与分割结果相关的掩码。
    • 通过Stable Diffusion修复模型应用所需的修改。
  7. 输出:生成修改后的图像。

研究方向

  1. SDXL-Inpainting模型优化:需要在更大规模的数据集上重新训练以取得令人满意的结果。
  2. 上下文感知的自动掩码生成:如“在木椅上添加一只猫”的指令,需要引入领域知识或外部知识库指导掩码生成。
  3. 综合上下文推理:理解对象和动作之间的关系,如“坐着”意味着猫应该坐在椅子上。
  4. 多对象掩码生成:支持复杂多对象指令的掩码生成和图像修改。

待办事项

  • 集成缺乏实际例子的TensorRT,用于Stable Diffusion的文本到图像修复管道。
  • 集成ControlNet,条件是关键点、深度、输入涂鸦等多种模式。
  • 集成Mediapipe面部网格实现面部特征检测、几何估计和眼动追踪。
  • 实现姿势特征点检测功能。
  • 集成超分辨率模型用于图像放大。
  • 实现互动式掩码编辑,通过点击操作结合音频指令进行修复。
可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621