AAIELA
AAIELA: AI辅助图像编辑,通过语言和音频控制
AAIELA项目旨在让用户通过简单的音频指令来修改图像。它结合了开放源码的AI模型,包括计算机视觉、语音转文本、大型语言模型(LLMs)和文本到图像的修复,创造了一种将口语与视觉转换无缝连接的编辑体验。
项目结构
- detectron2: 用于对象检测、关键点检测、实例/全景分割等。
- faster_whisper: 包含实现了OpenAI Whisper的语音转录/翻译功能。
- language_model: 使用小型语言模型(如Phi-3)或其他LLM API(如Gemini、Claude、GPT4等)从自然语言指令中提取对象、动作和提示。
- sd_inpainting: 包含基于文本条件的Stable Diffusion v1.5修复模型。
使用场景
- 图像编辑:用户上传一张图像并通过语音指令进行修改,例如“将天空替换成满天星星的夜空”。
- 多对象编辑:处理复杂指令,如“在那个男人的右边放一个牛仔帽,并在他的脖子上系一条红围巾”。
- 面部特征修改:基于语音指令对面部特征进行修改,如“让我微笑”或“改变我的眼睛颜色”。
项目工作流程
- 上传:用户上传一张图像。
- 分割:通过Detectron2进行图像分割。
- 音频输入:用户录制音频指令。
- 转录:使用Faster Whisper将音频转录为文本。
- 文本理解:通过LLM提取对象、动作和提示。
- 图像修复:
- 选择与分割结果相关的掩码。
- 通过Stable Diffusion修复模型应用所需的修改。
- 输出:生成修改后的图像。
研究方向
- SDXL-Inpainting模型优化:需要在更大规模的数据集上重新训练以取得令人满意的结果。
- 上下文感知的自动掩码生成:如“在木椅上添加一只猫”的指令,需要引入领域知识或外部知识库指导掩码生成。
- 综合上下文推理:理解对象和动作之间的关系,如“坐着”意味着猫应该坐在椅子上。
- 多对象掩码生成:支持复杂多对象指令的掩码生成和图像修改。
待办事项
- 集成缺乏实际例子的TensorRT,用于Stable Diffusion的文本到图像修复管道。
- 集成ControlNet,条件是关键点、深度、输入涂鸦等多种模式。
- 集成Mediapipe面部网格实现面部特征检测、几何估计和眼动追踪。
- 实现姿势特征点检测功能。
- 集成超分辨率模型用于图像放大。
- 实现互动式掩码编辑,通过点击操作结合音频指令进行修复。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621