AI新工具(20240228) EMO - 阿里巴巴的表情驱动的音频到视频转换框架;DepthFlow;Globe Explorer等
EMO - 阿里巴巴的表情驱动的音频到视频转换框架
EMO(Emote Portrait Alive)是一个先进的表情驱动的音频到视频转换框架,可以通过音频(比如说话或唱歌的声音)和一张单独的参考图片,生成带有丰富面部表情和头部姿势变化的肖像视频。这个框架的显著特点是能够根据音频的长度,生成任意时长的视频,同时保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
https://humanaigc.github.io/emote-portrait-alive/
DepthFlow - 图片转换成2.5D视差效果视频的工具,是一个专业的Deephy替代品。
DepthFlow是一个开源工具,其主要功能是将静态图片转换成具有2.5D视差效果的视频。这种效果通过在图片中估计不同物体的深度,并根据这些深度值来模拟相机的移动,从而创造出动态视觉效果。具体来说,DepthFlow通过以下功能实现这一效果:
https://github.com/BrokenSource/DepthFlow/blob/Master/Readme.md
Diffusion - 为Android开发的强大的稳定扩散网络界面客户端,支持文本到图像、图像到图像、图像修复等多种功能
Diffusion 功能是一个专门为 Android 设备开发的强大的 stable-diffusion-webui 客户端应用。使用这款应用,用户可以便捷地使用各种图像生成和编辑功能。以下是其主要特性以及相应的使用场景概述:
https://github.com/AllenTom/diffusion-client
Globe Explorer - 新型的AI搜索引擎自动整理成思维导图
Globe Explorer 是一款新型的AI搜索引擎,旨在提供个性化和视觉化的搜索体验。它通过AI技术将搜索关键词自动整理成思维导图,帮助用户快速理解和探索他们感兴趣的信息。这个搜索引擎不同于传统的搜索引擎,提供了一种更为直观和结构化的方式来查看搜索结果。它提供多领域搜索整合,丰富强大的数据库集合,个性化搜索体验,多语言支持,高质量搜索结果和自动生成思维导图等功能。此外,它以树状大纲结构生成图文知识架构,提供有逻辑性的内容展示,并通过视觉化的方式呈现信息,提高用户体验。Globe Explorer 适用于专业工作者、研究人员、学生、老师、阅读爱好者、市场分析师、旅行者以及需要快速生成故事板的作家、编剧和导演等。虽然在处理中文内容时可能会有一些文字错误,但其正确性已经相当高,并且因为提供了图文来源,所以被看作是一种有价值的工具。
https://explorer.globe.engineer/
PIKA - 上线唇形同步
PIKA的唇形同步是指他们的AI视频产品能够生成人物并且让人物的唇部动起来,模拟对话的感觉。唇形同步功能需要先传入视频或图片,然后选择发音人并输入文字或上传音频,就能生成对应的语音。不过,目前PIKA的唇形同步功能还处于测试版本,效果上与其他产品相比还有一定的距离要走,存在一些问题,但仍具有很大的优化空间。
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621