AI 新工具

AI新工具(20240709) 阿里巴巴开源自然语音交互框架;在抱抱脸上使用LivePortrait;58种提示技术的工具库





✨ 1: FunAudioLLM

FunAudioLLM是一个为人类和大型语言模型(LLMs)之间自然语音交互打造的语音理解和生成基础框架。

FunAudioLLM 是阿里巴巴集团Tongyi SpeechTeam推出的用于增强人类与大语言模型(LLM)自然语音交互的框架。该框架的核心包括两个创新的模型:SenseVoice和CosyVoice。

SenseVoice:这是一个多功能语音理解模型,具备高精度的多语言语音识别、情感识别和音频事件检测能力。其支持超过50种语言,延迟极低。

CosyVoice:这是一个自然语音生成模型,具备多语言、音色和情感控制能力。其在多语言生成、零样本生成、跨语言语音克隆和指令跟随能力方面表现出色。

FunAudioLLM整合SenseVoice和CosyVoice,实现了语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述等应用。这些模型已在Modelscope和Huggingface开源,并在GitHub上发布了相关的训练、推理和微调代码,推进了语音交互技术的发展。

语音翻译:通过SenseVoice、LLM和CosyVoice的结合,实现高效的语音-语音翻译,支持多种语言之间的互译。 情感语音聊天:利用SenseVoice和CosyVoice,可以开发情感语音聊天应用,生成情感丰富的对话内容。 互动播客:结合SenseVoice和基于LLM的多智能体系统,可以创作实时互动的播客内容。 表现力有声书:通过LLM对书中情感的分析和CosyVoice的语音合成,生成富有表现力的有声书。

地址:https://fun-audio-llm.github.io/

✨ 2: LivePortrait

LivePortrait是KwaiVGI在Hugging Face发布的一个正在运行的项目。

使用 AI 完全控制图像中面部的运动,还支持动漫,你把它与视频生成AI结合起来,你可以创造出惊人的作品。

LivePortrait 在 Hugging Face 的地址

地址:https://huggingface.co/spaces/KwaiVGI/LivePortrait

✨ 3: ComfyUI-KwaiKolorsWrapper

ComfyUI-KwaiKolorsWrapper 是用于运行 Kwai-Kolors 文本生成图像管道的基础封装工具。

ComfyUI-KwaiKolorsWrapper 是一个基础的包装器,用于使用 diffusers 运行 Kwai-Kolors 的 text2image(文本到图像)流水线。

地址:https://github.com/kijai/ComfyUI-KwaiKolorsWrapper

✨ 4: ControlNet++

ControlNet++ 是一个支持多种图像生成与编辑控制的全能模型。

ControlNet++ 是一款用于图像生成和编辑的全能控制网络。其网络结构支持 10 多种控制类型的文本到图像生成,并能够生成视觉效果媲美 MidJourney 的高分辨率图像。基于原始的 ControlNet 结构,ControlNet++ 设计了两个新模块:

  1. 扩展原始 ControlNet,以支持使用相同网络参数的不同图像条件。
  2. 支持多个条件输入而不增加计算负担,这对希望详细编辑图像的设计师特别重要,不同的条件使用相同的条件编码器,不增加额外的计算或参数。

地址:https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

✨ 5: quality-prompts

Quality Prompts是一个包含58种提示技术的工具库,可以快速评估和使用提示方法。

Quality Prompts 是一个实现和评估提示技术的库,提供快速创建和测试提示的工具。它实现了 58 种提示技术,这些技术均在 OpenAI、微软等企业的研究中进行了阐述。

地址:https://github.com/sarthakrastogi/quality-prompts



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621