AI 新工具

AI新工具(20240805) 本地化AI语音聊天voicechat2;改进版的Whisper模型,速度快50%;多代理创建儿童图画书





✨ 1: voicechat2

voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。

Voicechat2 是一个快速、完全本地化的AI语音聊天系统,采用WebSockets技术。它运行在高性能硬件上,例如7900级的AMD RDNA3显卡或4090显卡,可以实现低至1秒甚至300毫秒的语音到语音延迟。它使用了多个先进的AI模型和工具,包括Whisper、Llama和Coqui TTS。

人机对话:实现与AI助手的实时语音互动,如智能客服、AI陪聊等。 教育培训:实时语音指导和解答问题,为学生提供即时反馈。 远程工作和会议:提高线上沟通效率,减少语音延迟,保证会议的流畅进行。 游戏:在多人联机游戏中进行实时语音交流,提升游戏体验。

地址:https://github.com/lhl/voicechat2

✨ 2: Real-time Live Streaming Digital Human

实时直播数字人通过少样本学习在30和40系列显卡上流畅运行,提供交互体验。

实时直播数字人(Real-time Live Streaming Digital Human) 是一项基于少样本学习技术的项目,旨在提供流畅且互动性强的直播体验。该系统能够在NVIDIA 30和40系列显卡上高效运行,实现每秒25帧以上的实时性能。

地址:https://github.com/kleinlee/DH_live

✨ 3: Whisper Medusa

Whisper Medusa 是改进版的Whisper模型,通过每次迭代预测多个标记加速语音转录,速度比 OpenAI 的 Whisper 快 50%,由以色列公司 aiOla 推出。

Whisper Medusa

Whisper Medusa是基于Whisper模型的一种高级编码器-解码器模型,用于语音转录和翻译。通过在每次迭代中预测多个标记(tokens),Whisper Medusa显著提高了推理速度,同时只带来少量的词错误率(WER)下降。模型在LibriSpeech数据集上进行训练和评估,表现出强大的速度和准确性。

地址:https://github.com/aiola-lab/whisper-medusa

✨ 4: Agentic Story Book Workflow

Agentic Story Book Workflow 是一个基于AutoGen的多代理流程,用于创建儿童图画书。

Agentic Story Book Workflow是一个基于AutoGen的多代理工作流程框架,旨在为儿童创作图画书。

该框架涉及不同的多代理协作方法,以下是其主要流程:

用户交互:User_Proxy代表用户,与Receptionist沟通以收集用户需求。 内容创作:通过GroupChat机制协作,各GroupChat有一个GroupChat Manager协调当前的对话者。在内容创作角色(如Story Editor、Storyboard Editor、Prompt Editor)中,设有Agent负责审查内容。如审查不过,GroupManager将其退回编辑者修改。 生成图像/视频/PPT:这一阶段由独立的Image Creator Agent处理,其内部包含两个子代理:一个负责AI图像生成,另一个负责审查生成的图像。

地址:https://github.com/breakstring/Agentic_Story_Book_Workflow

✨ 5: LiYing

自动化完成一般照相馆后期流程的照片自动处理

LiYing 是一套用于自动化证件照后期处理的程序,可以自动识别人体、人脸,纠正角度,更换背景,裁切证件照,离线运行。用户可以通过整合包或从源码构建使用该程序,同时需要下载相关模型。具体运行方式可通过CLI参数配置,也可以自定义证件照类型。程序制作初衷是为了帮助父母更轻松地完成工作。

地址:https://github.com/aoguai/LiYing



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621