AI新工具(20240805) 本地化AI语音聊天voicechat2；改进版的Whisper模型，速度快50%；多代理创建儿童图画书 ✨ 1: voicechat2 voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。 Voicechat2 是一个快速、完全本地化的AI语音聊天系统，采用WebSockets技术。它运行在高性能硬件上，例如7900级的AMD RDNA3显卡或4090显卡，

AI新工具(20240805) 本地化AI语音聊天voicechat2；改进版的Whisper模型，速度快50%；多代理创建儿童图画书

By AiBard123
August 5, 2024 - 2 min read

✨ 1: voicechat2

voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。

Voicechat2 是一个快速、完全本地化的AI语音聊天系统，采用WebSockets技术。它运行在高性能硬件上，例如7900级的AMD RDNA3显卡或4090显卡，可以实现低至1秒甚至300毫秒的语音到语音延迟。它使用了多个先进的AI模型和工具，包括Whisper、Llama和Coqui TTS。

人机对话：实现与AI助手的实时语音互动，如智能客服、AI陪聊等。 教育培训：实时语音指导和解答问题，为学生提供即时反馈。 远程工作和会议：提高线上沟通效率，减少语音延迟，保证会议的流畅进行。游戏：在多人联机游戏中进行实时语音交流，提升游戏体验。

地址：https://github.com/lhl/voicechat2

✨ 2: Real-time Live Streaming Digital Human

实时直播数字人通过少样本学习在30和40系列显卡上流畅运行，提供交互体验。

实时直播数字人（Real-time Live Streaming Digital Human） 是一项基于少样本学习技术的项目，旨在提供流畅且互动性强的直播体验。该系统能够在NVIDIA 30和40系列显卡上高效运行，实现每秒25帧以上的实时性能。

地址：https://github.com/kleinlee/DH_live

✨ 3: Whisper Medusa

Whisper Medusa 是改进版的Whisper模型，通过每次迭代预测多个标记加速语音转录，速度比 OpenAI 的 Whisper 快 50%，由以色列公司 aiOla 推出。

Whisper Medusa

Whisper Medusa是基于Whisper模型的一种高级编码器-解码器模型，用于语音转录和翻译。通过在每次迭代中预测多个标记（tokens），Whisper Medusa显著提高了推理速度，同时只带来少量的词错误率（WER）下降。模型在LibriSpeech数据集上进行训练和评估，表现出强大的速度和准确性。

地址：https://github.com/aiola-lab/whisper-medusa

✨ 4: Agentic Story Book Workflow

Agentic Story Book Workflow 是一个基于AutoGen的多代理流程，用于创建儿童图画书。

Agentic Story Book Workflow是一个基于AutoGen的多代理工作流程框架，旨在为儿童创作图画书。

该框架涉及不同的多代理协作方法，以下是其主要流程：

用户交互：User_Proxy代表用户，与Receptionist沟通以收集用户需求。 内容创作：通过GroupChat机制协作，各GroupChat有一个GroupChat Manager协调当前的对话者。在内容创作角色（如Story Editor、Storyboard Editor、Prompt Editor）中，设有Agent负责审查内容。如审查不过，GroupManager将其退回编辑者修改。 生成图像/视频/PPT：这一阶段由独立的Image Creator Agent处理，其内部包含两个子代理：一个负责AI图像生成，另一个负责审查生成的图像。

地址：https://github.com/breakstring/Agentic_Story_Book_Workflow

✨ 5: LiYing

自动化完成一般照相馆后期流程的照片自动处理

LiYing 是一套用于自动化证件照后期处理的程序，可以自动识别人体、人脸，纠正角度，更换背景，裁切证件照，离线运行。用户可以通过整合包或从源码构建使用该程序，同时需要下载相关模型。具体运行方式可通过CLI参数配置，也可以自定义证件照类型。程序制作初衷是为了帮助父母更轻松地完成工作。

地址：https://github.com/aoguai/LiYing

更多AI工具，参考国内AiBard123，Github-AiBard123 公众号：每日AI新工具

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621