AI新工具(20240701) 速记员也要失业了-低延迟的实时语音转文字RealtimeSTT；ComfyUI提升旧照片的质量；将屏幕内容转换为具体动作；PDF完美转换为MarkDown工具 ✨ 1: RealtimeSTT RealtimeSTT 是一款易用、低延迟的实时语音转文字库，适用于语音助手等应用。 RealtimeSTT是一个易于使用、低延迟的实时语音转文本库。它通过监听麦克风并将语音转录为文本，是语音助手和需要快速且精准的语音转文本应用的理想选择。其主要特点包括：语

AI新工具(20240701) 速记员也要失业了-低延迟的实时语音转文字RealtimeSTT；ComfyUI提升旧照片的质量；将屏幕内容转换为具体动作；PDF完美转换为MarkDown工具

By AiBard123
July 1, 2024 - 2 min read

✨ 1: RealtimeSTT

RealtimeSTT 是一款易用、低延迟的实时语音转文字库，适用于语音助手等应用。

RealtimeSTT是一个易于使用、低延迟的实时语音转文本库。它通过监听麦克风并将语音转录为文本，是语音助手和需要快速且精准的语音转文本应用的理想选择。其主要特点包括：

语音活动检测：自动检测用户何时开始和停止说话。 实时转录：实时将语音转录为文本。 唤醒词激活：可通过预设的唤醒词启动录音。

地址：https://github.com/Ikaros-521/RealtimeSTT_LLM_TTS

✨ 2: ComfyUI-Bringing-Old-Photos-Back-to-Life

ComfyUI通过自动去抓和修复面部等功能提升旧照片的质量。

ComfyUI-Bringing-Old-Photos-Back-to-Life是一个用于增强旧照片或低质量图像的工具。该工具可以在ComfyUI中运行，具备自动擦除划痕和面部增强的可选功能。使用该工具需要安装一些小型的检查点和VAE。

旧照片修复：可以用来修复老旧、损坏或低质量的照片，使其恢复到原有的清晰度和细节。 面部增强：通过先进的面部检测和增强技术，可以进一步提高照片中的面部细节和质量。 划痕去除：自动检测和去除照片中的划痕和杂质，使照片看起来更加完美。

地址：https://github.com/cdb-boop/ComfyUI-Bringing-Old-Photos-Back-to-Life

✨ 3: Mixture-of-Agents

Mixture-of-Agents利用多层大型语言模型来提升AI性能，并通过Gradio界面提供直观交互。

Mixture of Agents（简称MoA）是一种前沿的技术方法，通过整合多个大型语言模型（LLMs），提升AI性能。MoA采用分层架构，每一层都包含多个LLM代理，从而利用开源模型实现最先进的结果。

多模型整合：结合多个AI模型的响应，提供更全面和细致的输出。 可定制模型选择：用户可选择并配置参考模型和聚合模型。 可调节参数：通过自定义温度、最大标记数和处理轮次微调生成过程。 实时流式生成：体验流畅的响应生成过程。 直观的Gradio界面：用户友好的界面设计，采用大地色调主题。 灵活的对话模式：支持单轮次和多轮次对话。

地址：https://github.com/severian42/MoA-Ollama-Chat

✨ 4: Screen to action using LLMs

利用大语言模型，通过屏幕内容自动生成行动或任务。

“Screen to action using LLMs” 是一个通过大语言模型（LLM）将屏幕内容转换为具体动作的创新项目。此项目受adept.ai、rewind.ai和Apple Shortcut等灵感启发，使用Rust和WASM技术构建。

自动CRM填充：录制销售人员的屏幕内容，提取销售对话记录，并自动填充到CRM系统中，提升工作效率。 自动摘要生成：对屏幕内容进行实时文本提取，并通过LLM生成相应的摘要，方便回顾和整理信息。 自动动作触发：基于屏幕内容进行特定关键词或图像的识别，触发自动化操作（例如，每次看到狗的图片时自动发送推文）。 记忆扩展应用：利用LLM对记录的屏幕内容进行分析和处理，扩展个人记忆能力。

地址：https://github.com/louis030195/screen-pipe

✨ 5: gptpdf

gptpdf 是一个利用VLLM解析PDF为Markdown的工具，几乎完美支持数学公式、表格等。

GPTPDF 是一个使用视觉大模型（如 GPT-4o）将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容，并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低，每页平均费用为 $0.013。

地址：https://github.com/CosmosShadow/gptpdf

更多AI工具，参考国内AiBard123，Github-AiBard123 公众号：每日AI新工具

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621