AI 新工具

AI新工具(20240701) 速记员也要失业了-低延迟的实时语音转文字RealtimeSTT;ComfyUI提升旧照片的质量;将屏幕内容转换为具体动作;PDF完美转换为MarkDown工具





✨ 1: RealtimeSTT

RealtimeSTT 是一款易用、低延迟的实时语音转文字库,适用于语音助手等应用。

RealtimeSTT是一个易于使用、低延迟的实时语音转文本库。它通过监听麦克风并将语音转录为文本,是语音助手和需要快速且精准的语音转文本应用的理想选择。其主要特点包括:

语音活动检测:自动检测用户何时开始和停止说话。 实时转录:实时将语音转录为文本。 唤醒词激活:可通过预设的唤醒词启动录音。

地址:https://github.com/Ikaros-521/RealtimeSTT_LLM_TTS

✨ 2: ComfyUI-Bringing-Old-Photos-Back-to-Life

ComfyUI通过自动去抓和修复面部等功能提升旧照片的质量。

ComfyUI-Bringing-Old-Photos-Back-to-Life是一个用于增强旧照片或低质量图像的工具。该工具可以在ComfyUI中运行,具备自动擦除划痕和面部增强的可选功能。使用该工具需要安装一些小型的检查点和VAE。

旧照片修复:可以用来修复老旧、损坏或低质量的照片,使其恢复到原有的清晰度和细节。 面部增强:通过先进的面部检测和增强技术,可以进一步提高照片中的面部细节和质量。 划痕去除:自动检测和去除照片中的划痕和杂质,使照片看起来更加完美。

地址:https://github.com/cdb-boop/ComfyUI-Bringing-Old-Photos-Back-to-Life

✨ 3: Mixture-of-Agents

Mixture-of-Agents利用多层大型语言模型来提升AI性能,并通过Gradio界面提供直观交互。

Mixture of Agents(简称MoA)是一种前沿的技术方法,通过整合多个大型语言模型(LLMs),提升AI性能。MoA采用分层架构,每一层都包含多个LLM代理,从而利用开源模型实现最先进的结果。

多模型整合:结合多个AI模型的响应,提供更全面和细致的输出。 可定制模型选择:用户可选择并配置参考模型和聚合模型。 可调节参数:通过自定义温度、最大标记数和处理轮次微调生成过程。 实时流式生成:体验流畅的响应生成过程。 直观的Gradio界面:用户友好的界面设计,采用大地色调主题。 灵活的对话模式:支持单轮次和多轮次对话。

地址:https://github.com/severian42/MoA-Ollama-Chat

✨ 4: Screen to action using LLMs

利用大语言模型,通过屏幕内容自动生成行动或任务。

“Screen to action using LLMs” 是一个通过大语言模型(LLM)将屏幕内容转换为具体动作的创新项目。此项目受adept.airewind.aiApple Shortcut等灵感启发,使用Rust和WASM技术构建。

自动CRM填充:录制销售人员的屏幕内容,提取销售对话记录,并自动填充到CRM系统中,提升工作效率。 自动摘要生成:对屏幕内容进行实时文本提取,并通过LLM生成相应的摘要,方便回顾和整理信息。 自动动作触发:基于屏幕内容进行特定关键词或图像的识别,触发自动化操作(例如,每次看到狗的图片时自动发送推文)。 记忆扩展应用:利用LLM对记录的屏幕内容进行分析和处理,扩展个人记忆能力。

地址:https://github.com/louis030195/screen-pipe

✨ 5: gptpdf

gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。

GPTPDF 是一个使用视觉大模型(如 GPT-4o)将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容,并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低,每页平均费用为 $0.013。

地址:https://github.com/CosmosShadow/gptpdf



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621