AI新工具
banner

RealtimeSTT


介绍:

RealtimeSTT 是一款易用、低延迟的实时语音转文字库,适用于语音助手等应用。









RealtimeSTT

RealtimeSTT是一个易于使用、低延迟的实时语音转文本库。它通过监听麦克风并将语音转录为文本,是语音助手和需要快速且精准的语音转文本应用的理想选择。其主要特点包括:

  1. 语音活动检测:自动检测用户何时开始和停止说话。
  2. 实时转录:实时将语音转录为文本。
  3. 唤醒词激活:可通过预设的唤醒词启动录音。
使用场景
  • 语音助手:如智能家居设备、虚拟秘书等,需要实时响应用户指令的应用。
  • 翻译应用:实时语音翻译,可以应用于旅游、语言学习等场景。
  • 开放式AI对话接口:通过语音激活与OpenAI接口进行交互的应用。
  • 其他需要实时语音转文本的应用:如会议记录、直播字幕生成等。
安装指南
基本安装
pip install RealtimeSTT
GPU支持(推荐)
  1. 安装NVIDIA CUDA Toolkit 11.8
  2. 安装NVIDIA cuDNN 8.7.0 for CUDA 11.x
  3. 安装ffmpeg,可以使用系统包管理器或者下载相应安装程序。
  4. 安装支持CUDA的PyTorch
    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
    
其他依赖
pip install -r requirements.txt
更新日志

近期的更新包括增加了唤醒词配置、新增了OpenAI接口的接入和Edge-TTS的接入,以及改进了WebUI和GPT-Sovits新API的兼容。

快速开始

基本用法可以通过手动和自动两种录音方式实现,以及支持回调函数以异步处理转录结果。

手动录音
recorder.start()
recorder.stop()
print(recorder.text())
自动录音
with AudioToTextRecorder() as recorder:
    print(recorder.text())
配置选项

AudioToTextRecorder类的初始化参数中提供了多种配置选项,如模型大小、语言编码、输入设备索引、GPU设备索引等。此外,还支持各种回调函数,以便在录音开始、停止和转录过程中执行特定操作。

实时转录和唤醒词配置

可以启用实时转录,并指定唤醒词以激活录音功能。唤醒词可以选择如"Alexa",“Hey Google"等常见的命令词。

贡献与许可

欢迎贡献,并且该项目采用MIT许可证。

项目作者:Kolja Beigel,详细信息参见GitHub

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621