Faster Whisper Server
Faster Whisper Server 是一个兼容 OpenAI API 的转录服务器,使用 faster-whisper 作为其后台处理工具。其主要特性包括:
- 支持GPU和CPU。
- 可通过 Docker 轻松部署。
- 可通过环境变量进行配置。
- 兼容 OpenAI API。
Faster Whisper Server 支持音频文件转录和翻译,并且还支持流式转录,这对于处理大型音频文件时尤其有用,可以在处理过程中逐步接收转录结果,而不是等待整个文件处理完毕。此外,未来还计划支持实时音频转录。
主要使用场景
-
音频文件转录:通过 POST 请求将音频文件上传到服务器,获取转录结果。适用于会议记录、访谈记录等需要转录的场景。
-
音频文件翻译:将音频内容翻译成目标语言,例如将一个英语音频文件翻译成中文文本。
-
流式转录:适用于较长的音频文件,可以逐步接收转录结果,即时查看部分转录内容,提升用户体验和工作效率。
-
实时转录(开发中):用于实时录音转录,例如在线会议、实时字幕等应用场景。
快速入门
使用 Docker 快速部署:
docker run --gpus=all --publish 8000:8000 --volume ~/.cache/huggingface:/root/.cache/huggingface fedirz/faster-whisper-server:0.1-cuda
# 或者
docker run --publish 8000:8000 --volume ~/.cache/huggingface:/root/.cache/huggingface fedirz/faster-whisper-server:0.1-cpu
使用 Docker Compose:
curl -sO https://raw.githubusercontent.com/fedirz/faster-whisper-server/master/compose.yaml
docker compose up --detach faster-whisper-server-cuda
# 或者
docker compose up --detach faster-whisper-server-cpu
环境变量配置后,可以使用 OpenAI API CLI 或 Python SDK 调用服务。
export OPENAI_API_KEY="cant-be-empty"
export OPENAI_BASE_URL=http://localhost:8000/v1/
openai api audio.transcriptions.create -m distil-large-v3 -f audio.wav --response-format text
openai api audio.translations.create -m distil-large-v3 -f audio.wav --response-format verbose_json
Python SDK 示例:
from openai import OpenAI
client = OpenAI(api_key="cant-be-empty", base_url="http://localhost:8000/v1/")
audio_file = open("audio.wav", "rb")
transcript = client.audio.transcriptions.create(
model="distil-large-v3", file=audio_file
)
print(transcript.text)
使用 CURL 进行请求
转录请求示例:
curl http://localhost:8000/v1/audio/transcriptions -F "[email protected]"
curl http://localhost:8000/v1/audio/transcriptions -F "[email protected]" -F "stream=true"
翻译请求示例:
curl http://localhost:8000/v1/audio/translations -F "[email protected]"
实时转录
需要安装 websocat,并使用 ffmpeg 处理麦克风输入:
ffmpeg -loglevel quiet -f alsa -i default -ac 1 -ar 16000 -f s16le - | websocat --binary ws://localhost:8000/v1/audio/transcriptions
Faster Whisper Server 提供了多种强大的音频处理功能,适用于多种音频转录和翻译场景,并且通过灵活的部署方式和 API 兼容性,使得集成到现有系统中非常便利。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621