WhisperKit
WhisperKit简介
WhisperKit 是一个Swift软件包,它将OpenAI的热门语音识别模型 Whisper 与苹果的CoreML框架集成,旨在实现高效的本地推理,专为苹果设备设计。
你可以通过TestFlight来查看演示应用。
安装方法
-
Swift Package Manager:可以通过Swift Package Manager将WhisperKit集成到你的Swift项目中:
- 打开项目并选择
File > Add Package Dependencies...
- 输入仓库地址:
https://github.com/argmaxinc/whisperkit
- 选择版本并完成添加
- 打开项目并选择
-
Homebrew:你可以使用Homebrew来安装命令行版本:
brew install whisperkit-cli
使用示例
-
初始化并转录本地音频文件:
import WhisperKit Task { let pipe = try? await WhisperKit() let transcription = try? await pipe!.transcribe(audioPath: "path/to/your/audio.{wav,mp3,m4a,flac}")?.text print(transcription) }
-
模型选择:可以自动下载推荐的模型,也可以指定特定的模型:
let pipe = try? await WhisperKit(model: "large-v3")
主要使用场景
- 语音转文本:将本地存储的音频文件转换为文本,适用于语音备忘录转录、会议记录生成等场景。
- 实时语音识别:通过麦克风实时转录语音,适用于语音助手、即时语音输入等场景。
贡献与计划
WhisperKit鼓励社区贡献,欢迎在GitHub上查看贡献指南,发布issue或提交pull request,同时可以查看未来开发计划。WhisperKit的目标是不断优化和增加新功能。
授权与引用
WhisperKit基于MIT许可协议发布。如果你在学术工作中使用了WhisperKit,可以使用以下BibTeX条目进行引用:
@misc{whisperkit-argmax,
title = {WhisperKit},
author = {Argmax, Inc.},
year = {2024},
URL = {https://github.com/argmaxinc/WhisperKit}
}
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621