Voice Engine
Voice Engine是一个由OpenAI开发的先进技术,它利用文本输入和一个15秒长的音频样本来生成接近原始说话者声音的自然听起来的语音。这项技术能够以情感丰富和逼真的方式复制人声,即使是用很小的模型和简短的音频样本也能达到这一点。Voice Engine的开发始于2022年末,其应用场景广泛,包括为ChatGPT Voice和Read Aloud提供预设语音,并通过文本转语音API服务。
以下是Voice Engine可用性的一些主要场景:
-
提供阅读辅助:对于非读者和儿童来说,Voice Engine能够提供自然听起来、情感丰富的语音,代表比预设语音更广泛的说话者。例如,教育科技公司Age of Learning就将其用于生成预设语音内容,并结合GPT-4创建实时、个性化的响应来与学生互动,以此创造更多内容,面向更广泛的受众。
-
内容翻译:帮助内容创作者和企业翻译视频和播客,以其自己的声音流利地触及全球受众。对于这类用途,Voice Engine保留了原始说话者的母语口音。例如,HeyGen就是利用Voice Engine进行视频翻译的早期采用者之一。
-
服务全球社区:通过在偏远地区改进基本服务传递等,帮助全球社区。例如,Dimagi正在为社区卫生工作者开发工具,以提供多种基本服务,如为哺乳期妈妈提供咨询。他们使用Voice Engine和GPT-4以工作者的主要语言提供交互式反馈,如斯瓦希里语或肯尼亚流行的混合语言Sheng。
-
支持无语言人士:例如,Livox是一款AI辅助通信应用,通过Voice Engine为残疾人提供多种语言的独特且非机械的声音,帮助非言语者选择最能代表他们的声音。
-
帮助病人恢复声音:对于那些因突发或逐渐退行性病症而失去语音能力的人,Voice Engine提供了一种解决方案。例如,Norman Prince神经科学研究所利用这一技术对丧失流利语音的年轻病人进行了试点项目。
OpenAI对Voice Engine的安全性有着严格的考量,因为生成类似人声的语音会产生严重的风险。因此,与测试Voice Engine的合作伙伴达成了使用策略协议,禁止未经他人同意或法律权利的情况下冒充个人或组织。此外,采取了一系列安全措施,包括添加水印来追踪任何由Voice Engine生成的音频的来源,以及对其使用方式进行主动监控。
尽管OpenAI当前只进行了小规模预览并尚未广泛发布这项技术,但它旨在分享Voice Engine的潜在用途,并激励社会提高对通过生成模型带来的挑战的抵抗力。这包括鼓励逐步淘汰基于声音的身份验证措施,探索保护个人声音使用的政策,教育公众理解AI技术的能力和限制,以及加速开发和采用跟踪视听内容来源的技术。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621