多模态的ChatGPT来了！能听能说还能看图作者： Founder Park 来源： Founder Park 刚刚，OpenAI 宣布开始在 ChatGPT 中推出新的语音和图像功能，允许用户进行语音对话或向 ChatGPT 展示正在谈论的内容，提供了一种新的、更直观的界面类型。语音和图像提供了更多在生活中使用 ChatGPT 的方式。在旅行时，拍下一个地标的照片，然后进行关于

多模态的ChatGPT来了！能听能说还能看图

By AiBard123
September 26, 2023 - 2 min read

作者： Founder Park 来源： Founder Park

刚刚，OpenAI 宣布开始在 ChatGPT 中推出新的语音和图像功能，允许用户进行语音对话或向 ChatGPT 展示正在谈论的内容，提供了一种新的、更直观的界面类型。

语音和图像提供了更多在生活中使用 ChatGPT 的方式。在旅行时，拍下一个地标的照片，然后进行关于它有趣之处的实时对话。当用户在家时，拍下冰箱和食品储藏室的照片，以确定晚餐吃什么（并提出后续问题，以获得一份逐步的食谱）。晚餐后，通过拍照、圈出问题集并让它与家庭成员分享提示，例如帮助孩子解决数学问题。

在接下来的两周内，OpenAI 将向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像功能，语音功能将在iOS和Android上推出（可以在设置中选择加入），而图像功能将在所有平台上提供。

####与 ChatGPT 交谈并让它回应

现在可以使用语音与 ChatGPT 进行交互式对话。在外出时与它交谈，在家中为家人请求睡前故事，或解决晚餐桌上的争论。

使用语音进行交互式对话

要开始使用语音功能，请转到移动应用程序中的“设置”→“新功能”，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，并从五种不同的语音中选择你喜欢的语音。

这项新的语音功能由一个新的文本转语音模型提供支持，能够从仅有的文本和几秒的样本语音生成类似人类的音频。我们与专业的配音演员合作，为每个语音创建了声音。我们还使用我们的开源语音识别系统Whisper，将你的口头言语转录为文本。

收听语音示例

支持不同的模式，讲故事、菜单、演讲、诗歌以及问答解释。

####选择语音

####讨论图像

现在用户可以向 ChatGPT 展示一个或多个图像。可以排查为什么烧烤无法启动，查看冰箱的内容以计划一顿饭，或者分析与工作相关的复杂图表。要专注于图像的特定部分，可以在 ChatGPT 的移动应用程序中使用绘图工具。

要开始使用，请点击照片按钮以拍摄或选择图像。如果用户使用的是iOS或Android，请首先点击加号按钮；还可以讨论多个图像或使用我们的绘图工具来引导 ChatGPT。

图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将它们的语言推理技能应用于各种图像，例如照片、屏幕截图和包含文本和图像的文档。

####OpenAI 正在逐步部署图像和语音功能

OpenAI的目标是构建安全和有益的AGI。我们相信逐步提供我们的工具，这使我们能够不断改进并随着时间推进风险缓解措施，同时也为未来更强大的系统为每个人做好准备。这个策略在涉及语音和视觉的先进模型时变得尤为重要。

####语音

新的语音技术能够从仅有几秒的真实语音生成逼真的合成声音，为许多创意和可访问性的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者冒充公众人物或进行欺诈的潜力。

这就是为什么我们正在使用这项技术来支持特定用例——语音聊天。语音聊天是与我们直接合作的配音演员创造的。我们还与其他人以类似的方式合作。例如，Spotify正在利用这项技术的力量进行其“Voice Translation”功能的试点项目，该功能帮助播客制作者将播客翻译成播客制作者自己的声音，并扩大其受众。

####图像输入

基于视觉的模型也带来了新的挑战，从对人物的幻觉到在高风险领域中依赖模型对图像的解释。在更广泛的部署之前，我们与红队员一起测试了模型在极端主义和科学熟练度等领域的风险，还与一组多样化的α测试人员合作。我们的研究使我们能够在一些关键细节上达成一致，以确保负责任的使用。

####使视觉既有用又安全

与 ChatGPT 的其他功能一样，视觉是为了协助你的日常生活。当它能够看到你所看到的东西时，它的效果最好。

这一方法直接受到我们与Be My Eyes合作的工作的启发，Be My Eyes是一款为盲人和低视力人士提供的免费移动应用程序，用于理解用途和局限性。用户告诉我们，他们发现就像在试图弄清楚遥控器设置时，电视上出现了人物的背景图像等一些包含人物的图像的一般对话对他们非常有价值。

OpenAI 还采取了技术措施，显著限制了 ChatGPT 分析和对人的直接陈述的能力，因为 ChatGPT 并不总是准确，而这些系统应该尊重个人的隐私。

真实世界的使用和反馈将帮助我们进一步改进这些保护措施，同时保持工具的有用性。

####关于模型限制的透明度

用户可能会依赖 ChatGPT 进行专业领域的特定话题，例如研究领域。我们对模型的限制保持透明，并不鼓励在没有适当验证的情况下使用高风险用例。此外，该模型擅长英文文本的转录，但在一些其他语言方面表现不佳，尤其是那些使用非拉丁字母文字的语言。我们建议非英语用户不要将 ChatGPT 用于此目的。

用户可以在关于图像输入系统卡中了解更多关于我们安全方法和与Be My Eyes的合作的信息。

####OpenAI 将扩大访问范围

Plus和Enterprise用户将在接下来的两周内体验到语音和图像的功能。我们很高兴将这些功能很快推广给其他用户群体，包括开发者。