OpenAI开发者大会速览:GPTs和模型API
作者: 浮之静 来源: 浮之静
OpenAI 在 DevDay[1] 上宣布了一系列新产品和更新(OpenAI DevDay, Opening Keynote[2])。
GPTs
OpenAI 曾在七月推出自定义指令(Custom instructions),让用户能够设置一些偏好。但随着用户需求的增加,他们希望获得更多的自定义能力(无数次吐槽,之前的自定义指令太过于鸡肋,不支持切换,启用或关闭也十分繁琐)。
很多熟练用户已经开始积累和手动输入一系列精心设计的指令,而 GPTs[3] 的推出就是为了简化这一流程,自动化完成以往需要手工操作的任务。它允许用户根据自己的需要创建定制化版本的 ChatGPT,并且可以和他人分享。这些自定义 GPTs 可以执行各种任务,用于各种场合(如:教育、游戏指导、艺术设计等)。
GPTs 的创建过程不需要编程技能,通过简单的对话界面就可以设定功能(如:上传知识文件,联网搜索、图片生成、数据分析等)。目前,GPTs 对 ChatGPT Plus 用户和企业客户开放。现在有示例 GPTs 可供 Plus 和企业用户尝试,如 Canva[4] 和 Zapier AI Actions[5]。这部分与上一篇 ChatGPT 新功能曝光 中的细节基本一致。
OpenAI 将在本月晚些时候推出 GPT Store(类似于 AppStore),用户可以在那里发布和搜索 GPTs,甚至还能通过用户数使用情况获得收益。GPT 商店将展示各种类别的 GPTs,例如生产力、教育和娱乐等。
在隐私和安全方面,OpenAI 确保用户可以控制他们与 GPTs 的交互数据。与 GPTs 的对话不会与创建者共享,用户可以选择是否允许将数据发送到第三方 API。此外,OpenAI 为防止分享有害内容的 GPTs 建立了新的审核系统,并采取了额外措施,如允许创建者验证身份,以提高用户信任。
开发者还可以通过定义一个或多个 API 来增强 GPTs 的功能,使其能够连接到数据库、电子邮件系统或电子商务平台等实际服务。这将使 GPTs 不仅限于文字交流,而是能够在现实世界中扮演更为实际的角色,从而更接近被称为 Agent 的系统。
GPTs 标志着 ChatGPT 定制化和功能集成的新时代,旨在让 AI 更加个性化和实用,同时为未来更广泛的应用奠定基础。
模型 API
GPT-4 Turbo
这是 GPT-4 的新版本,具有 128 K上下文窗口,能理解到 2023 年 4 月的事件,并在性能上得到优化。它可以处理超过 300 页文本的单一提示,价格比原版 GPT-4 更低(输入 tokens 低 3 倍,输出 tokens 低 2 倍)。已付费开发者可通过在 API 中传递 gpt-4-1106-preview 来尝试,稳定的生产就绪模型计划在未来几周内发布(查看文档 GPT-4 and GPT-4 Turbo[6])。
函数调用更新
允许你向模型描述你的应用程序的函数或外部 API,并让模型智能地选择输出一个包含调用这些函数所需参数的 JSON 对象。其他改进,如在单条消息中调用多个函数的能力,用户可以发送一条消息请求多个操作,例如“打开车窗并关闭空调”,这在以前需要与模型进行多次往返才能实现。还在提高函数调用的准确性,GPT-4 Turbo 更有可能返回正确的函数参数(查看文档 Function calling[7])。
改进的指令遵循和 JSON 模式
GPT-4 Turbo 的性能得到了增强,尤其在执行那些需要精确遵循指令的任务上,如产生特定格式的回复。它新增了 JSON 模式(JSON mode[8]),保障模型输出有效的 JSON 格式数据。通过新引入的 API 参数 response_format ,可以确保模型输出结构正确的 JSON 对象,这对于需要在聊天补全 API 中生成 JSON 的开发者来说尤其有用。
可复现输出和对数概率
新的种子参数(seed parameter)能够通过使模型大多数时间返回一致的完成结果来实现可复现的输出。这个测试阶段的特性对于重放请求以便于调试、编写更全面的单元测试以及通常对模型行为有更高程度控制的用例非常有用。OpenAI 内部已经在自己的单元测试中使用了这一特性,并且发现它非常宝贵(查看文档 Reproducible outputs[9])。
还将在未来几周推出一个功能,它能够返回 GPT-4 Turbo 和 GPT-3.5 Turbo 生成的最有可能的输出 tokens 的对数概率,这对于构建如搜索体验中的自动完成功能等特性将非常有用。
📌 名词解释
“可复现输出”(Reproducible outputs)意味着你可以让模型以一种可预测的方式反复生成同样的结果。通常,神经网络,如 GPT 系列模型,会因为它们的随机性而对同一个输入产生不同的输出。通过使用种子参数(seed parameter),你可以设置一个固定的随机种子,这样每次给定相同的输入和种子时,模型会生成相同的输出。这在进行调试、测试或者当你需要对模型输出有更细粒度控制的场景下非常有用。
“对数概率”(log probabilities)则涉及到模型生成文本的概率计算。当模型生成文本时,它会为每个可能的下一个单词或 token 计算一个概率。对数概率是这些概率的对数转换,常用于机器学习中因为它们有几个数学上的优点,例如防止数值下溢,和将乘法运算转换为加法运算,这样计算上更加稳定和高效。OpenAI 计划推出的这一特性将允许开发者获取模型预测最可能的输出 token 时的对数概率,这对于开发一些需要评估或者排序不同输出可能性的功能,如自动完成建议,会很有帮助。
更新 GPT-3.5 Turbo
新的 GPT-3.5 Turbo 版本支持默认的 16K 上下文窗口,并在指令遵循、JSON 模式和并行功能调用方面进行了改进,显示出在格式生成任务上高达 38% 的性能提升(如生成 JSON、XML 和 YAML)。开发者可以在 API 中调用 gpt-3.5-turbo-1106 来使用新模型。当前使用 gpt-3.5-turbo 名称的应用将在 2023 年 12 月 11 日自动更新至新版本。旧版模型将通过特定代码 gpt-3.5-turbo-0613 保持可用状态,直到 2024 年 6 月 13 日。
助手 API、检索和代码解释器
OpenAI 新发布的助手 API 为开发者提供了创建更加智能和互动应用的能力,通过提供如代码解释器、检索和功能调用等工具,它简化了以前需要手动处理的复杂任务。这个 API 支持持久化和无限长的对话线程,以及让助手可以调用外部数据和自定义函数,从而显著提高应用的灵活性和功能。开发者可以在不编写代码的情况下在 Assistants playground[10] 体验其测试版。
多模态 API
GPT-4V Turbo
GPT-4 Turbo 现在能够通过聊天完成 API 接受图像输入,实现包括生成图像标题、详细分析现实世界图像、阅读带有图表的文档等用例。例如,BeMyEyes 利用这项技术帮助盲人或视力低下者完成日常任务,如识别产品或导航商店。开发者可以通过在 API 中使用 gpt-4-vision-preview 来访问此功能。计划在 GPT-4 Turbo 稳定版本中推出视觉支持。价格取决于输入图像的大小。例如,将分辨率为 1080×1080 像素的图像传给 GPT-4 Turbo 的费用是 $0.00765。查看文档 GPT-4 Turbo Vision[11]。
DALL·E 3
开发者现在可以通过指定模型 dall-e-3 ,直接将其集成到应用程序或产品中。Snap、可口可乐和 Shutterstock 等公司已经利用 DALL·E 3 为其客户和活动以编程方式生成图像和设计。与 DALL·E 的前一个版本类似,API 内置了审核功能,以帮助开发者防止应用程序被滥用。API 提供不同的格式和质量选项,价格从每生成的图像 $0.04 起。查看文档 Image generation[12]。
文本到语音(TTS)
开发者现在可以通过文本到语音 API 生成接近人类质量的语音。新 TTS 模型提供 6 种预设声音供选择,并有 2 种模型变体,tts-1 和 tts-1-hd。tts 优化用于实时场景,而 tts-1-hd 优化用于质量。价格从每输入 1000 字符 $0.015 起。查看文档 Text to speech[13]。
模型定制
OpenAI 正在推出一个 GPT-4 微调(fine tuning)的实验访问计划,旨在进一步改进基础模型,尽管初步结果显示这比 GPT-3.5 微调更具挑战性。随着微调版本的提升,目前正在使用 GPT-3.5 微调的开发者将有机会申请访问 GPT-4 的微调版本(微调控制台[14])。此外,为了满足那些需要超出标准微调提供的定制程度的组织,特别是那些拥有庞大专有数据集的领域(至少数十亿 tokens),OpenAI 还推出了自定义模型计划。通过这个计划,选定的组织可以与 OpenAI 研究人员合作,培训适应其特定需求的 GPT-4 模型,包括对训练流程的每一个步骤进行定制。参与的组织将独家使用它们的自定义模型,并且这些模型不会被共享或用于其他目的。这是一个非常有限并且成本较高的计划,对感兴趣的组织开放申请(模型定制申请表[15])。
价格下调和速率限制提高
GPT-4 Turbo 的价格相较于前版大幅降低,GPT-3.5 的新 Turbo 版本也提供了更具成本效益的定价。此外,对所有付费 GPT-4 客户,每分钟的 tokens 限制提高了一倍,客户可在自己的速率限制页面查看新的限制,并可以从账户设置中申请增加使用限制(查看速率 Rate limits[16])。
版权保护
OpenAI 通过内置的版权保护系统来维护客户的利益,并推出了新的版权防护措施,承诺在客户面临版权侵犯法律诉讼时介入并承担相关费用。这一服务覆盖了 ChatGPT 企业版和开发者平台上的通用功能。
Whisper v3 和一致性解码器
OpenAI 发布了 Whisper large-v3[17],这是其开源自动语音识别(ASR)模型的最新版本,它在多语言识别性能上取得了进步,并计划将来将其整合进 API。同时,OpenAI 也开源了一致性解码器(Consistency Decoder[18]),这是 Stable Diffusion VAE 解码器的升级版,它显著提高了兼容 Stable Diffusion 1.0+ VAE 的所有图像的质量,特别是在处理文本、人脸和直线方面的性能。
References
[1] DevDay: https://devday.openai.com
[2] OpenAI DevDay, Opening Keynote: https://www.youtube.com/live/U9mJuUkhUzk?si=4NT2WciGAzDDqrbY
[3] GPTs: https://openai.com/blog/introducing-gpts
[4] Canva: https://chat.openai.com/g/g-alKfVrz9K-canva
[5] Zapier AI Actions: https://zapier.com/blog/gpt-assistant
[6] GPT-4 and GPT-4 Turbo: https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo
[7] Function calling: https://platform.openai.com/docs/guides/function-calling/function-calling
[8] JSON mode: https://platform.openai.com/docs/guides/text-generation/json-mode
[9] Reproducible outputs: https://platform.openai.com/docs/guides/text-generation/reproducible-outputs
[10] Assistants playground: https://platform.openai.com/playground?mode=assistant
[11] GPT-4 Turbo Vision: https://platform.openai.com/docs/guides/vision
[12] Image generation: https://platform.openai.com/docs/guides/images/image-generation
[13] Text to speech: https://platform.openai.com/docs/guides/text-to-speech/text-to-speech
[14] 微调控制台: https://platform.openai.com/finetune
[15] 模型定制申请表: https://openai.com/form/custom-models
[16] Rate limits: https://platform.openai.com/account/limits
[17] Whisper large-v3: https://github.com/openai/whisper
[18] Consistency Decoder: https://github.com/openai/consistencydecoder
更多AI工具,参考Github-AiBard123,国内AiBard123