Microsoft引领前沿:拓展提示技术的潜能
作者: Atman语言智能 来源: Atman语言智能
Steering at the Frontier:
Extending the Power of Prompting
01
正文部分
我们看到前沿基础模型令人兴奋的功能,包括跨众多知识和专业领域的抽象、泛化和组合的有趣能力。即使是经验丰富的人工智能研究人员也对通过简单的零样本提示来引导模型的能力印象深刻。除了基本的、开箱即用的提示之外,我们一直在探索新的提示策略(在我们的Medprompt工作中展示),以激发专家的力量。
今天,我们将分享有关 Medprompt 以及在提示库中引导前沿模型的其他方法的信息(在新选项卡中打开),GitHub 上的资源集合。我们的目标是为工程师和客户提供信息和工具,以激发基础模型的最佳性能。我们将首先包含一些脚本,这些脚本可以使用我们在此介绍的提示策略来复制我们的结果。我们将在未来几周内添加更复杂的通用工具和信息。
为了说明前沿模型的功能以及通过指导 GPT-4 来利用和扩展最近的努力以达到最先进 (SoTA) 结果的机会,我们将根据 Google 选择的基准审查 SoTA 结果用于评估 Gemini Ultra。我们的端到端探索、快速设计和性能计算只花了几天时间。
我们来关注一下大家熟知的MMLU(在新选项卡中打开)(测量大规模多任务语言理解)挑战是为了测试大型语言模型的常识和推理能力而设立的。完整的 MMLU 基准包含数以万计的不同形式的挑战问题,涉及从基础数学到美国历史、法律、计算机科学、工程、医学等 57 个领域。
在我们的Medprompt 研究中,我们专注于医疗挑战问题,但发现即时策略可以具有更通用的应用,并在几个域外基准上检查其性能——尽管其工作根源在于医疗挑战。今天,我们报告使用 Medprompt 的修改版本引导 GPT-4 取得了完整 MMLU 上有史以来的最高分。
在我们的探索中,我们初步发现将原始的 Medprompt 应用到 GPT-4 在综合 MMLU 上取得了 89.1% 的分数。通过将 Medprompt 中的集成调用数量从 5 个增加到 20 个,GPT-4 在 MMLU 上的性能进一步提高到 89.56%。为了在 MMLU 上实现新的 SoTA,我们将 Medprompt 扩展为 Medprompt+,添加了更简单的提示方法,并制定了一个策略,通过集成基本 Medprompt 策略和简单提示的输出来得出最终答案。
最终答案的合成由 GPT-4 控制的控制策略和候选答案的推断置信度指导。Promptbase 存储库中提供了有关 Medprompt+ 的更多详细信息。Google Gemini 团队利用了一种耦合复杂和简单查询的相关方法。使用修改后的 Medprompt+ 引导的 GPT-4 达到了 90.10% 的创纪录分数。我们注意到 Medprompt+ 依赖于从 GPT-4 获取置信度分数 (logprobs)。这些功能尚未通过当前 API 公开提供,但将在不久的将来向所有人开放。
虽然系统的提示工程可以产生最大的性能,但我们继续探索具有简单提示的前沿模型的开箱即用性能。重要的是要密切关注 GPT-4 的原生功能以及我们如何通过零或几次提示策略来引导模型。如表 1 所示,从简单的提示开始有助于在采用更复杂和更昂贵的方法之前建立基准性能。
我们鼓励您查看promptbase 存储库(在新选项卡中打开)在 GitHub 上了解有关提示技术和工具的更多详细信息。这一工作领域正在不断发展,有很多值得学习和分享的地方。我们对未来的方向和可能性感到兴奋。
公众号:Atman语言智能
售前与商务合作:[email protected]
售后与问题咨询:[email protected]
苏州公司:苏州市工业园区金尚路仙峰大厦南楼5层
北京公司:北京市海淀区北四环中路智优沃大厦4层
更多AI工具,参考Github-AiBard123,国内AiBard123