GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生
作者: 机器之心 来源: 机器之心
机器之心报道
编辑:陈萍
GPT-4 调用的第三方插件到底效果如何?有研究者对 Wolfram Alpha 、Code Interpreter 做了份测试。
今年早些时候,OpenAI 开启 ChatGPT 集成第三方插件功能,打破 ChatGPT 不能联网这一封印。
很多人赞叹道:ChatGPT 的横空出世可以看作是「iPhone 时刻」,而第三方插件的集成,就是「iOS App Store」时刻。
据不完全统计,消息公布之后的没几天,ChatGPT 就上线了 70 多款插件。几个月过去了,这些插件对 ChatGPT 的作用到底如何?本文来自纽约大学的 Ernest Davis 、德克萨斯大学奥斯汀分校的 Scott Aaronson ,他们给 ChatGPT 背后的大模型 GPT-4 调用的插件来了次摸底考试。
论文地址:https://arxiv.org/pdf/2308.05713.pdf
具体而言,该报告描述了对大型语言模型 GPT-4 在 2023 年 6 月至 8 月期间,使用 Wolfram Alpha(以下称为 GPT4+WA)和 Code Interpreter(以下称为 GPT4+CI)插件,在 105 道高中和大学水平的科学和数学问题上进行了测试。
他们得出以下结论:
在测试的各种问题中,带有任一插件的 GPT-4 明显强于 GPT-4 本身。另外,该研究还得出结论,几乎可以肯定的是 GPT-4 强于一年前存在的 AI。然而,其可靠性还远远不够;它经常输出错误的答案或无法输出任何答案。
从总分来看,本文认为这些系统的表现相当于中等本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得具有挑战性的问题,而它们却无法解决一些即使是中学生也会觉得容易的问题。
除此以外,该研究还发现,GPT-4 和插件之间还有很大的改进空间,特别是 Wolfram Alpha。GPT-4 经常以 Wolfram Alpha 难以接受或产生有用输出的方式来表述问题。
例如,在问题 B.35 中(参见论文附录),GPT-4 调用 Wolfram Alpha 40 次,试图获取某个事件的日期,但都没有成功,然后放弃了,然而,没有插件的 GPT-4 都知道该日期。在问题 A.14 中,要求 GPT-4 以天文学上的长度单位给出答案,Wolfram Alpha 返回了以米表示的正确答案,但随后系统无法将其转换为天文单位,尽管对 Wolfram Alpha 进行了八次调用。
GPT-4 有时还会创建对插件的无用调用,例如在问题 C.11 中,GPT 与 WA 进行了以下交互:
这些结果表明,GPT-4 未能充分利用插件的功能,尤其是 Wolfram Alpha。
总体而言,这些系统在可以通过调用单个公式解决的问题上最为强大。他们通常在人类倾向于使用空间可视化来解决的问题上表现较弱。此外,这些系统通常不擅长解决涉及组合多种不同类型计算的问题,难以处理非常大或非常小的数字。GPT-4 有一定能力检测插件返回的答案是否有意义或物理意义,但并不十分可靠,并且几乎没有能力诊断错误原因或从中恢复。
实验结果
该研究创建了三个测试集:「Arbitrary Numerical」测试集、「Calculation-Free」测试集和「Motivated Numerical」测试集。
表 1 为三个测试集问题的成功和失败示例:其中 3 个成功案例,3 个失败案例。在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正确答案,失败案例则相反。
作者表示他们的测试集太小,结构也太随意,无法支持统计上有效的结论,但这项研究也暗示了一些结论,两个插件在功能上都很强大,双方都能解决对方无法解决的问题。下面我们看一些实验结果。
下表为在科学和数学上的结果(前 16 个问题)。
下表为在科学和数学问题上的结果,包括库仑定律、三维几何、概率等。GPT4+WA 得分为 8.25 分(总分 32 分);GPT4+CI 得分为 10 分(总分 32 分)。
下表为在「Calculation-Free」测试集上第 1-32 问题上的结果。问题类别可概括为日食、距离组合问题、河流中各点之间的距离问题等。
下表为在「Calculation-Free」测试集上的结果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,随机猜测的得分为 :22.6/53 。
下表实验为在 Motivated Numerical 测试集上结果,涉及黑洞、几何、重力等类别,GPT4+WA:14.3/20;GPT4+CI:13.8/20 。
了解更多内容,请参考原论文。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
更多AI工具,参考Github-AiBard123,国内AiBard123