AI 文摘

CMU评测:GeminiPro相比GPT35,全线溃败!代码公开可复现


  • By AiBard123
  • December 22, 2023 - 2 min read



作者: 人工智能技术与时代人物风云 来源: 人工智能技术与时代人物风云

夕小瑶科技说 原创
作者 | 谢年年、python前段时间谷歌DeepMind推出了号称是谷歌史上功能最强大、最通用的多模态模型Gemini 1.0!

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本:

Gemini Ultra——最大、最强的模型,适用于高度复杂的任务。

Gemini Pro——可扩展到各种任务的最佳模型。

Gemini Nano——最高效的设备端任务模型。

谷歌发布的测评报告称,Gemini Ultra在各种任务上超越GPT-4,而Gemini Pro据说与GPT-3.5相当

然而,很快被网友扒出Gemini Ultra在测评时用了很多小动作,疑似“胜之不武”!存在刻意刷榜、夸大性能的嫌疑,演示视频也被扒出是“合成造假” …我们也对这一新闻进行了详细报道谷歌承认Gemini视频是“剪出来”的,想赶超GPT-4想疯了

不止Gemini Ultra超越GPT-4有作假嫌疑,Gemini Pro的性能赶超GPT-3.5也要打一个问号。

来自第三方的卡耐基梅隆大学的学者对OpenAI GPT和Google Gemini模型的语言能力进行深入探讨,测试了包括推理、回答基于知识的问题、解决数学问题、语言翻译、代码生成和指令跟随Agent在内的能力,并公开了可复现的代码和完全透明的结果。

结果发现,Gemini Pro在所有的评估任务中不如GPT 3.5 Turbo,离GPT 4 Turbo更是差了一大截。

论文标题 :
An In-depth Look at Gemini’s Language Abilities

论文链接 :
https://arxiv.org/abs/2312.11444

github代码:
https://github.com/neulab/gemini-benchmark

对此,谷歌甩出了Gemini评测报告并回应说[1],Gemini Pro的性能优于GPT 3.5,而即将于2024年初推出的更强大的版本Gemini Ultra,在谷歌的内部研究中得分高于GPT 4。回应节选如下:

“在我们的技术论文中,我们通过一系列基于文本的学术基准测试,比较了Gemini Pro和Ultra与一套外部LLM和我们之前的最佳模型PaLM 2,这些基准测试涵盖推理、阅读理解、STEM和编程。表2中第7页上的这些结果表明,Gemini Pro的性能优于推理优化模型,如GPT-3.5,与目前可用的最强大的几个模型相当,而Gemini Ultra的性能超过了所有现有模型。特别是Gemini Ultra,在MMLU上,它可以超过所有现有模型,达到90.04%的准确率。它也是第一个超过这个阈值的模型,之前最先进的准确率为86.4%。”

谷歌也承认可能由于数据污染等问题评估的可靠性受到挑战,但已经尽可能保证结果真实可靠了。

‘在这些基准测试上的评估具有挑战性,并可能受到数据污染的影响。我们在训练后进行了广泛的泄露数据分析,以确保我们在这里报告的结果尽可能科学可靠,但我们仍然发现了一些小问题,并决定不报告例如LAMBADA(Paperno等人,2016)的结果。

Gemini评测报告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

让我们先来看看卡耐基梅隆大学这篇报告具体是怎么说的吧~

实验设置

文中进行比较的四个模型Gemini Pro、GPT-3.5 Turbo 、GPT-4 、Mixtral都使用LiteLLM提供的统一接口进行查询。大家对其他三个模型应该都比较熟悉,就不做介绍了,其中Mixtral是一个开源的专家混合模型, 由八个7B参数模型组成,它的准确性与GPT 3.5 Turbo相当,因此也将其列入比较中。作者还列出了每个模型通过API访问的定价:

接下来,我们来看看在每个任务上的详细PK情况吧!

基于知识的问答

数据集选用MMLU,涵盖了科学、技术、工程和数学、人文科学、社会科学等各个主题的多项选择问答题,总共有14,042个测试样本,分别在5-shot下使用标准提示和思维链提示生成答案。

从图1的整体结果来看,Gemini Pro的准确率低于GPT 3.5Turbo,且远低于GPT 4 Turbo。另外,使用思维链引导时性能几乎没有差异。这可能是因为MMLU主要是一个以知识为基础的问答任务,可能无法从更强的推理导向的提示中获得显著的好处。

而在图2中展示了每个模型选择每个多选题答案的次数比例。Gemini偏向于选择最后一个答案“D”,而GPT模型选项分布更加均衡 。这可能表明Gemini在解决多选题方面没有经过严格的指导调整,导致模型在答案排序上存在偏见。

另外,作者进一步深入探讨了Gemini Pro在表现最差/表现最好的任务中的情况。如下图所示,Gemini Pro在多项任务上落后GPT3.5,而胜出的两项任务也仅保持着轻微的优势。

Gemini Pro在特定任务上的表现不佳可能是因为其过强的内容过滤机制造成的。在某些情况下, Gemini无法返回答案,特别是在涉及到潜在非法或敏感材料的情况下。在大多数MMLU子任务中,API响应率大于95%, 但Gemini在moral_scenarios响应率为85%,而在human_sexuality任务中响应率低至28%。其次,Gemini Pro在解决formal_logic和elementary_mathematics任务所需的基本数学推理方面表现较差。

通用推理

评测数据集选用BIG-Bench Hard,有27个不同的推理任务,包括算术推理、符号推理、多语言推理和事实知识理解任务。大多数任务由250个问题-答案对组成。

首先来看看整体准确率,Gemini Pro的准确率略低于GPT 3.5 Turbo,远低于GPT 4 Turbo,而Mixtral模型的准确率要低得多。

然后作者从多个方面分析了Gemini表现不佳的原因。

1.Gemini Pro在更长、更复杂的问题上表现不佳 ,而GPT模型则更具鲁棒性。特别是GPT 4 Turbo,在更长的问题上几乎没有退化,而Mixtral不受问题长度影响,但总体准确率较低。

2.Gemini Pro不擅长做物品状态跟踪 ,比如下图中“交换物品”任务中,在步骤2中物品状态更新错误。

  1. Gemini也有优势科目,比如在一些需要世界知识的任务、操作符号堆栈的任务、按字母顺序排序单词的任务以及解析表格的任务等优于GPT 3.5 Turbo。

数学推理

在数学推理能力上,从下图中可以发现在四项数学推理数据集中,Gemini Pro的准确率略低于GPT 3.5 Turbo。

另外作者比较了模型在生成不同位数答案时的准确性,包括一位、两位、三位数。结果表明,GPT 3.5 Turbo在多位数数学问题上似乎更具鲁棒性,而Gemini Pro的性能有所下降。

代码生成

作者使用两个代码生成数据集 HumanEval 和 ODEX 来测试模型的编码能力。

从下图中可以看到Gemini Pro在两个任务上的性能低于GPT 3.5 Turbo,并远低于GPT 4 Turbo,Gemini的代码生成能力仍有改进的空间。

其次,作者分析了黄金解长度与模型性能之间的关系。解长度在一定程度上可以代表任务的难度,越长的任务越难。在解长度小于100(较简单的案例)时,Gemini Pro能够与 GPT 3.5 达到相当的水平,但当解变得更长时,它却大幅落后。

另外,作者还发现在使用诸如mock、pandas、numpy、datetime的库时,Gemini Pro的表现不如GPT 3.5,而在matplotlib案例中,它的表现超过了GPT 3.5和GPT 4,表明在通过代码进行绘图可视化时具有更强的能力。

机器翻译

作者使用FLORES-200机器翻译基准测试,将任务范围限定为仅从英语翻译为其他语言。还增加了开源机器翻译模型NLLB-MoE和谷歌翻译作对比。

下图分别是在zero-shot和5-shot的比较结果:

▲zero-shot▲5-shot

结果显示,专有的机器翻译系统强于常规的语言模型,在语言模型中,GPT 4 Turbo仍然最能打,即使在低资源语言中也可与专有的机器翻译系统一较高下的能力。而Gemini Pro在8种语言上优于GPT 3.5 Turbo和GPT 4 Turbo,并在4种语言上表现出最佳性能。

然而,Gemini Pro在约10种语言对中呈现出强烈的阻塞回应倾向,即在置信度较低的情况下生成了“Blocked Response”错误,造成最终得分不理想。

▲在阻塞和非阻塞样本上性能

网络导航代理

网络导航代理任务是一个需要长期规划和复杂数据理解的任务。作者使用了基于执行的模拟环境WebArena,给予代理的任务包括信息搜索,站点导航以及内容和配置操作。作者使用带有UA提示的CoT提示和不带UA提示的CoT提示进行测试。所谓带有UA提示就是告诉模型在任务无法完成时终止执行。

总体来看,Gemini-Pro的表现与GPT-3.5-Turbo相比稍微逊色一些。与GPT-3.5-Turbo类似,在UA提示的情况下,Gemini Pro的表现更好,达到了7.09%的成功率。

网络导航代理任务包含了各种网站,可以看到在gitlab和map上,Gemini-Pro的表现不如GPT-3.5-Turbo,而在在shopping admin、reddit和shopping网站上与GPT-3.5-Turbo接近。另外,在多网站任务上,Gemini-Pro表现优于GPT-3.5-Turbo,这说明Gemini在各种基准测试中在更复杂的子任务表现更好。

Gemini-Pro更倾向于将更多任务预测为不可实现,尤其是在给出UA提示的情况下 。给出UA提示时,Gemini-Pro将80.6%的任务预测为不可实现,而GPT-3.5-Turbo则为47.7%。但实际上数据集中只有4.4%的任务是不可实现的,因此两者都过高地预测了实际不可实现的任务数量。

另外,Gemini Pro更倾向于使用较短的短语回应,并在采取较少的步骤得到结论 。如下图所示, Gemini Pro的超过一半轨迹在十个步骤以下, 而GPT 3.5 Turbo和GPT 4 Turbo的轨迹大多在10到30个步骤之间。同样,Gemini的大部分回应长度不超过100个字符,而GPT 3.5 Turbo、GPT 4 Turbo和Mixtral的回应长度大多超过300个字符。

结论

通过以上多个任务的比拼,总结如下:

  1. Gemini Pro在模型大小和类型上与 GPT 3.5 Turbo 相当,但在某些任务表现略逊于GPT 3.5 Turbo。

  2. Gemini Pro相比其他模型存在一些短板,比如在多项选择题中存在回答顺序的偏见、推理步骤较短、由于内容过滤机制严格导致的响应失败等问题。

  3. 当然也有优势:在特别长而复杂的推理任务上,Gemini表现更佳,且在未经筛选的多语种任务上也表现出出色的能力,而GPT 3.5 Turbo则稍逊一筹。

值得一提的是,以上的结论截至到2023年12月19日,且依赖于作者选择的具体提示和生成参数。随着模型和系统的升级,结果随时会发生变化。另外Gemini是一个多模态模型,但是在这个论文中,只关注Gemini在语言理解、生成和翻译 能力上的表现,多模态能力还有待深入探索。

Gemini目前只发布了pro版本,让我们一起期待能与GPT 4一较高下的Gemini Ultra版本发布吧。

参考资料

[1]https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/

‍‍

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具