AI 文摘

大模型“涌现现象”存在吗





作者: 吃果冻不吐果冻皮 来源: 吃果冻不吐果冻皮

####**【点击】加入大模型技术交流群**

原文:https://zhuanlan.zhihu.com/p/677172089

去年年初大家讲涌现讲得比较多,因为大模型存在涌现现象,所以大家都对大模型的发展非常乐观。涌现的本质是有些困难的任务小模型做不了,大模型突然就能做了 ,这自然带给大家对未来乐观的预期:就是说我将来把模型做得更大一点,现在尽管很多事都做不好,但是将来一定能做好,所以说大家非常乐观。去年年初的时候大家讲得比较多,2023年年中出了一篇论文(Are Emergent Abilities of Large Language Models a Mirage?)说涌现是不存在的,把这条线给否掉了,那它到底存在不存在?我有几点看法。

第一,先说那个文章是怎么说这个事的,它是这么说的:如果我选一个不平滑的指标来评估一个任务的性能,比如说任务的准确率,我们就会看到涌现现象,模型小效果就不行,到了一定规模突然就变好了。如果用每个token的错误率,这就是平滑的一个指标,你就看到这个任务随着模型规模的增长,任务效果在平滑地增长,基本上是一个线性的关系。其实2022年已经有论文提出这个猜想了,这个文章我认为它只是说证实了这个猜想而已,这是第一点。

第二,涌现存在不存在呢?我觉得我们要辩证地看这个事。如果在预训练阶段按照这个论文提的,按照每token的错误率来评估Pre training整体效果,这肯定是没问题的,因为你没有具体的任务要去看它解决的好不好。

但是如果我们用它来评估每个具体任务是不太现实的,因为通过这个指标你没法判断每个任务到底好不好、或是否足够好(比如任务是三位数加法,你用每token错误率很难判断目前到底什么情况。假设100道题目,那需要输出大约300个数字,如果按照token错误率,如果300个输出token里错100个,那从每道题是否做对来看,正确率浮动范围很大,正确率在0%(就是每道题目都正好三个输出token里错1个)到66%之间都有可能,但是如果采用正确率就很直观,比如100道题对了70道,就是70%的正确率),所以我们真正看某个具体任务、或者做下游任务的时候肯定还是要看那个任务指标的。

所以涌现存在还是不存在?我觉得这取决于你怎么看这个事,是个看问题的角度问题。就跟从远处看一个人一样,如果你从前面看,比如从“每token错误率”看,那大模型就是没有涌现,指标是平滑增长的,但是你如果从背面看这个人,就是说我从我任务的指标来看,因为我看这个指标才能更好判断目前任务效果到底怎么样了,那你说涌现存在吗?其实还是存在的,也就是说模型小的时候我看就是不行,到了一定规模突然那个指标就上去了。所以我觉得它存在不存在取决于你从哪个角度看,人是同一个人,不同角度看上去差异就很大,所以是同一个事情的“一体两面”,而不是非此即彼,这是我的第二个看法。

第三,涌现本身的价值在哪儿?或者说我们对涌现的期望在哪儿?就像我刚才讲的,我们对涌现的本质期望是说希望我们将来把模型做大,它能把现在没有做好的做好。是这个,这篇论文它否认这个现象了吗?并没有,它只是解释一个现象而已。即使文章是完全正确的,并不妨碍我们得出这么一个结论:随着模型规模的增大,涌现是说原先不能做的突然间能做了,现在的结论是说随着模型的推大,以前做不好的我可以慢慢地做好,将来会做得越来越好,所以它并没有推翻我们对涌现的预期。所以从这个角度,我认为其实这个文章它只是对为什么我们会看到突变现象的一个解释,我记得我去年3月份也做过相关的分享,那时候也提到过这个猜想,所以说关于文章中这个解释我是赞成的,这个工作也是非常好的工作。但是这个事情我们还是要辩证全面地去看,不能说因为有人说涌现现象,就都很激动觉得大模型无所不能把它神秘化,也不能改天因为一篇文章否认涌现的存在,就认为它完全不存在,最好不要两极化走极端,这是我的第三点看法。

历史文章:2023年12月大模型文章集锦

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具