AI 文摘

大神的诞生:OpenAI首席科学家Ilya·GPT-3发布前夕深访全纪录


  • By AiBard123
  • September 26, 2023 - 2 min read



作者: Web3天空之城 来源: Web3天空之城

前言:

Ilya Sutskever,OpenAI联创和首席科学家, 被Elon Musk称之为“缺少他OpenAI绝不可能成功”的男人,在2020年 GPT3发布之前,还只是AI圈子里的传说。当GPT-3以及后续ChatGPT引爆了全球热情之后, Ilya就成为了全球公众眼里神一般的人物。

可惜的是, 因为现在OpenAI已经成为了“Close AI”,Llya已经很少在公众场合谈话,即使偶尔出来,所讲内容也都蜻蜓点水一般。

而在2020年5月初,正是在具有划时代意义的GPT-3发布前一个月(GPT-3于2020.6.10发布),Ilya做了一次90分钟的深度访谈,内容非常干货扎实,我们可以从中完整理解,当下AI第一大神对AI的完整思考。

完整中文版视频传送门:

*【“当大神在诞生”OpenAI首席科学家Ilya 于GPT-3发布前夕深度访谈【中英精校】-哔哩哔哩】 *

https://b23.tv/iM9y6Oc

*=以下是本城根据谈话内容全文重写整理,全文2.3w字=

主持人Lex:以下是与Ilya Sutskever的对话,他是OpenAI的联合创始人和首席科学家,也是历史上被引用次数最多的计算机科学家之一,拥有超过165,000次引用。在我看来,他是深度学习领域有史以来最聪明、最有洞察力的人之一。在这个世界上,很少有人能像Ilya一样,让我如此愿意与之交谈和探讨深度学习、智能和生活等方面的问题,无论是在麦克风前还是麦克风外。这是一种荣誉和乐趣。

你是著名的AlexNet论文的三位作者之一,与Alex Krizhevsky、Geoff Hinton共同完成。这篇论文可以说是标志着深度学习革命开始的重大催化时刻。回到那个时候,你对神经网络、神经网络的表示能力有什么直觉?也许你可以提到在接下来的几年里,直到今天,这10年间,这种直觉是如何演变的?

是的,我可以回答这个问题。在2010年或2011年的某个时候,我在脑海中联系了两个事实。基本上,我的意识到是这样的。在某个时刻,我们意识到我们可以使用反向传播端对端训练非常大的–我不应该说非常大,按今天的标准来说,它们是微小的,但足够大且深度的神经网络。不同的人得到了这个结果。

James Martens在2010年发明了Hessian自由优化器,并且首次从头开始,不预训练就训练了一个10层的神经网络时,我第一次意识到深度神经网络是有力的。当发生这种情况时,我想,这就是了。因为如果你可以训练一个大的神经网络,一个大的神经网络可以表示非常复杂的函数。因为如果你有一个10层的神经网络,就好像你让人脑运转了一段时间。神经元的火花是缓慢的,所以在大概100毫秒内,你的神经元只会火花10次。所以它也有点像是10层。在100毫秒内,你可以完美地识别任何对象。所以我当时就有了这个想法,我们需要在大量的监督数据上训练一个非常大的神经网络。然后它必定会成功,因为我们可以找到最好的神经网络。

还有一种理论认为,如果你有的数据比参数多,你就不会过拟合。现在我们知道,实际上这个理论是非常不完整的,即使你有的数据比参数少,你也不会过拟合。但肯定的是,如果你有的数据比参数多,你就不会过拟合。

所以,神经网络被大量的超参数化并没有让你感到气馁?所以你是在思考关于参数数量的理论,认为有大量的参数是可以接受的,会没问题的吗?

之前有一些证据显示这是可以的,但是理论上最主要的是,如果你有一个大的数据集和一个大的神经网络,它会起作用。超参数化并没有真正成为一个问题。我认为,对于图像,你只需添加一些数据增强就可以了。那么,有什么疑虑呢?主要的疑虑是,我们是否有足够的计算能力来训练一个足够大的神经网络?用反向传播。我认为反向传播会起作用。之前并不清楚的是,我们是否有足够的计算能力得到令人信服的结果。然后,Alex Krizhevsky编写了一些用于训练卷积神经网络的非常快速的OODA内核,于是我们开始着手进行ImageNet的训练,这将是最伟大的事情。

大部分直觉是来自于你自己和其他人的实证结果吗?比如,实际证明一个程序可以训练一个10层的神经网络?还是有一些笔和纸或者白板的思考、直觉?因为你刚刚将一个10层的大型神经网络与大脑连接了起来。所以你提到了大脑。在你对神经网络的直觉中,人脑是否作为一种直觉的构建者?

当然。我们在人工神经网络和大脑之间的类比上必须要准确。但毫无疑问,大脑一直是深度学习研究人员的巨大灵感源泉,自上世纪60年代的Rosenblatt以来一直是如此。整个神经网络的概念直接受到大脑的启发。有像麦卡卢姆(McCallum)和皮茨(Pitts)这样的人说,你们看,大脑中有这些神经元,我们最近了解了计算机和自动机。我们能否利用计算机和自动机的一些理念设计出一种简单、计算性强、类似大脑的计算对象?于是他们发明了神经元。所以他们当时就受到了启发。然后,你有来自福岛(Fukushima)和后来的Yann LeCun的卷积神经网络,他们说,如果你限制神经网络的感受野,它会特别适合图像,事实证明确实如此。所以,大脑的类比成功的例子非常少。我认为,如果你仔细观察,人工神经元和大脑之间可能没有那么大的差别。所以我们就假设它们是一样的,然后继续研究。

现在我们处在一个深度学习非常成功的时代。那么我们不再细究,睁大眼睛看看,对你来说,人脑和人工神经网络之间有趣的差异是什么呢?现在,我知道你可能不是专家,既不是神经科学家也不是生物学家,但是宽泛地说,人脑和人工神经网络之间有趣的差异是什么,这对未来十年或二十年来说很重要?

这是一个好问题。人脑和我们的人工神经网络之间有什么有趣的差异呢?我觉得今天的人工神经网络,我们都认为在某些方面人脑远远超过了我们的模型。但我也认为,我们的人工神经网络在一些方面有很多非常重要的优势。比较优势和劣势是找出重要差异的好方法。大脑使用的是脉冲,这可能是也可能不是重要的。

这真的是一个有趣的问题。你认为这重要还是不重要?

这是人工神经网络与大脑之间的一个重大架构差异。这很难说,但我的先验认知不是很高,我可以解释为什么。有些人对脉冲神经网络感兴趣,基本上他们发现的是,他们需要在脉冲中模拟非脉冲神经网络。这是他们能够使之工作的方法。如果你不在脉冲中模拟非脉冲神经网络,它是不会工作的,因为问题是,为什么它应该工作呢?这涉及到关于反向传播和深度学习的问题。你有这个巨大的神经网络。为什么它应该起作用呢?为什么学习规则应该起作用呢?这不是一个不言自明的问题,尤其是如果你刚刚进入这个领域,你读了一些早期的论文,你会说,人们说,我们要建立神经网络。这是个好主意,因为大脑是一个神经网络,所以建立神经网络会很有用。现在,我们来弄清楚如何训练它们。应该有可能训练它们,但是如何训练呢?所以大的想法是代价函数。这是个大想法。代价函数是一种衡量系统性能的方法。

实际上,让我想想。这是一个很难得到的想法吗,代价函数这个概念有多大呢?抱歉,让我停一停。监督学习这个概念很难得到吗?所有的概念事后看起来都很简单。这就是为什么它现在看起来很微不足道,但我之所以这么问,是因为还有其他的东西吗?有没有一些不一定有代价函数,可能有很多代价函数,或者可能有动态的代价函数,或者可能有完全不同类型的架构的东西?因为我们必须这样思考,才能得到一些新的东西,对吧?

没有明确代价函数的好例子是GANs。在GAN中,你有一个游戏。所以你不是在考虑代价函数,你知道你有一个算法,梯度下降,它会优化代价函数,然后你可以根据它优化的内容推断出系统的行为。对于GAN,你会说,我有一个游戏,我会根据游戏的平衡来推断系统的行为。但这一切都是关于提出这些数学对象来帮助我们推理系统的行为。这确实很有趣。

是的,GAN(生成对抗网络)是唯一的。它有点像…成本函数是从比较中产生的。我不知道它是否有成本函数。我不知道讨论GAN的成本函数是否有意义。这有点像讨论生物进化或经济的成本函数。你可以讨论它会趋向于哪些区域,但我不认为成本函数的类比是最有用的。

这真的很有趣。所以,如果进化真的没有类似于我们数学概念中的成本函数,那么你认为深度学习中的成本函数在阻碍我们吗?是的,你刚刚提到了成本函数是一个很好的首要深刻的想法。你认为这是一个好主意吗?你认为我们会超越这个想法吗?

自我对弈(self-play)在强化学习系统中已经开始涉及到这一点了。没错。自我对弈和探索的理念,你试图采取一些行动来惊讶预测器。我非常喜欢成本函数。我认为成本函数很好,为我们服务得很好。我认为,每当我们可以用成本函数做事情时,我们都应该这样做。也许,我们会找到一种新的深刻的看待事物的方式,这种方式不会如此核心地涉及到成本函数。但我不知道。我不会打赌反对成本函数。

关于大脑,你有没有什么东西浮现在脑海中,对我们在设计人工神经网络时考虑可能是不同的和有趣的?

所以我们谈了一点关于脉冲的事情。有一件可能会有用的事情,我认为,神经科学家已经找出了一些关于大脑的学习规则,或者我在说关于脉冲时间独立可塑性的事情,如果有人能在模拟中研究那将会很好。

等一下,抱歉。脉冲时间独立可塑性是什么?

这是一种特定的学习规则,它使用脉冲时间来确定如何更新突触。如果一个突触在神经元发射之前向神经元发射,那么它会加强突触。如果突触在神经元发射后不久向神经元发射,那么它会削弱突触。这大致是这样。我有90%的把握这是对的,所以如果我说错了什么,不要太生气。

但你在说的时候听起来很聪明。但时间,那是缺失的一件事。时间动态没有被捕获。我认为,大脑的一个基本属性就是信号的时序。你有递归神经网络。但你认为,那是一个非常粗糙的简化了的,递归神经网络有一个时钟,我猜。看起来大脑是那个的连续版本,是一般化的,所有可能的时序都是可能的,然后在这些时序中包含了一些信息。你认为递归神经网络的递归能捕获大脑中神经元的发射时序似乎很重要的相同类型的现象吗?

我认为递归神经网络是惊人的,它们可以做,我认为它们可以做任何我们希望它们做的,我们希望一个系统做的事情。现在,递归神经网络已经被transformer模型取代了,但也许有一天它们会卷土重来,也许它们会回来,我们会看到。

让我稍微离题一下,你认为它们会回来吗?最近我们将在自然语言处理和语言建模上讨论的很多突破都是与不强调递归的Transformer模型有关的。你认为递归会卷土重来吗?

某种形式的递归,我认为,非常有可能。递归神经网络,因为它们通常被认为用于处理序列,我认为也是可能的。

对你来说,什么是递归神经网络?

什么是递归神经网络?你有一个神经网络,它维持着一个高维的隐藏状态,然后当一个观察到达时,它通过它的连接以某种方式更新它的高维隐藏状态。所以你认为,那是专家系统所做的,对吧?符号AI,基于知识的,增长知识库是维持一个隐藏状态,这是它的知识库,并通过顺序处理来增长它。

您是否更一般地以这种方式考虑它,或者它仅仅是我们今天在LSTM等中考虑的具有某些门控单元的隐藏状态的更受限形式?您刚刚描述的隐藏状态技术上是进入LSTM或RNN或类似之物的隐藏状态。但是,如果您想做专家系统类比,我不是很确定,您可以说知识储存在连接中,然后短期处理是在隐藏状态中完成的。能这么说吗?因此,您认为未来有在神经网络内建立大规模知识库的可能性吗?

绝对有可能。那么,我们在这个确定性中暂停一下,因为我想探索一下,但让我回头谈谈ImageNet的历史。正如您提到的,神经网络已经存在了几十年。您认为是什么关键思想导致了它们的成功,即ImageNet时刻以及过去10年的成功?

好的,所以问题是,为了确保我没有错过任何内容,过去10年深度学习成功的关键思想是什么?

确实,尽管深度学习背后的基础事物已经存在了很长时间。所以关于深度学习的关键思想,或者更准确地说,在深度学习开始成功之前深度学习的关键事实是,它被低估了。从事机器学习工作的人简单地认为神经网络无法做很多事情。人们不相信可以训练大型神经网络。人们认为,机器学习中存在着很多关于什么是正确方法等的争论,人们争论是因为没有办法获得硬性事实,没有真正困难的基准,如果您在这些基准上表现得很好,那么您可以说,看,这是我的系统。这时,这个领域变得有点更像是工程领域。因此,在回答这个问题时,这些思想都存在。

缺少的东西是大量的有监督数据和大量的计算能力。一旦您拥有大量的有监督数据和大量的计算能力,那么还需要第三样东西,那就是信念。确信如果您采取已经存在的正确材料并将其与大量的数据和计算能力结合应用,那么它实际上会奏效。

因此,这是缺失的一部分。您需要数据,您需要以GPU的形式出现的计算能力,您需要确信您需要将它们结合在一起。

这真的很有趣。所以我猜计算能力和有监督数据的存在使得实证证据能够说服计算机科学界的大多数人。所以我猜有一个关键时刻,他们是非常怀疑的,对吧?然后有一个Geoffrey Hinton完全不怀疑。有一个说服的时刻,我认为EmissionNet就是那个时刻。

没错。它代表了计算机视觉社区的大型支柱这种情况…巫师聚集在一起,然后突然之间发生了转变。仅有所有的思想和计算能力存在是不够的,它是为了说服存在的怀疑主义。有趣的是,人们几十年来只是不相信。是的,但不仅如此。这种方式讲述起来,听起来那些不相信的愚蠢人失去了什么。但实际上,情况很混乱,因为神经网络确实没有在任何事情上工作。它们也不是几乎任何事物上的最佳方法。说,是的,这东西没有任何吸引力是相当理智的。这就是为什么您需要有这些非常困难的任务,它们产生无可否认的证据。这是我们取得进展的方式。这就是为什么这个领域今天正在取得进展,因为我们有这些代表真正进展的硬基准。这就是为什么我们能够避免无休止的争论。

您非常了不起,为人工智能领域,包括计算机视觉、语言、自然语言处理、强化学习以及介于这些之间的各个方向贡献了一些最重大的最新思想。也许生成对抗网络(GANs)除外。有没有您没有涉猎过的主题呢?当然,还有深度学习的基础科学。对您来说,在视觉、语言和强化学习行动中,学习问题之间的区别是什么?它们之间有什么共性呢?您认为它们都是相互联系的吗?还是说它们本质上是需要不同方法的不同领域?

这是个好问题。机器学习是一个具有很多统一性的领域,极其统一。

你说的统一是什么意思?意味着理念的重叠吗?

理念的重叠,原则的重叠。实际上,只有一两三个非常简单的原则。然后它们几乎以相同的方式应用于不同形式的不同问题。这就是为什么如今,当有人在计算机视觉领域发表关于深度学习优化的改进论文时,它会改善不同的自然语言处理应用,也会改善不同的强化学习应用。所以我会说,计算机视觉和自然语言处理非常相似。

今天,它们的不同之处在于它们有稍微不同的架构。我们在自然语言处理中使用Transformer,在视觉中使用卷积神经网络。但也有可能有一天这会改变,一切都会用一个统一的架构来实现。因为如果你回到几年前的自然语言处理,每个不同的小问题都有大量的架构。今天,所有这些不同的任务只有一个Transformer。如果你再往回看,你会发现更多的碎片化,人工智能中的每个小问题都有自己的小专业化领域和一小部分人,他们知道如何设计特征。现在,这一切都被深度学习所包含。我们实现了这种统一。

因此,我预计视觉会与自然语言也实现统一。或者,我不应该说预计。我认为这是可能的。我不想过于肯定,因为我认为卷积神经网络在计算上非常高效。

强化学习是不同的。强化学习确实需要一些稍微不同的技术,因为你确实需要采取行动。你确实需要去探索。你的方差要高得多。但我认为即便在这里也存在很多的统一性。而且我预计,在某个时候,会有一些强化学习和监督学习之间的广泛统一,其中强化学习将做出决策,使监督学习变得更好。它将会是一个大的黑盒子,你只需把一切扔进去,它就会弄清楚该怎么处理你扔进去的任何东西。

强化学习几乎集合了语言和视觉的一些方面。它应该利用长期记忆的元素,它有一个非常丰富的感官空间。所以它看起来像是它们两者的结合体或类似的东西。我会稍微不同地说。我会说,强化学习既非此也非彼,但它自然地与它们两者接口并整合。

你认为行动是从根本上说不同的吗?所以,有趣的是,学习行动的策略有什么独特之处呢?例如,当你学会行动时,你基本上处于一个非静态的世界,因为随着你的行动改变,你看到的事物开始改变。你以不同的方式体验世界,这在更传统的静态问题中是不存在的,那里你有一些分布,你只是对那个分布应用一个模型。你认为这是一个从根本上不同的问题,还是说它只是理解问题的一个更困难的泛化?

这几乎是一个定义问题。肯定有很多共性。你在两种情况下都采取梯度,你试图在两种情况下近似梯度。在强化学习的情况下,你有一些工具来减小梯度的方差。你这么做。有很多共性。在两种情况下,你都使用相同的神经网络。你计算梯度,在两种情况下都应用Adam。所以,当然有很多共同之处,但也有一些不完全无关紧要的小差异。这真的取决于你的观点,你在观察这些问题时要放大或缩小多少。

那么,您认为哪个问题更难呢?像诺姆·乔姆斯基这样的人认为语言是一切的基础,它潜在地支撑着一切。您认为语言理解比视觉场景理解更困难,还是反之?我认为问一个问题是否困难是有些不妥的。我觉得这个问题有点问题,我想解释一下原因。那么,一个问题难的意义是什么呢?对此的无趣且愚蠢的答案是,有一个基准,有一个人类水平的基准表现。那么,要达到人类水平的基准需要多大的努力?从我们离达到一个非常好的基准的人类水平还有多远的角度来看?

是的,我明白您的意思。所以我要说的是,很多时候这取决于,一旦您解决了一个问题,它就不再困难了。这总是成立的。所以,某事物是否困难取决于我们现在的工具能做什么。那么,您会说,现在,真正的人类水平语言理解和视觉感知是困难的,因为在接下来的三个月里,没有完全解决问题的办法。

我同意这个说法。除此之外,我的猜测和您的一样准确,所以您对语言理解有多困难没有根本性的直觉?

我想,我改变了主意。我会说语言可能会更难。这取决于您如何定义。像如果您的意思是绝对的,顶尖的,100%的语言理解,我会选择语言。但是,如果我给您看一张纸上的字母,那是,您明白我的意思吗?您有一个视觉系统,您说这是最好的人类水平视觉系统。我给您看,我打开一本书,给您看字母。它会理解这些字母是如何组成单词和句子和含义的吗?这是视觉问题的一部分吗?视觉在哪里结束,语言在哪里开始?是的,乔姆斯基会说它从语言开始。所以视觉只是一种在我们的大脑中以某种方式通过语言表示的结构和基本思想层次的小例子。但是,视觉在哪里停止,语言在哪里开始?这真是个非常有趣的问题。

所以一种可能性是,要在图像或语言中实现真正深刻的理解,基本上需要使用同样类型的系统。所以您将免费获得另一种。我认为很有可能,如果我们能得到其中一个,我们的机器学习可能已经足够好,可以得到另一个。但我不能100%确定。

而且,我认为这确实很大程度上取决于您的定义。定义是什么?完美的视觉。因为,阅读是视觉的一部分,我的定义是,如果一个系统看了一张图片,然后系统看了一段文本,然后告诉我一些事情,我感到非常震惊。那是相对的。您会半小时内感到震惊,然后您会说,所有系统都这样做。

但我对人类没有这种感觉。人类一直让我印象深刻。我是一位一夫一妻制的支持者。所以我喜欢和某人结婚,和他们在一起几十年的想法。所以我相信,是的,有可能有人不断地给你带来愉快的,有趣的,机智的新想法,朋友。是的,我认为如此。他们会继续给你带来惊喜。惊喜,那种随机性的注入似乎是一个很好的,持续的灵感来源,就像机智,幽默。我想,这是一个非常主观的测试…

是的,我明白您的意思。是的,我觉得我误解了您对打动您的意思。我以为您是说用它对图像的理解程度,用它的智能来打动您。我以为您是说类似于,我会给它展示一个非常复杂的图像,它会猜对,您会说,哇,这真的很酷。我们2020年1月的系统还没有做到这一点。

所以就像幽默或机智或洞察力一样。我相信我们也会得到这一点。所以原谅这个浪漫化的问题,但回顾一下,您认为在深度学习或AI领域,您遇到的最美丽或令人惊讶的想法是什么?

我认为深度学习最美丽的事物是它真的有效。我这么说是因为您有这些想法,您有小型神经网络,您有反向传播算法,然后您有一些理论,这有点像大脑。所以也许,如果您让神经网络变大,如果您在大量数据上训练它,那么它将执行大脑所做的相同功能。结果证明是真的。这太疯狂了。

现在,我们只是训练这些神经网络,让它们变得更大,它们就会变得越来越好。我觉得这简直难以置信。这整个利用神经网络的AI的运作,我都觉得难以置信。

您是否建立了一种直觉,为什么这整个事物会起作用,有没有一些直觉或见解的碎片?

我想,确实有一些。我们知道,优化是行得通的,我们现在有很多实证的理由,让我们相信大多数我们关心的问题上优化都应该有效。

您有为什么会这样的见解?你刚说了实证证据。所以大多数这种实证证据都让您信服吗?

这就像进化论是实证的。它告诉你,看,这个进化过程似乎是设计适应环境的有机体的好方法。但它真的没有让你了解整个事物是如何运作的。我认为一个好的类比是物理学。你会说,让我们做一些物理计算,提出一些新的物理理论,做一些预测。但然后你得进行实验。你得进行实验。这很重要。所以这里也有点类似,除了也许有时候实验在理论之前进行,但情况仍然如此。

你有一些数据,你提出一些预测。你会说,是的,让我们制作一个大型神经网络,让我们训练它。它会比以前任何东西都要好得多。而且事实上,随着你使它变得更大,它将继续变得更好。结果证明是真的。这真是令人惊奇,一个理论被这样验证,这不是一个数学理论,更像是一个生物学理论。所以我认为深度学习和生物学之间的类比并非都是不恰当的。我会说深度学习就像是生物学和物理学的几何平均。那是深度学习。生物学和物理学的几何平均。

我想我需要几个小时来理解这个。因为,只是要找出生物学代表的那套东西。嗯,生物学中,事物真的很复杂。而理论真的非常难以具有很好的预测性。而在物理学中,理论太过完美了。物理学家提出了这些超精确的理论,做出了惊人的预测。而在机器学习中,我们介于两者之间。介于两者之间,但如果机器学习能帮助我们发现两者的统一而不是介于两者之间,那会很好。但你说得对。你在试图两者兼顾。那么,您认为神经网络中还有未被发现的美丽和神秘的属性吗?

绝对有。我认为我们仍然在很大程度上低估了深度学习。

您认为它会是什么样子?

如果我知道的话,我已经做到了。但如果您看看过去十年的所有进展,我会说其中大多数,确实有一些新的想法出现的情况。但总体而言,我们每年都认为,深度学习到此为止了。不,实际上它能走得更远。然后第二年,现在这是深度学习的巅峰了。我们真的完成了。不,它还能走得更远。它每年都在不断向前发展。这意味着我们一直在低估。我们一直没有理解它。它一直都有令人惊讶的属性。

您认为取得进展变得越来越难了吗?需要取得进展吗?

这取决于您的意思。我认为这个领域将会继续稳健地发展很长一段时间。对于个体研究人员,尤其是那些正在进行研究的人来说,可能会更困难,因为现在研究人员非常多。我认为,如果您有大量的计算资源,那么您可以进行很多有趣的发现,但然后您需要应对管理巨大的计算集群来运行实验的挑战。这有点困难。

所以我在问这些没人知道答案的问题,但您是我认识的最聪明的人之一,所以我会继续问。那么,让我们想象一下,在未来30年中深度学习领域发生的所有突破。您认为大部分的这些突破可以由一个人用一台计算机完成吗?在突破领域,您认为计算和大规模努力会是必要的吗?

我不能确定。当你说一台计算机时,你是指多大的计算机?

啊,你真机智。一个GPU。

我明白了。我认为这相当不太可能。我认为这相当不太可能。我认为深度学习的技术栈开始变得相当深了。如果你看看,从构建数据集的想法、系统,到分布式编程,构建实际的集群,GPU编程,将所有这些整合在一起。所以现在这个技术栈变得真的很深了。我认为对于一个人来说,在技术栈的每一个层面都做到世界级是相当困难的。

关于Vladimir Vapnik坚持采用MNIST并尝试从很少的例子中学习,以更有效地学习,您认为在这个领域会有突破,而这可能不需要巨大的计算吗?

我认为总体上会有很多不需要大量计算的突破。所以,也许我应该澄清这一点。我认为一些突破会需要大量的计算。并且我认为构建实际执行任务的系统会需要大量的计算。这一点是相当明显的。如果你想做X,而X需要一个巨大的神经网络,你就得获得一个巨大的神经网络。但我认为会有很多,我认为有很多小团体和个人可以完成的非常重要的工作的空间。

能否在深度学习的科学主题上谈论一下您最近发表的一篇论文,即深度双下降,其中更大的模型和更多的数据会受到伤害。我认为这是一篇非常有趣的论文。您能描述一下主要思想吗?

是的,当然。所以情况是,这些年来,一些研究人员注意到,当你使神经网络变大时,它的性能会变得更好,这似乎与统计学的理论相矛盾。然后有些人进行了分析,显示实际上出现了这个双下降现象。我们所做的就是显示实际上几乎所有的实用深度学习系统都会出现双下降现象。

所以你能退后一步吗?双下降图的X轴和Y轴是什么?

好的,很棒。所以,你可以做一些事情,比如,你可以拿一个神经网络,然后慢慢地增加它的大小,同时保持你的数据集不变。所以,如果你慢慢地增加神经网络的大小,而且如果你不进行早停,这是一个相当重要的细节,那么当神经网络真的很小的时候,你使它变大,你会得到性能的非常快速的提高。然后你继续使它变大。在某个时刻,性能会变差。并且在它达到零训练错误,精确的零训练损失的时候,性能变得最差。然后当你继续使它变大时,它开始再次变得更好。

这有点违反直觉,因为你会期望深度学习的现象是单调的。而且很难确定它意味着什么,但它也出现在线性分类器的情况下。基本上直觉可以归结为以下几点。当你有一个大的数据集和一个小的模型时,然后小的、微小的、随机的…

所以,基本上,什么是过拟合?

过拟合是当你的模型以某种方式对数据集中的小的、随机的、不重要的东西非常敏感时。确切地说,在训练数据集中。所以,如果你有一个小模型,你有一个大数据集,可能会有一些随机的东西,一些训练案例可能会随机地出现在数据集中,而其他的可能不会。但小模型对这种随机性是相当不敏感的,因为当数据集很大时,模型基本上没有不确定性。

所以,在最基本的层面上,对我来说,最令人惊讶的事情是,神经网络不是每次都很快过拟合,而是在能够学到任何东西之前。参数的数量非常庞大。所以有一种方式。让我试着给出解释,也许那会有用。所以你有一个巨大的神经网络。假设你有一个巨大的神经网络,你有大量的参数。现在让我们假设一切都是线性的,实际上并非如此。就这样假设。然后这里有一个大的子空间,你的神经网络在这个子空间内达到零错误。SGD会找到在该子空间内近似最小范数的点。并且这也可以被证明在数据的维度很高时对数据中的小随机性是不敏感的。但是当数据的维度等于模型的维度时,所有的数据集和模型之间都存在一一对应的关系。

所以数据集的小变化实际上会导致模型的大变化,这就是为什么性能会变差。所以,这大致是最好的解释。所以,模型的参数会更多,所以比数据更大会更好。

您是对的。但这仅在您不早停的情况下适用。如果您在正则化中引入早停,您几乎可以完全消除双下降现象。

什么是早停?早停是指您训练模型时,并监控验证性能。然后,如果某一时刻验证性能开始变差,您就会说,好的,我们停止训练,这已经足够好了。所以,魔法就发生在那一刻之后,因此您不想早停。如果您不进行早停,您会得到一个非常明显的双下降。

您对为什么会发生这种情况有直觉吗?

双下降?所以…嗯,对。所以我试着…让我们看看。直觉基本上是这样的,当数据集与模型有同样多的自由度时,它们之间存在一一对应的关系。因此,对数据集的小改变会导致模型的显著变化。所以,您的模型对所有的随机性都非常敏感。它无法抛弃这些随机性。然而,事实证明,当您拥有比参数多得多的数据,或者比数据多得多的参数时,由此产生的解决方案将对数据集中的小变化不敏感。

所以,它能够,我们可以很好地说,抛弃小的变化,随机性。确切地说,这是您不希望的伪相关性。杰夫·辛顿(Jeff Hinton)建议我们需要重新考虑反向传播。我们已经稍微讨论过这个问题了,但他建议我们完全抛弃反向传播,重新开始。当然,这有点是智慧和幽默的结合,但您怎么看?训练神经网络有什么替代方法?

嗯,他确切地说的是,由于我们在大脑中找不到反向传播,值得看看我们是否能从大脑学习的方式中学到一些东西。但反向传播非常有用,我们应该继续使用它。

哦,您是在说,一旦我们发现大脑中的学习机制或任何方面的机制,我们也应该尝试在神经网络中实现它?

如果我们在大脑中找不到反向传播的话。如果我们在大脑中找不到反向传播。嗯,所以我猜您对此的回答是反向传播非常有用。那我们为什么还要抱怨呢?

我个人非常喜欢反向传播。我认为这是一个伟大的算法,因为它解决了一个极其基础的问题,即在一些约束条件下找到一个神经回路。而我不认为这个问题会消失。所以,这就是为什么我认为我们之间不太可能有什么巨大的不同。这可能会发生,但我现在不会打赌。

所以,让我问一个大致的问题。您认为神经网络能够推理吗?

为什么不能呢?嗯,如果您看一下AlphaGo或AlphaZero,AlphaZero的神经网络比99.9%的人类更擅长下围棋,我们都同意围棋是一种需要推理的游戏。仅仅是神经网络,不使用搜索,只是神经网络本身。这难道不给我们提供了一个存在证明,证明神经网络能够推理吗?

稍微反驳并不同意一点,我们都同意围棋是推理。我认为我同意。我不认为这是一个琐碎的……显然,推理和智能有点像是一个模糊的灰色地带。也许您不同意这一点。但是,是的,我认为它具有一些相同的推理元素。推理几乎类似于搜索,对吧?这是一个顺序的元素,逐步考虑可能性,并在这些可能性的基础上顺序建立,直到您获得一些洞见。所以,是的,我猜下围棋就是这样。当您有一个单一的神经网络在没有搜索的情况下做这件事时,这就是这样的事情。所以,在一个特定的受限环境中,存在一种许多人称之为推理的过程。但更一般的推理,就是说,离开棋盘。还有另一个存在证明。

那么,您认为将允许神经网络推理的架构是否会与我们今天拥有的神经网络架构相似?

我认为会。我不想做出过于绝对的声明。我认为未来产生推理突破的神经网络架构很可能与今天存在的架构非常相似。也许更多的是循环的,也许更深一些。但这些神经网络是如此强大。为什么它们不能学会推理呢?人类可以推理,为什么神经网络不能呢?

所以您认为我们看到神经网络做的事情只是一种弱推理?所以,这不是一个根本不同的过程?

再次强调,没有人知道这个问题的答案。当谈到我们的神经网络时,我想说的是,神经网络具有推理能力。但是,如果你训练神经网络执行不需要推理的任务,它就不会进行推理。这是一个众所周知的效应,即神经网络会以可能的最简单的方式解决你摆在它面前的问题。

对,这让我们想到了你描述神经网络的一种绝妙方式,你将神经网络称为寻找小电路的过程,而将通用智能视为寻找小程序的过程,这个比喻我觉得非常引人入胜。你能详细解释一下这种差异吗?

是的。所以,我确切地说过,如果你能找到最短的能输出你手头数据的程序,那么你将能够用它做出最佳的预测。这是一个可以数学证明的理论声明。现在,你也可以数学证明,找到生成某些数据的最短程序不是一个可计算的操作。没有有限量的计算能力能做到这一点。

因此,对于神经网络来说,神经网络是实际上可行的次优方案。我们无法找到生成我们的数据的最佳、最短程序,但我们能够找到以某种方式适应我们数据的小(现在应该修正为大)电路。我认为,你所说的小电路是指最小所需电路。我现在会改变的一点是,那时我还没有完全内化过参数化的结果,我们对过参数化神经网络的了解,现在我会把它描述为一个大电路,其权重包含少量信息,我认为这就是实际情况。如果你把神经网络的训练过程想象成你慢慢地从数据集传递熵到参数,那么权重中的信息量最终不会很大,这就解释了它们为什么能够如此好地泛化。所以,大电路可能有助于泛化。

是的,就是这样。但你认为尝试学习类似程序的东西重要吗?

如果我们能做到,当然了。我认为答案大概是肯定的,如果我们能做到的话。我们应该做我们能做的事情。我们之所以推崇深度学习,根本原因、根源在于我们能够训练它们。换句话说,训练是首要的。我们有了训练这个支柱。现在我们正试图将我们的神经网络围绕训练支柱扭曲。我们必须保持可训练性。这是我们不能违反的不变性。因此,保持可训练性意味着从零开始,一无所知。你实际上可以相当快地收敛到知道很多,甚至慢慢地。但这意味着,鉴于你手头的资源,你可以训练神经网络,使其达到有用的性能。

是的,我们不能离开这个支柱。没错。因为如果你说,让我们找到最短的程序。我们做不到。所以,无论那会有多有用,都没关系。我们做不到。所以我们不会做。那么,你认为,你提到神经网络擅长寻找小电路或大电路。那么,寻找小程序的问题就只在于数据吗?

不是。抱歉,不是大小或性质,而是数据的类型。比如说,给它程序。我认为现在的情况是,还没有好的先例表明人们真正能够很好地找到程序。因此,你找程序的方式就是训练一个深度神经网络来做得更好。基本上是这样。对,这是正确的方法。但还没有好的例证。这还没做到。但从原理上讲,这应该是可能的。

你能详细解释一下吗?从原理上讲,你有什么见解?换句话说,你不明白为什么这是不可能的。

这更像是一个声明,我认为,我认为对深度学习持怀疑态度是不明智的。如果这是人类似乎能够做到的一种认知功能,那么,不久就会出现某个能做到这一点的深度神经网络。

是的,我和你在一起。我可以,到现在为止,我已经停止对神经网络持怀疑态度了,因为它们一直在给我们带来惊喜。那么长期记忆呢?神经网络能够拥有长期记忆或类似知识库吗?也就是说,能够在长时间内积累重要信息,然后作为有用的状态表示,以便你可以依此做出决策。

所以,根据你所做的决定,有一个长期的上下文。从某种意义上说,参数已经做到了这一点。参数是神经体验的全部的聚合。因此,它们被视为长期知识。人们已经训练了各种神经网络来充当知识库,人们已经研究了语言模型作为知识库。

是的,确实有相关的研究工作在进行。你认为这完全只是一个问题,找到一种更好的机制来遗忘无用的东西,记住有用的东西吗?

因为目前,还没有机制能够准确地记住长期的信息。*“准确地”是什么意思?*我确实喜欢“准确”这个词。所以我在想,这种压缩信息的方式,就像知识库所代表的,创建一种,现在我为我以人为本的思考方式道歉,因为神经网络不一定能解释他们发现的知识类型。但对我来说,一个很好的例子就是知识库,能够随着时间的推移建立起类似维基百科所代表的知识。这是一种非常压缩、结构化的知识库。显然不是实际的维基百科或语言,而更像是语义网,语义网所代表的梦想。所以这是一个非常好的压缩知识库,或者神经网络以非解释性的方式所具有的类似东西。

*神经网络如果你观察它们的速率,它们会是非解释的,但它们的输出应该是非常可解释的。好的,那么,你是如何使非常智能的神经网络,比如语言模型,变得可解释的呢?*你让它们生成一些文本,文本通常是可以解释的。你觉得这是解释性的极致吗,还能做得更好吗?因为你不能,好的,我想知道它知道什么,不知道什么。我希望神经网络能够举出一些例子,它完全愚蠢的例子和完全聪明的例子。而我现在唯一知道的方法就是生成大量的例子,用我的人类判断。但如果神经网络有一些自我意识,那就太好了。是的,我非常相信自我意识。我认为神经网络的自我意识将允许实现诸如你所描述的能力,让它们知道它们知道什么,不知道什么,让它们知道在哪里投资可以最优化地提高它们的技能。

至于你关于可解释性的问题,实际上对这个问题有两个答案。一个答案是,我们有神经网络,所以我们可以分析神经元,我们可以试着理解不同的神经元和不同层的意义。你实际上可以这样做,OpenAI已经做了一些这方面的工作。

但有另一个不同的答案,我会说,这是一个以人为本的答案,你看着一个人,你不能读懂,你怎么知道一个人在想什么?你问他们,你说,你对这个有什么看法?你对那个有什么看法?你得到了一些答案。你得到的答案在某种意义上是粘性的,你已经有了一个心智模型。你已经有了对那个人的理解,对那个人的大概念,他们如何思考,他们知道什么,他们如何看待世界。然后你问的每一件事,你都在添加到那个模型上。这种粘性似乎是,这是人类真正有趣的品质之一,信息是粘性的。你似乎记住了有用的东西,很好地整合了它,忘记了大多数无用的信息。

这个过程,也与神经网络做的过程非常相似。只是神经网络在这个时候要差得多。它们似乎并没有从根本上有什么不同。但为了更长时间地坚持推理,你说,为什么不呢?我为什么不能推理呢?

你心目中有什么好的、令人印象深刻的推理基准,如果神经网络能做到,你会对此印象深刻吗?你已经有了吗?

我认为编写非常好的代码。我认为证明非常困难的定理,解决具有开创性解决方案的开放性问题。还有定理类型的数学问题。是的,我认为这些也是非常自然的例子。如果你能证明一个未经证明的定理,那就很难说不推理了。顺便说一句,这也回到了关于硬结果的问题。机器学习,深度学习作为一个领域是非常幸运的,因为我们有能力有时产生这些无可争议的结果。当它们发生时,辩论就会改变,对话就会改变。我们有能力产生改变对话的结果。然后,就像你说的,人们会认为这是理所当然的,说那实际上不是一个难题。

嗯,有一天,我们可能会耗尽难题。是的,死亡问题确实是一个我们还没有完全弄清楚的棘手问题。也许我们会解决那个问题。

在你的整个工作中,但也是最近在OpenAI的工作中,其中一个改变了对话的事情,就是在语言模型的世界中。你能简要地试着描述一下在语言和文本领域使用神经网络的近期历史吗?

历史有很多。我认为Elman网络是一种小型的、微型的递归神经网络,应用于80年代的语言。所以历史真的,至少是相当长的。改变了神经网络和语言的轨迹的事情,是改变了所有深度学习的轨迹,那就是数据和计算。所以突然之间,你从小型语言模型转变为学到一些东西的模型。特别是对于语言模型,有一个非常清晰的解释,为什么它们需要大才能变好。因为它们试图预测下一个单词。

当你一无所知时,你会注意到非常、非常宽泛的笔触,表面层次的模式,比如,有时会有字符,而这些字符之间有空格。你会注意到这种模式。你会注意到有时会有一个逗号,然后下一个字符是一个大写字母。你会注意到这种模式。最终,你可能开始注意到有某些词经常出现。你可能注意到拼写是一种东西。你可能会注意到语法。当你在所有这些方面都变得非常擅长时,你开始注意到语义。你开始注意到事实。但要实现这一点,语言模型需要更大。

那么,我们就花点时间讨论一下,因为这是你和诺姆·乔姆斯基意见不一致的地方。所以你认为我们实际上正在采取逐步的步骤,更大的网络,更大的计算能力将能够。理解语义,理解语言。而不是诺姆喜欢认为的,对语言结构的基本理解,比如将你的语言理论强加到学习机制上。所以,你是在说,你可以从原始数据中学习,这是语言所基于的机制。

嗯,我认为这很有可能。但我也想说,我不确切知道乔姆斯基谈论他时是什么意思。你说了一些关于将你的结构强加于语言的事情。我不能百分之百确定他是什么意思。但从经验上看,当你检查那些更大的语言模型时,它们表现出了理解语义的迹象,而较小的语言模型则没有。

我们在几年前做情感神经元的工作时看到了这一点。我们训练了一个较小的LSTM来预测亚马逊评论中的下一个字符。我们注意到,当你将LSTM的大小从500个LSTM细胞增加到4000个LSTM细胞时,其中一个神经元开始表示评论的情感。这是为什么呢?情感是一个相当语义的属性。这不是一个语法属性。

对于可能不知道的人来说,我不知道这是不是一个标准术语,但情感是指评论是正面还是负面。没错。这个人对某事感到满意,还是不满意?所以在这里我们有非常明确的证据,一个小的神经网络并没有捕获情感,而一个大的神经网络则有。

这是为什么呢?嗯,我们的理论是,在某一点上,你会耗尽模型的语法,你开始关注别的东西。随着大小的增加,你很快就会耗尽模型的语法,然后你真的开始关注语义。这就是这个想法。没错。所以,我不想暗示我们的模型有完整的语义理解,因为那不是事实。但他们确实表现出了语义理解的迹象,部分语义理解。但较小的模型并没有表现出这些迹象。

你能退一步,说说什么是GPT-2,这是过去几年来改变了对话的大型语言模型之一吗?

是的,GPT-2是一个拥有十五亿参数的Transformer。它是在大约400亿个来自于Reddit文章链接的网页文本上进行训练的,这些文章得到了三个以上的赞。

那么什么是Transformer?Transfomer,这是近年来神经网络结构最重要的进展。什么是注意力?因为我认为这是一个有趣的概念,不一定是从技术上讲,但注意力的概念可能与循环神经网络代表的内容有所不同。是的,事实上,Transformer是同时结合了多种概念的组合,其中注意力是其中之一。

你认为注意力是关键吗?

不,它是一个关键,但它不是唯一的关键。Transformer之所以成功,是因为它是多个概念的同时结合。如果你去掉其中任何一个概念,它就会不那么成功。所以,Transformer使用了大量的注意力,但注意力已经存在了几年,所以那不可能是主要的创新。Transformer的设计使得它在GPU上运行得非常快。这产生了巨大的影响。这是一点。第二点是,Transformer不是循环的。这也非常重要,因为它更浅层,因此更容易优化。

所以,换句话说,它使用了注意力。它非常适合GPU。它不是循环的,因此较为浅层且易于优化。这些因素的结合使它成功。所以,现在它充分利用了你的GPU。这使你能够在相同的计算量下获得更好的结果。这就是它成功的原因。

你对Transformer的工作效果和GPT-2的工作效果感到惊讶吗?所以,你一直在研究语言。在Transformer出现之前,你就有了很多伟大的想法。所以,你看到了之前和之后的一整套革命。你感到惊讶吗?

是的,有一点。

有一点吗?

是的。

我记得的确很难,因为人很快就适应了。但它确实令人惊讶,

事实上,你知道吗?我要收回我的话。那真的很令人惊叹,看到这样的文本生成实在是令人惊奇。而且,你要知道,那时候,我们见证了生成对抗网络(GANs)的所有进步。

GANs生成的样本令人惊讶,有这些逼真的脸孔,但文本的进展并不真正那么大。突然间,我们从2015年的GANs走到了最好的、最令人惊叹的GANs,这真的令人震惊。尽管理论预测,是的,你训练了一个大型语言模型,当然,你应该得到这个。但亲眼看到它又是另一回事。

然而,我们真的很快就适应了。现在有一些认知科学家写文章说GPT-2模型并不真正理解语言。所以我们很快就适应了它们能够如此好地建模语言的这一事实。

那么,你认为标准是什么?你认为这个标准会不断提高吗?

绝对会。我认为当你开始看到真正显著的经济影响时,那就是…在某种意义上,我认为那是下一个障碍。因为现在,如果你考虑AI的工作,它真的很令人困惑。所有这些进展真的很难了解。有点像,你有了一个进步。现在你可以做更多的事情。你有了另一个改进。你有了另一个很酷的演示。在某个时候,我认为不搞AI的人已经无法区分这个进展了。

我们在线下谈论了将俄语翻译成英语,以及世界上其他地方不知道的俄国有很多出色的工作。中文也是如此。这对许多科学家和一般的艺术作品来说都是真的。你认为翻译是我们将看到经济大影响的领域吗?

我不知道。首先,我想指出的是,翻译今天已经很重要了。我认为数十亿人主要通过翻译与互联网的大部分互动。所以翻译已经很重要了。而且它也非常积极。我认为自动驾驶将会产生巨大的影响。而且不知道什么时候会发生。但同样,我不会对深度学习下注。所以那总体来说是深度学习。

只是检查一下,你没有看到驾驶和语言之间的联系吗?

不。或者说,两者都使用了神经网络。那会是一个诗意的联系。我认为可能会有一些…像你说的,可能会有一种统一,一种能够处理语言和视觉任务的多任务Transformer。那会是一个有趣的统一。现在,让我看看。我还能问GPT-2什么呢?它很简单。所以没有什么可问的。所以你采用一个Transformer,使其变得更大,给它更多的数据,突然间它就能做所有这些了不起的事情。

是的,GPT的美妙之处之一是,Transformer基本上很容易解释,很容易训练。你认为在语言方面,更大会继续表现出更好的结果吗?

可能会。

GPT-2的下一步是什么,你认为?

我认为肯定看到更大版本能做什么是一个方向。而且,还有很多问题。有一个问题我很好奇,那就是:现在,GPT-2,我们把互联网上的所有数据都喂给它,这意味着它需要记住互联网上关于一切的所有随机事实。如果模型能够以某种方式使用它自己的智能,决定它想要接受什么数据,拒绝什么数据,那会很好。

就像人们一样。人们不是无差别地学习所有数据。我们对我们学习的内容非常挑剔。我认为这种主动学习会很好。

我喜欢主动学习。让我问一下,数据的选择…你能再详细解释一下吗?你认为数据的选择是…

我有一种感觉,优化你选择数据的方式,所以主动学习的过程,将是未来很多突破的地方,即使是在不远的未来。因为那里还没有公开的很多突破。我觉得可能有一些公司保密的私人突破,因为如果你想解决自动驾驶,如果你想解决特定的任务,基本问题必须解决。

你对这个领域总体有什么看法?

是的,所以我认为对于像主动学习这样的东西,或者实际上对于任何像主动学习这样的能力,它真正需要的是一个问题。它需要一个需要它的问题。如果你没有任务,那么做研究是很困难的,因为那样会发生的是,你会提出一个人工任务,取得好的结果,但并不能真正说服任何人。对,我们现在已经过了在MNIST上获得结果,某种巧妙的MNIST公式会说服人们的阶段。

确实如此。事实上,你很容易就能构建一个简单的在MNIST上应用的主动学习方案,并实现10倍的加速,但那又有何意义呢?我认为,随着需要主动学习的问题的出现,主动学习会自然而然地产生。这是我的看法。

OpenAI在GPT-2上提出了另一个有趣的问题,即当你创建了一个强大的人工智能系统,发布GPT-2后,其负面效应并不清晰。因为如果你有一个能够生成相当真实文本的模型,你可以想象它会以我们无法想象的方式被某些机器人使用。所以,人们对它可能做什么感到紧张。因此,你真的做了一件非常勇敢且深刻的事情,就是开始了这个讨论。我们该如何向公众发布强大的人工智能模型?如果我们这样做,我们该如何与他人,甚至是竞争对手私下讨论如何管理这些系统的使用等等?总的来说,你有从中获得任何洞见吗?

我的看法是,人工智能领域一直处于童年状态,现在正在逐渐走向成熟。这意味着人工智能非常成功,也产生了巨大影响,这种影响不仅广泛,而且还在增长。因此,有理由在发布系统之前开始考虑其影响。宁愿早做考虑,也不要晚做。就像我之前提到的GPT-2一样,结果确实令人震惊,人们觉得GPT-2很可能容易被用来降低虚假信息的成本。所以,发布的最佳方式是什么,分阶段发布似乎是合理的。一个小模型被发布了,然后有时间看到……许多人以很多酷炫的方式使用这些模型。有很多真正酷炫的应用。我们所知道的,还没有任何负面应用,所以最终它被发布了。但同时,也有其他人复制了类似的模型。不过,我们所知道的,这是一个有趣的问题。

在你看来,分阶段发布至少是我们创建了这样一个系统后该怎么办问题的部分答案吗?

这是答案的一部分,是的。

还有其他洞见吗?假设你根本不想发布模型,因为它对你的业务有用。很多人已经不发布模型了。对,当然。但当你拥有一个非常强大的模型时,是否存在一些道德、伦理责任要沟通呢?正如你所说,当你有了GPT-2,它能够被用于虚假信息的程度并不清晰。这是一个悬而未决的问题,要回答这个问题,你可能需要与你的团队之外的其他非常聪明的人交流。请告诉我,世界各地的人们在这类案例上合作有一些乐观的途径吗?或者,一家公司与另一家公司交谈仍然很困难吗?

这当然是可能的。与其他地方的同事讨论这类模型并了解他们的看法是完全可能的。

但这有多困难呢?我的意思是……你看到这种情况发生了吗?

我认为,在公司之间逐渐建立信任是很重要的。因为归根结底,所有AI开发者都在开发越来越强大的技术。所以……可以这样认为,我们最终都是共同体。是的,我倾向于相信我们本性中更好的一面,但我确实希望,当你在某个领域构建了一个非常强大的AI系统时,你也会考虑潜在的负面后果。这是一个有趣而又令人恐惧的可能性,即会有一场推动人们关闭开发并不与他人分享想法的AI开发竞赛。

我不喜欢这一点。我已经是一名纯粹的学者有10年了。我真的喜欢分享想法,这很有趣,令人兴奋。

(注:有趣的是,后面OpenAI和Ilya走了一条相反的路)

让我们稍微谈谈AGI。你认为构建一个具有人类智能水平的系统需要什么?我们谈到了推理,我们谈到了长期记忆。但总的来说,你认为需要什么?

嗯,我不能确定。但我认为深度学习加上也许还有另一个小想法。你认为自我对弈会参与其中吗?就像你提到的,自我对弈是一种强大的机制,系统通过在竞争性环境中探索世界,与具有类似技能的其他实体进行对弈,从而逐步提高。

您认为自我对弈会是构建具有人工智能的系统的一个组成部分吗?

是的。我认为要构建具有人工智能的系统,我们需要的是深度学习加上一些创新思维。我相信自我对弈会是其中之一。自我对弈具有一种令人惊讶的特性,它能以真正新颖的方式给我们带来惊喜。例如,几乎每个自我对弈系统,无论是我们的Dota机器人,还是OpenAI发布的有关多代理的系统,其中有两个小代理在玩捉迷藏游戏,当然还有AlphaZero,它们都会展现出令人惊讶的行为。这些都是我们没预料到的行为,它们是对问题的创造性解决方案。这看起来像是我们的系统目前不常展现的,但在人工智能中却十分重要的一部分。正因如此,我喜欢这个领域,喜欢它给我们带来惊喜的方向。人工智能系统会从根本上给我们带来惊喜。确切地说,不仅仅是随机的惊喜,而是找到一个令人惊讶但又有用的问题解决方案。

目前,大量的自我对弈机制都是在游戏背景下,或者至少是在模拟环境中使用的。您认为在模拟环境中我们将如何朝着人工智能的道路前进?您对模拟与系统在真实世界中的操作有多少信心和期望,无论是在数字真实世界的数据,还是在实际物理世界的机器人方面?

我不认为这是个非此即彼的问题。我认为模拟是一种工具,它有助于我们。它有一定的优势和缺陷,我们应该利用它。

是的,我明白了。但是,自我对弈和强化学习的一项批评是,尽管目前的成果令人惊叹,但这些成果大多都是在模拟环境或非常受限制的物理环境中展现的。您认为有可能逃离模拟环境,能够在非模拟环境中学习吗?或者,您认为也有可能以逼真的方式模拟真实世界,从而用模拟中的自我对弈解决实际问题吗?

我认为从模拟到真实世界的转换绝对是可能的,许多不同的团队已经多次展示了这一点。这在视觉方面尤为成功。此外,OpenAI在夏季展示了一个完全在模拟中训练的机器人手,这使得模拟到真实的转换成为可能。

这是用于魔方的吗?

是的,没错。*我不知道那是在模拟中训练的。*实际上,它完全是在模拟中训练的。

真的吗?那么,在物理学方面,这只手没有经过训练吗?

不,训练100%是在模拟中完成的。在模拟中学到的策略被训练得非常适应。适应到了当您转移它时,它可以非常快速地适应物理世界。

那种用长颈鹿或其他东西做的扰动是模拟的一部分吗?

嗯,模拟大体上……模拟被训练得对许多不同的事物都很稳健,但不包括我们在视频中出现的那种扰动。它从未与手套一起训练过,也从未与填充长颈鹿一起训练过。

所以,从理论上讲,这些都是新的扰动?

正确。这不是理论上的,是实际操作中的。

这些都是新的扰动?

是的,没问题。这是一个从模拟世界到物理世界的小规模但清晰的转换例子。是的,我还要说,我预计深度学习的转移能力会普遍提高。转移能力越强,模拟就会变得越有用。因为那时你可以在模拟中体验到一些事情,然后学到一个故事的寓意,然后带到真实世界中。就像人们在玩电脑游戏时一直在做的那样。

让我问一个与人工智能有关的具体问题。您认为人工智能系统需要有一个身体吗?我们需要有一些人类的自我意识、意识、对死亡的恐惧、在物理空间中的自我保护等元素吗?

我认为有一个身体会很有用。我不认为这是必要的。但是,我认为有一个身体肯定是很有用的,因为你可以学到一些没有身体无法学到的东西。但与此同时,我认为即使你没有身体,你也可以弥补它并仍然获得成功。

您这样认为吗?

是的,确实有证据支持这一观点。举例来说,有许多人从出生开始就是聋哑的,但他们能够弥补这种缺陷。我这里特指海伦·凯勒(Helen Keller)。因此,即便你不能够与世界进行物理互动,我其实是在谈论……

也许我该更具体地问问……我不确定这是否与拥有身体有关,但是有意识的概念,更为有限的版本是自我意识。您认为一个AGI(通用人工智能)系统应该拥有意识吗?

我们无法定义意识,无论您如何理解意识。是的,鉴于定义起来非常困难,这个问题很难回答。

您认为思考这个问题有意义吗?

这绝对很有趣,令人着迷。我认为我们的系统可能会有意识,这绝对是可能的。

您认为这是一种突然出现的东西,来自于您的网络中存储的表示?当您能够越来越多地表现出世界时,它自然就会出现。

嗯,我会提出如下论点,即人类是有意识的。如果您认为人工神经网络与大脑足够相似,那么至少应该存在一些我们认为是有意识的人工神经网络。您在这个存在证明上依赖得相当重。

但这是我能给出的最好答案。我知道,大脑是否拥有我们还不了解的某种魔力,仍是一个悬而未决的问题。我的意思不是一种非物质的魔力,而是大脑可能比我们想象的要复杂得多,也更有趣。如果是这样的话,那么它应该会显现出来。在某个时候,我们会发现我们无法继续取得进展。我认为这是不太可能的。

所以我们讨论了意识,但是让我来谈谈另一个对智能的含糊不清的概念。同样,我们谈论了推理,我们讨论了记忆。您认为对您来说,什么是测试智能的好方法?您对艾伦·图灵提出的模仿游戏,用自然语言来测试,印象如何?在您的脑海中,如果一个系统能够做到,会让您深感印象吗?

有很多事情。现在存在着一定的能力边界,也存在着这个边界之外的事物。任何这样的事情我都会觉得印象深刻。例如,我会为一个深度学习系统印象深刻,它解决了一个非常平常的任务,比如机器翻译或计算机视觉任务,而在任何情况下都不会犯人类不会犯的错误。我认为这是一种尚未展示过的东西,我会觉得非常印象深刻。

是的,所以现在他们犯不同的错误。他们可能比人类更准确,但仍然会犯不同的错误。因此,我猜测人们对深度学习的一些怀疑来自于他们观察到的错误,他们会说,嗯,这些错误毫无道理。如果你理解了这个概念,你就不会犯这样的错误。是的,我认为改变这一点会激励我。那会让我觉得,是的,这是进步。是的,这是一种很好的表达方式。

但我也不喜欢人们本能地批评一个模型不够智能。这和我们批评任何一群生物是外来者的本能是一样的。因为很有可能GPT-2在许多事情上比人类聪明得多。这绝对是真的。它有着更广泛的知识。是的,更广泛的知识,甚至可能在某些主题上更深入。

评判深度的含义有点困难,但人类绝对不会犯这些模型所犯的错误,这是确实存在的。是的,这同样适用于自动驾驶汽车。这可能会继续被应用于许多人工智能系统。我们发现,这是令人讨厌的事情。这是21世纪分析AI进展的过程,寻找一个系统在人类不会的情况下大大失败的案例。然后许多人就此写文章。然后,大众普遍会相信该系统不够智能。我们通过这一案例安慰自己,认为它不够智能。这似乎会继续发生。

是的,我是同意这个观点的。虽然我敢肯定也有很多人对今天存在的系统印象深刻。但我认为这与我们之前讨论的一个观点有关,那就是评判AI进展真的很困惑。当您有一个新机器人展示某个东西时,您应该有多么印象深刻?我认为一旦AI开始真正推动GDP的增长,人们就会开始印象深刻。您是OpenAI中可能创造AGI系统的人之一。如果您真的创造了一个AGI系统,并且有机会与它,他,她度过一个晚上,您觉得会谈论什么?

第一次?第一次的话,我会问各种问题,试图让它犯错。我会对它不犯错误感到惊讶,并继续提出宽泛的问题。

您认为会提出哪些问题,这些问题是事实性的,还是个人的、情感的、心理的呢?您怎么看?答案可能包含以上所有可能性。您会寻求建议吗?

绝对会。我的意思是,为什么我会限制自己与这样一个系统交流呢?

再次强调,您确实可能是这一历史性时刻见证人之一。那么,让我问一个较为深刻的问题,我刚刚与一位斯大林历史学家交谈过,也与许多研究权力的人士交谈过。亚伯拉罕·林肯曾说:“几乎所有人都能忍受逆境,但如果你想测试一个人的性格,就给他权力。”我认为21世纪,也许是22世纪,但希望是21世纪的权力,将是创造一个AGI系统,并直接拥有和控制这个AGI系统的人。那么,在与AGI系统交流了一个晚上后,您认为会采取什么行动呢?

我希望想象的理想世界是一个人类像公司董事会成员一样的世界,AGI就是CEO。我想象的画面是,存在不同的实体、不同的国家或城市,人们投票决定代表他们的AGI应该做什么,然后这个代表他们的AGI就会去执行。我觉得这样的画面非常吸引人。可以有多个AGI,每个城市、每个国家都可以有一个AGI,试图将民主过程提升到一个新的层次。董事会始终可以解雇CEO,可以说,重新设置,重新随机化参数。

这确实是一个美丽的愿景,只要能够重新设置就行。您认为能一直重新设置吗?

我认为绝对有可能建立这样的系统。所以,您提出的问题实质上是,人类会控制他们建造的AI系统吗?是的。我的回答是,绝对有可能建造愿意被人类控制的AI系统。这是他们存在的目标之一。他们不仅不得不被控制,而且存在的目的之一就是被控制。就像人类父母通常想帮助他们的孩子一样,他们希望孩子成功。这对他们来说不是负担。他们很乐意帮助孩子,喂养他们,给他们穿衣,照顾他们。我坚信,AGI也会如此。我们可以这样编程AGI,设计它,使其具有类似的深层驱动力,乐于实现这一驱动力。这个驱动力就是帮助人类繁荣。

但让我退后一步,回到创造AGI系统的那一刻。我认为这是一个至关重要的时刻。在那一刻与董事会成员和AGI首脑之间,必须有权力的交接。自从乔治·华盛顿以来,尽管他做了很多坏事,但他做的一件大事就是他放弃了权力。首先,他不想成为总统。即便当上了总统,他也没有像大多数独裁者那样无限期地连任。您认为自己能放弃对AGI系统的控制吗,考虑到您可以对世界有多大的权力?首先,从财务上讲,可以赚很多钱,对吗?然后,通过拥有AGI系统来控制。

我觉得放弃这种权力是小事一桩。我的意思是,您描述的这种情况听起来让我恐慌。我绝对不想处于那种位置。

您认为自己代表的是AI社区中的多数人还是少数人呢?

嗯,这是一个开放性问题,也是一个重要问题。这另一种提问方式是,大多数人都是好人吗?所以,我不知道大多数人是否善良,但我认为,在关键时刻,人们可以比我们想象得更好。

这么说非常好。您能想到确保AI基因价值观与人类价值观一致的具体机制吗?您是否考虑了我们在开发AI系统过程中继续保持一致性的问题?

是的,绝对考虑了。从某种意义上说,您提出的问题可以翻译为当今的问题,即如何让一个优化了学习到的价值函数的强化学习代理。如果你看看人类,人类就是这样,因为人类的奖励函数、价值函数不是外在的,而是内在的。确实如此。有一些明确的想法,关于如何训练价值函数,基本上是一个目标,尽可能客观的感知系统,将分别被训练来识别、内化人类对不同情境的判断。然后,这个组件将被整合为一些更有能力的强化学习系统的基础价值函数。您可以想象这样一个过程。我不是说这就是过程,我是说这是您可以做的事情的一个例子。

在探讨人类存在的目标函数这一话题上,您认为人类存在暗含着什么样的目标函数?生命的意义是什么?

哦,我认为这个问题在某种程度上是错误的。这个问题暗示着存在一个客观答案,这是一个外在的答案。你的生命意义是x。我认为真正的情况是,我们存在,这本身就令人惊叹。我们应该尽量充分利用它,并在我们存在的这段短暂时光中,尽量提高我们的价值和享受。

有趣的是,行动确实需要一个目标函数。它以某种形式肯定存在,但是要明确表达它是困难的。我猜你想说的是,也许无法明确表达它。这是强化学习环境中的一个有趣事实。但是,我提出的是一个稍微不同的观点。就是人们有所渴求,他们的渴求产生了驱使他们的动力…

我们的渴求就是我们的目标函数,我们个人的目标函数。我们可以在后来决定我们想要改变,我们之前想要的已经不再好,我们想要别的。是的,但它们是如此动态。一定有某种潜在的弗洛伊德式的东西。有一些事情,有一些性方面的东西。有些人认为这是对死亡的恐惧。还有对知识的渴望和所有这些类型的事情,繁衍生息,所有的进化论论点。似乎可能存在某种基本的目标函数,一切都从中涌现出来。但是,明确表达它似乎非常困难。

我认为可能存在一种进化目标函数,就是生存、繁衍后代并使你的孩子成功。这是我的猜测。但这并没有回答生命的意义是什么这个问题。我认为你可以看到人类是这个大过程的一部分,这个古老的过程。我们存在于一个小行星上,仅此而已。既然我们存在了,就尽量充分利用它,尽量让我们更多地享受,减少痛苦。

让我问两个关于生活的愚蠢问题。一,你有遗憾吗?如果回到过去,有些时刻你会做得不同吗?二,有没有让你感到特别骄傲,让你真正快乐的时刻?

我可以回答这两个问题。当然,我做出了大量的选择和决定,如果能够事先知道结果,我本不会那样做。我确实有一些遗憾,但我试图从我当时尽了最大努力的知识中得到安慰。在我为之骄傲的事情方面,我很幸运,做了一些我为之骄傲的事情。它们让我有一段时间很快乐,但我不认为那是幸福的来源。

那么,你在学术上的成就,所有的论文,你是世界上被引用最多的人之一。我提到的所有计算机视觉和语言方面的突破。对您来说,幸福和骄傲的源泉是什么?

我的意思是,所有这些事情确实是骄傲的源泉。我为做到所有这些感到非常感激。而且做这些事情非常有趣。但幸福来自…我现在的观点是,幸福在很大程度上来自我们看待事物的方式。你可以吃一顿简单的饭,因此感到很快乐,或者你可以和某人交谈,也因此感到快乐。反过来,你可以吃一顿饭,因为饭菜不够美味而感到失望。所以我认为,很多幸福来自于这一点。

但我不确定,我不想过于自信。在不确定面前保持谦逊似乎也是这整个幸福事务的一部分。

嗯,我认为没有比讨论生命的意义和幸福更好的结束方式了。因此,Ilya,非常感谢您。您给了我一些令人难以置信的想法。您为世界提供了许多令人难以置信的想法。我非常感激。谢谢您今天的分享。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具