AI 文摘

黄欣荣:从ChatGPT到Sora:生成逻辑、哲学本质及世界图景





作者: 新疆师范大学学报 来源: 新疆师范大学学报

摘要及关键词

摘 要:ChatGPT 和 Sora 的出现是人工智能发展史上的两件轰动性事件,共同展现了基于大模型的生成式、通用性人工智能的强大功能。ChatGPT 和 Sora 在生成逻辑、哲学本质和世界图景上既有共性和继承,又有突破和创新。从生成逻辑看,二者从演绎推理式转向学习生成式,都基于大模型的学习生成,是生成式人工智能的杰出代表,ChatGPT 主要生成静态文本和图像,Sora 能够生成复杂的动态视频。从哲学本质看,二者均涉及学习、理解、意识和思维等哲学本质问题,ChatGPT 主要是因果、语义、语境的理解和生成,Sora 能够理解时间和空间等复杂关系并生成动态时空视频。从世界图景看,二者都可能带来创新创造的广阔未来,ChatGPT 主要生成静态的语义世界,Sora 则带来更加复杂的元宇宙世界,甚至能够扮演造物主重演创世造物的动态过程。

关键词:Sora;ChatGPT;生成式人工智能;生成逻辑;哲学本质;世界图景

作者简介 :黄欣荣,浙江科技大学特聘教授,江西财经大学马克思主义学院教授、博士生导师。

以往的人工智能虽然功能强大,但只具备某种特定功能,只能完成特定任务。以 ChatGPT 为代表的生成式人工智能已经具备通用能力,只要把任务交给生成式人工智能,其他一切都可以由智能机器自动完成,标志着人工智能已从专用走向通用。Sora 在 ChatGPT 的基础上实现新飞跃,开始从生成视频走向创造世界。

ChatGPT 和 Sora 生成逻辑的共通性:第一,大语言模型。第二,涌现生成。第三,通用智能。

与 ChatGPT 相比,Sora 在多模态支持、知识库、语境理解和用户控制等方面进行创新,使其能够提供更全面、准确和个性化的对话服务。

Sora 继承了 ChatGPT 的生成逻辑,又在其基础上作出改进和优化,能够处理文本、图像和视频等更多模态以及复杂的因果和时空问题。

ChatGPT 与 Sora 在哲学本质上的共性:第 一,ChatGPT 与 Sora 开启了人工智能归纳-演绎的双螺旋发展历程。第二,ChatGPT 与 Sora 使人工智能初步实现归纳跃迁,从智能走向智慧。第三,ChatGPT 与 Sora 开启了智能机器快速自我迭代的时代。

ChatGPT 通过大数据、大模型的学习,开始具备因果、语义、语境理解和生成基础,Sora 能够进一步理解时间和空间的复杂关系并生成动态时空。

ChatGPT 和 Sora 能够较为科学地描述世界,是描述真实世界、创生世界图景的新工具。更为关键的是,ChatGPT 和 Sora 除描述外,能够创造出真假难辨的图像世界。但是,二者的生成能力存在一定差别,ChatGPT 主要是文本生成器,只能生成文本,形成静态的文本世界和语义世界。Sora 作为世界模拟器,能够生成真假难辨的动态三维时空视频,是世界图景的最佳生成器。

ChatGPT 的世界图景是由语义世界和因果性相互交织的世界,ChatGPT 通过不断学习和交流,与用户共同探索和理解世界,为用户提供更加智能化、个性化的服务。

Sora 的世界图景是融合世界模拟器、时空观和元宇宙等概念的智能虚拟空间,为用户提供了全新的智能交互体验。

ChatGPT 和 Sora 是人工智能的关联产品,二者在生成逻辑、哲学本质和世界图景三个维度存在紧密关系。

Sora 是美国 OpenAI 公司继 ChatGPT 后发布的再次震惊世界的生成式人工智能产品,能够根据文本描述生成高清、连贯、逼真的一镜到底视频,彰显了其对现实世界的深刻理解和模拟能力。生成式人工智能何以在短暂时间内连续震撼世界?ChatGPT 已足够强大,吸引广泛关注,为何 Sora的出场仍如此惊艳?二者存在何种继承与关联?Sora 实现了哪些突破和创新?从 ChatGPT 到 Sora,在人工智能发展史上究竟意味着什么?笔者试图用科技哲学的视角和方法,从生成逻辑、哲学本质和世界图景三个维度分析 ChatGPT 与 Sora 之间的关联及突破,并试图揭示从 ChatGPT 到 Sora 究竟意味着什么。

一、生成式人工智能:从 ChatGPT 到Sora 的轰动效应

人工智能自 1956 年达特茅斯会议正式提出以来,经历了三次高潮和两次低谷,在 21 世纪的前10 年仍默默无闻。但自 2016 年 AlphaGo 战胜世界围棋冠军李世石后,人工智能开始走出低谷,进入激动人心的时代。在 AlphaGo 余温未消的 2022 年11 月 30 日,OpenAI 公司推出 ChatGPT,人们震惊于其强大的功能,注册用户数在 2 天内达百万。当人们热议 ChatGPT 的强大功能并展开各学科的深入研究时,OpenAI 于 2024 年 2 月 16 日强势推出 Sora,业界甚至发出“再见,人类”的哀叹。进入 20 世纪,计算机、人工智能等新技术的发展日新月异,人们惊叹“各领风骚数十年”。从元宇宙的再次爆火到 ChatGPT,再到 Sora,仅相隔 1年时间,发展速度之快让人眼花缭乱。人们还来不及消化元宇宙,ChatGPT 就踏浪而来;人们还未弄清 ChatGPT,Sora 又强势来袭。现在只能用“各领风骚仅一年”对这种后浪速推前浪的“智能爆炸”现象进行刻画。

(一)ChatGPT 是聊天式文本生成器

OpenAI 发布的聊天机器人模型 ChatGPT,意为预训练生成式聊天转换器。首先,ChatGPT 是人机沟通的转换接口。人类的自然语言只有持相同语言的人才能理解,再智能的机器也只能用二进制的比特语言传递信号,因此,不同语种之间、人机之间只能通过“翻译”转换才能进行交流,ChatGPT就是这样一种通用转换器。其次,ChatGPT 主要基于语言大模型。ChatGPT 能够充当翻译转换、理解并重组和创新人类的自然语言,主要基于海量语料库的训练。ChatGPT 能够从人类自然语言中找到语言最基本的构成要素和语法规则,基于涌现生成,按照人类的意图进行生成创新。最后,ChatGPT 与人类沟通交流的方式是聊天。聊天是人类最便捷、最简单的交流方式,ChatGPT 以人类最普通、最喜欢的交流方式与人类沟通交流。ChatGPT 让人类无需掌握二进制机器码就能与机器沟通交流。以往的人类必须适应机器并学会机器语言,现阶段,ChatGPT 的出现使机器能够适应人类,即 ChatGPT可以用人类的文字或语音与人类沟通交流。

(二)Sora 是图像世界的视频模拟器

Sora 是 OpenAI 推出的生成式人工智能产品。ChatGPT 的 名 称 出 自 英 文 缩 写,Sora 是隐喻式命名。有观点认为,Sora 来自日语的そら,意为空,不仅隐喻空间、时空,还包括生长空间,意为发展机遇、充满希望。如果说 ChatGPT 像一颗种子,能够涌现生长,那么,Sora 将为其提供空间和表现机会。

首先,OpenAI 公司将 Sora 作为视频生成器推出。ChatGPT 解决了文字生成问题,可根据需要生成带有意义的文字或图片;Sora 可以生成带有时间坐标的动态视频,解决了图像生成问题。Sora 能够根据人类的需要或意图生成富有想象力和创造力的精美视频。因此,从技术层面看,Sora 是视频生成器。其次,可将 Sora 理解为世界模拟器。Sora不仅能够生成图像和视频,其终极目的是模拟世界图景。元宇宙曾提出孪生世界和创构世界的理想,但因缺少技术支持而未付诸实践。Sora 能够模拟现实世界,生成真假难辨的世界图景,既解决了世界孪生问题,又解决了世界创构问题。最后,Sora可以理解和创建时空。ChatGPT 解决了自然语言理解、意义涌现和因果关系问题,但真实世界万物的存在必然通过更加形象、沉浸的时间和空间进行呈现,Sora 在 ChatGPT 的基础上增添了时空要素,不仅为万物的涌现生成提供了条件和机遇,而且奠定了坚实基础。

(三)Sora 是对 ChatGPT 的继承和创新

ChatGPT 能够轰动世界,主要基于两大创新:一是生成,二是通用。20 世纪的人工智能研究让智能机器具备推理演绎能力,21 世纪的 ChatGPT让智能机器具备经验归纳能力,在此基础上,人工智能具备了归纳和演绎的双螺旋创新能力,并形成“经验-学习-知识-推理-创构”的机器学习和创新的闭环系统,开辟了机器自我组织、自我学习、自我创新的自组织发展之路。由此可见,ChatGPT 是人工智能从推理演绎式走向归纳生成式的转折点。Sora 引起轰动的原因在于其具备文生图、文生视频的能力,使归纳生成从自然语言推广到图片和视频领域。

以往的人工智能虽然功能强大,但只具备某种特定功能,只能完成特定任务。以 ChatGPT 为代表的生成式人工智能已经具备通用能力,只要把任务交给生成式人工智能,其他一切都可以由智能机器自动完成,标志着人工智能已从专用走向通用。例如,ChatGPT 可以完成编程、文秘、论文写作、文学创造等任务。Sora 在 ChatGPT 的基础上实现新飞跃,开始从生成视频走向创造世界。因此,未来的生成式人工智能可能至大无外,至小无内,带给人类无穷的想象空间。

二、生成逻辑:从 ChatGPT 到 Sora 的延展

人工智能在技术上试图使机器具备人类的聪明才智,在协调人机关系的同时,使机器更好地服务人类。人的智能智慧主要是经验归纳能力和推理演绎能力,有学者曾试图通过归纳和推理两条路径实现人工智能。

20 世纪的人工智能因缺少经验数据的采集、存储和处理等能力,主要走推理演绎路径,并取得显著成效,例如,几何定理的机器证明、专家系统,等等。20 世纪的人工智能发展虽然曲折,但解决了机器的推理演绎能力问题,使智能机器能够像人一样进行逻辑演绎和推理。但这一时期人工智能演绎的大前提及各种理论仍需人类输入“喂养”,离开人类的“喂养”,智能将难以延续。因此,20世纪的人工智能带有明显的人工性。

进入 21 世纪,随着数据技术的发展,智能感知、数据挖掘、数据算法、云存储等数据技术迅速兴起。大数据时代的来临,使数据采集、存储、处理和传输等问题迎刃而解,人工智能已具备经验归纳能力。ChatGPT 和 Sora 正是基于大数据、大模型进行归纳、提炼,从海量数据中发现共性,探索规律。人工智能推理所需的理论前提和规则机理不再依靠人类的“喂养”,智能机器能够从人类无限的经验数据中自我学习、自我涌现,为推理演绎提供前提条件。ChatGPT 与 Sora 在生成机理上遵循共同的逻辑,因此,OpenAI 在 ChatGPT 成功之后迅速推出 Sora,并取得重大突破。

(一)ChatGPT 和 Sora 生成逻辑的共通性

ChatGPT 和 Sora 在技术路径上遵循的生成逻辑相似,即大语言模型、涌现生成、通用智能三大技术逻辑。换言之,在技术逻辑上,ChatGPT 和Sora 都是在大模型的基础上进行机器的深度学习,由此找到涌现生成所需的积木模块、生成规则、迭代算法和优化路径。

第一,大语言模型。人类之所以拥有智慧,不断变得聪明,得益于向经验学习,并不断积累经验。这种经验包括自己的直接经验和他人的间接经验。人类自诞生至今,积累了巨大的经验宝库。生成式人工智能一改以往人工智能靠推理、演绎的路径,转向经验学习,踏上归纳创新之路。人类的经验知识已经通过语言的形式储存在各类文本中,ChatGPT 和 Sora 通过汇聚人类的各种经验,形成人类语言、图像、影音等大模型,使之成为 ChatGPT 和 Sora 学习的基础,即 ChatGPT 和Sora 找到生成要素、生成模型、生成规律的基础。因此,基于大数据技术的兴起和大数据时代的来临,人类的经验被数字化并形成大模型,奠定了ChatGPT 和 Sora 等生成式人工智能的经验基础。

第二,涌现生成。ChatGPT 擅长语言文字生成,Sora 擅长图片视频生成,但二者在技术本质上都是基于大模型的涌现生成过程。ChatGPT 和Sora 如人类一般学习、思维和创新,从大模型中找到用于推理演绎所需的经验要素和理论前提,因此,要在大模型上实现约翰·霍兰德所言的涌现生成过程。从技术层面看,无论 ChatGPT 还是 Sora,都在应用机器的深度学习的基础上实现基于大模型的学习。ChatGPT 和 Sora 通过大模型的学习,获取人类学习和创新的奥秘,进而找到涌现生成所需的三大要素:积木、模型和主体,即作为生成元的积木块、作为特征构造和生长规律的模型以及具有环境适应性的主体。ChatGPT 通过预训练(Pre-trained)学习,通过 Transformer 完成模型功能,以此实现生成(Generative)功能。Sora 与ChatGPT 遵循相同的生成逻辑,通过预训练数据和Transformer 找到视频积木并生成视频,其中,Sora的视频生成更为复杂,需要用数据包 Patchs 代替ChatGPT 的令牌 Token,除 Transformer 外还增加了扩散模型。

第三,通用智能。以往的人工智能皆为专用智能,只具备某种特定功能,例如,AlphaGo 只能下围棋。ChatGPT 和 Sora 具备通用能力,可以完成不同任务。以往的人工智能虽具有一定的学习能力,但不具备生成功能,主要靠人类“喂养”,按规则行事。ChatGPT 与 Sora 主要从方法论、生成逻辑上实现通用功能,只要学会归纳、生成和涌现等能力,就能像人一样根据给定任务寻找要素、规则,并生成答案。换言之,以往的人工智能只学到人类的“术”,是人授予机器以“鱼”,ChatGPT和 Sora 学会了人类归纳、生成之“道”,从授机予“鱼”到授机予“渔”。只要人类提出任务,ChatGPT 与 Sora 就能完成。

(二)Sora 在技术逻辑上对 ChatGPT 的创新

ChatGPT 和 Sora 具 有 共 同 的 技 术 逻 辑, 为何 Sora 的出现仍引发社会各界广泛关注?究其根本,虽然 ChatGPT 和 Sora 都属于生成式通用人工智能,但后者在前者的基础上实现了突破。即ChatGPT 和 Sora 在技术逻辑上虽有相似之处,但各具特色,且后者取得了重大推进。笔者从模型结构和训练方法两方面探讨二者的差异与进步。

1.ChatGPT 的模型结构和训练方法

ChatGPT 是基于 GPT 的对话生成模型,具有复杂的模型结构和精细的训练方法。ChatGPT 的模型结构和训练方法可能在细节上作出定制化调整,以适应对话生成任务需求,并不断优化模型的性能和生成质量。从模型结构看,ChatGPT 采用Transformer 架构,包括多层 Transformer 编码器和解码器。Transforme 模型的输入是对话历史文本序列,经过编码器处理后,得到语境表示。解码器根据语境表示和自身状态生成下一个词的概率分布,进而作出响应。ChatGPT 的 Transformer 层通常包括自注意力机制、前馈神经网络等子层,用于捕捉全局依赖性和提取特征。从训练方法看,ChatGPT的训练数据通常是大规模的对话文本语料库,包括对话历史和对应回复。在训练过程中,模型通过最大化生成下一个词的概率学习语言模型。ChatGPT可能采用基于梯度下降的优化算法,例如,利用Adam 优化器更新模型参数。为提高模型的对话生成能力,ChatGPT 可能进行多轮对话的微调,以逐步优化模型在对话任务上的表现。从细节优化看,ChatGPT 可能采用特定的对话生成任务技巧,例如,采用特殊的 Token 表示对话开始和结束,引导模型生成合理的对话。模型可能进行 Beam Search或 Nucleus Sampling 等解码策略,生成更加流畅和多样化的对话响应。ChatGPT 还可能结合强化学习等方法,引入奖励信号指导模型生成更加符合语境和逻辑的对话。

2.Sora 对 ChatGPT 的突破创新

与 ChatGPT 相比,Sora 在多模态支持、知识库、语境理解和用户控制等方面进行创新,使其能够提供更全面、准确和个性化的对话服务。从模态支持看,Sora 是多模态对话模型,可以同时处理文本和图像输入。这意味着用户可以通过文本或图像与 Sora 进行交互,Sora 可以理解和生成与图片相关的对话内容。这种多模态支持使 Sora 能够更好地理解和回应用户需求。从知识库看,Sora对知识库进行改进,拥有更广泛和更准确的知识。Sora 不仅可以从大量的结构化和非结构化数据源中获取信息,而且在对话中使用相关知识提供更准确和详细的答案。这使 Sora 能够回答更复杂和具体的问题。从语境理解看,Sora 对语境理解进行改进,能够更好地理解对话中的语境信息。Sora能够更准确地回应用户的追问或进行多轮对话,并保持对话的连贯性。Sora 能够记忆之前的对话内容,并利用相关信息生成更有针对性的回复。从用户控制看,Sora 允许用户控制对话的方向和风格。用户可通过指令明确期望或偏好,并引导对话发展。这种用户控制使 Sora 能够更好地满足用户需求,提供个性化的对话体验。

综上所述,Sora 继承了 ChatGPT 的生成逻辑,又在其基础上作出改进和优化,能够处理文本、图像和视频等更多模态以及复杂的因果和时空问题。文本和视频是人类经验和学习的基础,视频较文本更加形象生动,Sora 将 ChatGPT 的文本生成拓展到视频生成,在三维动态视频生成领域大有可为。ChatGPT 的文本生成和 Sora 的视频生成相互补充,共同构成更加完整的人工智能生成能力。

三、哲学本质:从 ChatGPT 到 Sora 的深化

ChatGPT 与 Sora 揭示了语言理解、意识和思维、学习本质等诸多维度的哲学本质,ChatGPT 主要是因果、语义、语境的理解和生成,Sora 能够理解时间和空间的复杂关系并生成动态时空。

(一)ChatGPT 与 Sora 在哲学本质上的共性

随着数据采集、存储和处理能力的不断提高,人类已进入大数据时代,人工智能的神经网络派和统计派逐渐兴起,特别是人工智能专家杰夫里·辛顿等学者的深度学习模仿人类如何从经验中归纳、提炼和学习,从海量的经验数据中发现新知识。2016 年,AlphGo 利用深度学习对海量数据进行学习,初步证明了从经验数据中学习的重要性。2022年爆火的 ChatGPT 不仅改变了人们对人工智能的看法,而且颠覆了认为能够自我学习、自我提升的人工智能距离人类十分遥远的认知。Sora 进一步强化了机器学习、语言理解、机器思维等具有深刻哲学意义的问题,因此,有必要探讨 ChatGPT 与Sora 在哲学本质上的共性。

ChatGPT 与 Sora 作为基于大型语言模型的对话或视频生成系统,在人类思维和语言理解方面具有哲学意义,即引发对语言、智能、意识和人机交互等领域的深入思考和讨论,推动人类探索自身认知和技术发展。首先,在语言理解的模拟方面,ChatGPT 与 Sora 通过对海量文本数据的学习和模拟,能够生成类似人类语言的文本,表明人类语言理解的一部分可以被模拟和复制,进而引发对语言本质和理解过程的深入思考。其次,在智能与意识的关系问题方面,ChatGPT 与 Sora 展示了在不具备意识和情感的情况下,也能产生看似智能的对话,引发关于智能与意识之间关系的讨论,促使人们重新审视智能和意识的本质。再次,在语言塑造思维方面,语言是思维的载体,ChatGPT 与 Sora的文本生成能力表明语言对思维的影响和塑造作用,进一步探讨语言与思维的关系以及语言如何塑造人类认知等问题。最后,在人机交互的未来问题方面,ChatGPT 与 Sora 代表人机交互技术的最新进展,通过自然语言交互实现信息传递和问题解决,对未来智能助手、虚拟现实等领域的发展具有重要意义。

通过揭示 ChatGPT 与 Sora 的机器学习、语言理解和机器思维背后的哲学本质可知,上述问题均与归纳问题密切相关。ChatGPT 与 Sora 的成功再一次证明经验是新知识的源泉,归纳是发现新知识的科学方法,一切新知识都是从经验归纳中提炼生成,演绎推理无法发现新知识。否定经验、排斥归纳是错误的,只有坚持归纳和演绎双螺旋式发展,才能真正揭示人类智能的奥秘。

第 一,ChatGPT 与 Sora 开启了人工智能归纳-演绎的双螺旋发展历程。以往的人工智能具备演绎推理能力,能够从现有知识实现演绎和推理,但无法如人类一般发现新知识。ChatGPT 成为人工智能发展的转折点,此后的智能机器学会了人类的归纳提炼能力,能够从经验大数据中自我学习和自我归纳,提炼出演绎推理所需的一般性知识前提。即 ChatGPT 与 Sora 不仅可以根据一般性知识进行演绎和推理,而且能够实现归纳提炼,由此找到作为一般性知识的推理前提。ChatGPT 与 Sora 如人类一般开始坚持归纳和演绎的双螺旋式发展,不再依赖人类为其提供作为演绎前提的一般性知识。智能机器可以离开人类的“喂养”自我发展,人工智能的人工性越来越弱,智能性越来越强。

第二,ChatGPT 与 Sora 使人工智能初步实现归纳跃迁,从智能走向智慧。以往的人工智能经常被人们诟病,即会计算没常识,有智能没智慧,要么依靠海量数据再加上暴力计算,从中发现有限的算法;要么从现有知识中进行演绎性推理,缺少人的灵活性。以往的人工智能虽然有智能,但缺少人的智慧。智能是用理性从有限数据找到有限算法或有限规律,需要海量数据的学习才能归纳提升,属于完全归纳。智慧除理性的归纳或演绎外,还可依靠联想、直觉、猜想等非理性思维实现从有限到无限的跃迁,属于非完全归纳。ChatGPT 与 Sora 不同于以往的人工智能,二者在一定程度上学会了人的非理性思维能力,能够从有限数据中归纳跃迁全称命题,进而实现非完全归纳。ChatGPT 的这一跃迁意义重大,ChatGPT 与 Sora 的一小步意味着人工智能迈出走向人工智慧的一大步。

第三,ChatGPT 与 Sora 开启了智能机器快速自我迭代的时代。人类虽然能够从经验中归纳、学习,并从归纳得出的一般性知识出发进行演绎和应用,但人类大脑的学习能力、记忆能力和计算能力有限,因此,人类的知识积累缓慢,经过数万年的经验积累和数千年的文化积淀达到现阶段的知识规模。但是,ChatGPT 与 Sora 拥有海量的经验数据库,具备超强的学习能力和推理能力,一方面,通过大模型进行快速归纳提炼出模型和探索出规律;另一方面,用这个模型和规律进行推理演绎应用。ChatGPT 与 Sora 在归纳学习和推理应用中快速循环迭代,自我更新,实现归纳与演绎的迭代闭环,其学习能力超越了任何个人、甚至人类群体。ChatGPT 与 Sora 摆脱了以往人工智能依赖人类学习能力提升的局限,实现自我学习、自我迭代的转折。

(二)Sora 在哲学本质上对 ChatGPT 的深化

虽然 ChatGPT 与 Sora 在机器学习、语言理解和思维等问题方面具有相同的哲学本质,但深入分析后可知,ChatGPT 与 Sora 在语言理解能力、创新创造和表现形式等方面存在差异。

ChatGPT 作为基于人工智能的对话模型,在人类思维和语言理解方面具有重要的哲学意义,揭示了人类思维和语言理解的哲学本质。ChatGPT 引发了对语言与思维关系、意义与语义、智能与自我意识以及人类思维的限制与可能性的深入思考。通过对 ChatGPT 的研究和分析,可以更好地理解和探索人类思维与认知的本质,推动哲学和认知科学的发展。

第一,在语言与思维关系问题方面,ChatGPT的出现引发对语言与思维关系的深 入 思考。ChatGPT 可以生成流畅的自然语言,但其不具备真正的思维能力,使人们重新审视语言与思维间的关系。ChatGPT 在某种程度上模拟人类的语言表达能力,但不具备内在的主观意识或意图,由此引发哲学家和认知科学家对语言和思维之间的本质联系展开探讨。第二,在意义与语义问题方面,ChatGPT 生成的回答引发对意义和语义的思考。尽管 ChatGPT 可以生成看似合理的回答,但其并未真正理解回答的含义。这使人们开始思考意义和语义的本质。关于 ChatGPT 的回答是否仅基于统计模型的概率预测,还是存在更深层次的语义理解这一问题,引发关于意义如何产生并理解哲学和认知科学的讨论。第三,在智能与自我意识问题方面,ChatGPT 的出现引发对智能和自我意识的思考。虽然 ChatGPT 在某种程度上可以模拟人类的智能表现,但其不具备真正的自我意识,引发关于智能和自我意识之间关系的讨论。ChatGPT 如何产生智能,是否存在一种智能的内在本质?上述问题与哲学和认知科学中有关智能及自我意识的问题相关。第四,在限制与可能性问题方面,ChatGPT 的存在引发对人类思维和认知能力的限制和可能性的思考。ChatGPT 在某些方面表现出令人惊讶的能力,但也存在明显的局限。这使人们开始思考人类思维和认知的局限性以及未来的可能性。ChatGPT 的存在是否对人类思维的理解构成挑战?其能否揭示人类自身认知的局限性和可能性?

由此可见,ChatGPT 主要模仿人类的语言理解和因果推理等能力,涉及语言本质、理解本质、思维和自我意识等哲学问题。但 ChatGPT 尚未涉及时间、空间,即时空问题。康德将哲学范畴归为四大类,即量、质、关系和模态,ChatGPT 已经涉及前三类范畴,尚未涉及模态问题。因此,还需具备能够解决时空问题和模态问题的人工智能突破ChatGPT 的局限。从哲学层面看,Sora 的出场突破了 ChatGPT 的局限,在 ChatGPT 的语义、因果问题基础上实现时空观和模态范畴的突破。

在 ChatGPT 的基础上,Sora 激发了多模态思维、知识与创造的结合、语境感知与对话、用户控制与个性化体验以及迭代改进与自我学习等方面的思考和创造。基于 Sora 的能力和特点,人类可以拓展智慧和创造的边界,实现更加丰富、创新的智慧和创造成果。

第一,多模态思维。Sora 作为多模态对话模型,能够同时处理文本和图像输入。这种多模态思维能力启发人们以更全面和多样化的方式思考和创造。人类可以借鉴 Sora 的多模态思维,融合不同形式的信息和感知,进而产生更富创意和创新性的思维与创作。第二,知识与创造的结合。Sora 拥有广阔准确的知识库,可从海量数据源中获取信息,启发人们将知识与创造相结合,产生更富深度和广度的创造性成果。人类可以像 Sora 一样,通过获取和整合丰富的知识,为创造性思考和创作提供坚实基础。第三,语境感知与对话。Sora 在对话中能够理解和记忆语境信息,可根据之前的对话内容生成回复,启发人们将语境感知和对话作为一种思维和创造工具。人类可以借鉴 Sora 的语境感知能力,将对话和交流视为创造性过程,从中汲取灵感、获得反馈,不断迭代和改进自己的思考与创作。第四,用户控制与个性化体验。Sora 允许用户更好地控制对话的方向和风格,以满足个性化需求,启发人们将用户控制和个性化体验应用于智慧和创造领域。人类可以借鉴 Sora 的用户控制能力,将用户的偏好和需求纳入智慧和创造过程中,提供更贴合用户个性化智慧和创造的体验。第五,迭代改进与自我学习。Sora 采用迭代改进和自我学习的方法,不断优化自身性能和表现,启发人们将迭代改进和自我学习应用于智慧和创造过程中。人类可以像 Sora 一样,通过不断反馈学习,改进自己的智慧和创造能力,实现迭代和进化。

由此可见,ChatGPT 通过大数据、大模型的学习,开始具备因果、语义、语境理解和生成基础,Sora 能够进一步理解时间和空间的复杂关系并生成动态时空。要使人工智能在真正意义上具备人的智能,还需具备时间、空间思维和想象能力,在理解真实世界的时空关系的同时,根据真实世界的时空关系创造数字时空。Sora 在 ChatGPT 正确处理因果关系的基础上突破了时空关系,不仅能够生成真实世界的孪生世界,而且能够创造出真假难辨的虚拟世界。Sora 生成的视频图像之所以令人惊讶,主要在于其已真正具备理解事物因果、时间、空间等复杂关系的能力,能够反映更多的模态,生成较文本更加复杂的三维时空。

四、世界图景:从 ChatGPT 到 Sora 的完善

ChatGPT 和 Sora 作为代表性的智能交互工具,具有强大的语言理解和生成能力,可以为用户提供个性化、智能化服务。ChatGPT 是基于语言大模型的对话生成工具,Sora 是智能虚拟助手,二者的结合可以为用户提供更加智能化和个性化的交互体验。根据 ChatGPT 和 Sora 在智能交互领域的优势和特点,可以构建开放、创新和多维度的世界图景,为智能交互的发展和应用开辟新的可能。

(一)ChatGPT 和 Sora 是构建世界图景的新工具

ChatGPT 和 Sora 通过知识库和信息获取、语义理解和推理、语境理解和对话连贯性、个性化体验和用户控制以及迭代改进和自我学习等方式,建构文本或图像的世界图景。ChatGPT 和 Sora 能够帮助用户获取准确的知识和信息,理解和推测问题的含义,构建连贯和个性化的对话体验,并不断优化自身以提供更准确和完善的世界图景。ChatGPT和 Sora 建构世界图景包括五个步骤。

第一,知识库和信息获取。ChatGPT 和 Sora拥有广阔的知识库,可从海量数据源中获取信息,回答各种问题,并提供相关的事实和知识。ChatGPT 和 Sora 通过知识库和信息获取能力,可以帮助构建世界图景,为用户提供全面而准确的信息。第二,语义理解和推理。ChatGPT 和 Sora 具有一定的语义理解和推理能力,尽管其推理能力相对有限,但可以理解和解释用户的问题,并尝试从已有的知识中进行推理和回答。通过这种语义理解和推理的过程,ChatGPT 和 Sora 可帮助用户构建对世界的理解和图景。第三,语境理解和对话连贯性。ChatGPT 和 Sora 在对话过程中能够理解和记住语境信息,进而生成连贯且有针对性的回复。这种语境理解和对话连贯性的能力使其能够建立起与用户的连贯对话,逐步构建更完整和准确的世界图景。第四,个性化体验和用户控制。ChatGPT和 Sora 在对话中允许用户通过明确的指令或偏好引导对话的发展,以满足用户的个性化需求。这种用户控制和个性化体验的能力使 ChatGPT 和 Sora能够根据用户的需求和偏好构建出更符合用户期望和兴趣的世界图景。第五,迭代改进和自我学习。ChatGPT 和 Sora 采用迭代改进和自我学习的方法,不断优化自身的性能和表现。ChatGPT 和 Sora 通过与用户的交互和反馈,能够不断改进自己的回答和行为,提高对话的质量和准确性。这种迭代改进和自我学习的能力有助于构建更加准确和完善的世界图景。

由此可见,ChatGPT 和 Sora 能够较为科学地描述世界,是描述真实世界、创生世界图景的新工具。更为关键的是,ChatGPT 和 Sora 除描述外,能够创造出真假难辨的图像世界。但是,二者的生成能力存在一定差别,ChatGPT 主要是文本生成器,只能生成文本,形成静态的文本世界和语义世界。Sora 作为世界模拟器,能够生成真假难辨的动态三维时空视频,是世界图景的最佳生成器。

(二)ChatGPT、语义世界与因果性

作为 OpenAI 开发的基于大语言模型的对话生成工具,ChatGPT 具有强大的语言理解和生成能力。ChatGPT 可以根据用户输入的文本内容生成有逻辑、连贯和富有创意的回复,实现与用户的对话交流。ChatGPT 通过大规模的训练数据和深度学习算法,不断优化并提升自身的对话能力,使其可以适应各种场景和需求,为用户提供个性化、智能化的交互体验。在 ChatGPT 的世界图景中,语义世界和因果性是两个重要概念,共同构建了 ChatGPT与用户交流的基础。

ChatGPT 的语义世界由词汇、短语、句子等语言元素构成,通过对语言元素的理解和分析,ChatGPT 建立起对话的语义框架。在这一语义世界中,ChatGPT 通过对话与用户交流,不断学习和理解语义信息,进而更好地理解用户需求并提供个性化服务。ChatGPT 的语义世界是动态空间,伴随与用户的交流不断演化和完善,可以为用户提供更加智能和贴近需求的服务。

因果性是构建语义世界的基础。在 ChatGPT的世界图景中,因果性指 ChatGPT 在处理信息时遵循的因果关系和逻辑规律。通过对因果关系的认知,ChatGPT 能够更好地理解问题的本质并提供解决方法,进而提供更加准确和有效的回答。因果性认知使 ChatGPT 能够进行推理和逻辑推断,帮助用户解决问题和获取信息。

ChatGPT 通过不断学习以及与用户的交流,逐渐完善其语义世界和对因果性的认知。在与用户的对话中,ChatGPT 不仅可以获取新的语义信息和知识,而且能够通过因果性的推理和逻辑推断,为用户提供更加准确和有效的答案。ChatGPT的学习与交流是动态过程,通过持续的实践和反馈,ChatGPT 能够不断提升自身的智能水平和服务质量。

在 ChatGPT 的世界图景中,语义世界和因果性的交织为用户服务提供了更加智能化、个性化的体验。通过对话与用户交流,ChatGPT 能够更好地理解用户需求并提供定制化服务,为用户解决问题和获取信息ChatGPT 的世界图景不仅拓展了人工智能技术在自然语言处理领域的应用范围,而且为用户提供了更加便捷和高效的服务体验。

由此可见,ChatGPT 的世界图景是由语义世界和因果性相互交织的世界,ChatGPT 通过不断学习和交流,与用户共同探索和理解世界,为用户提供更加智能化、个性化的服务。语义世界和因果性的交织为 ChatGPT 的发展和应用提供了新思路和可能性,将进一步推动人工智能技术在自然语言处理领域的发展和应用。ChatGPT 的世界图景不仅是技术模型,而且是智能化交流和服务的新范式,为人们的生活和工作带来更多便利和可能。

(三)Sora、时空观与元宇宙

Sora 作为高度智能化的虚拟助手,其世界图景充满想象力和科技创新。作为智能虚拟助手,Sora的世界图景融合了世界模拟器、时空观和元宇宙等概念,能够为用户提供全新的智能交互体验。

Sora 的命名内蕴开发者意图,其借用带有隐喻、禅意的日语そら进行命名,点明了 Sora 的功能与世界图景。Sora 的日语含义为天空、时空、空灵,意味着其是与时空、创造有关的智能产品。在AI 官网关于 Sora 的说明中,明确表达了 Sora 是一款世界模拟器,意味着 Sora 是为模拟世界而生。

世界模拟器指 Sora 构建的虚拟现实环境,通过模拟和仿真技术,为用户呈现与现实世界相似、甚至更加丰富多彩的虚拟空间。在这一虚拟环境中,用户可以进行各种交互、学习、娱乐等活动,与 Sora 展开智能对话,并获取个性化服务。

世界模拟器的核心在于智能化和个性化。Sora通过对用户需求及行为进行学习和分析,不断优化世界模拟器的内容与功能,使其更加贴近用户的需求和期望。在世界模拟器中,用户可以享受 Sora提供的定制化服务,获得更加智能和便捷的体验。

Sora 要实现对世界的模拟,除要实现语言理解、把握因果关系外,还需理解时空关系,用视频图像表达物体在三维空间的关系及其演变。因此,时空观是 Sora 世界图景中的另一个重要概念。在 Sora 的时空观中,时间和空间不再是静态概念,而是可以被扩展和重新定义的维度。Sora 通过对时间和空间的重新构想,为用户提供跨维度的智能交互体验。

在 Sora 的时空观中,用户可以在不同的时间和空间维度中与 Sora 进行对话和互动。无论过去、现在还是未来,无论地球、外太空还是虚拟世界,用户都可以通过 Sora 的时空观进行跨越式智能交流。这种跨维度的交互体验不仅拓展了用户的认知和想象,而且为智能助手的发展和应用提供新的可能。

元宇宙是 2021 年再度出现在大众视野并引发轰动的概念。有观点认为,元宇宙是虚假概念,不可能实现。元宇宙预示的数字技术未来愿景,囿于技术限制,仍在探索之中。Sora 的推出为元宇宙提供助力,元宇宙是 Sora 世界图景中最具前瞻性的概念之一。元宇宙是虚拟的、数字化的世界,融合了现实世界和虚拟世界的元素,为用户提供全新的智能交互体验。在元宇宙中,用户可以与 Sora进行更加深入、丰富和多样化的交流与互动,体验前所未有的虚拟现实世界。

元宇宙的核心在于开放性和创新性。在元宇宙中,用户可以自由探索、创造和交流,与其他用户共同构建充满活力和创意的虚拟社区,特别是在现实世界中难以实现的理念,通过 Sora 建构元宇宙,并在元宇宙中如同造物主一样创世造物,让思想自由驰骋。Sora 作为元宇宙的智能助手,将扮演重要角色,引领智能交互的未来蓝图。Sora 是元宇宙实现的重要工具,元宇宙为 Sora 描述了未来世界图景。

综上所述,Sora 的世界图景是融合世界模拟器、时空观和元宇宙等概念的智能虚拟空间,为用户提供了全新的智能交互体验。通过对上述关键概念的深入探讨,可以更好地理解 Sora 的世界图景蕴含的深层次意义和未来发展方向。伴随人工智能技术的不断进步和创新,Sora 的世界图景将不断拓展和完善,能够为用户提供更加智能化、个性化的服务,推动智能交互的发展和应用。Sora 的世界图景不仅是一种技术模型,而且是一种智能化交流和服务的新范式,将为人们的生活和工作带来更多便利和可能性。如果说 ChatGPT 是用文本创构一维的语义世界,那么,Sora 进一步将其变成更加形象生动、更容易理解和沉浸的三维动态的虚拟世界。未来,基于 ChatGPT 的智能创作文字脚本,Sora 可以将其变成形象生动的视频图像,甚至可能创生元宇宙虚拟世界。

五、结语

作为生成式人工智能的代表,ChatGPT 和Sora 的相继出场让世界为之轰动。通过上述分析可知,ChatGPT 和 Sora 是人工智能的关联产品,二者在生成逻辑、哲学本质和世界图景三个维度存在紧密关系。ChatGPT 和 Sora 是基于大模型的生成式人工智能,依靠海量的人类经验大数据进行机器的自我学习,从中找到生成元、生成规则和生成模型,进而为智能机器提供演绎和推理所需的前置条件。ChatGPT 和 Sora 能够理解人类的自然语言、因果关系,进而理解并完成人类的各种任务。但是,Sora 除继承 ChatGPT 的语言理解能力和因果关系处理能力外,还在真实世界所需的时空关系认知和表述上获得重大突破,生成人类更为熟悉、更加形象的三维时空视频图像。因此,Sora 通过处理多模态信息理解和表征因果性和时空观,生成与真实世界难辨真假的虚拟世界。Sora 的出现说明人工智能已具备因果观念和时空观念,在一定程度上具有实践理性和综合判断力。综上所述,ChatGPT 和Sora 开创了人工智能的生成式路径,预示着人工智能正向人类智能靠近,无论在生成逻辑、哲学本质还是世界图景上都向前推进一大步。ChatGPT 和Sora 的闪亮登场正式开启了走向通用人工智能之路,库兹韦尔预言的“奇点”可能很快就要来临。

文献来源 | 《新疆师范大学学报(哲学社会科学版)》网络首发

公众号编辑 | 赵思靓

责任编辑 | 王文秋

责任校对 | 曹晶晶

总编 | 李建军

新疆师范大学学报

扫描二维码关注我们

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具