AI 文摘

Atman视线大型语言模型(LLM):类型、示例①





作者: Atman语言智能 来源: Atman语言智能

大型语言模型 (LLM):类型、示例

01

前言

大型语言模型 (LLM) 是生成式人工智能的关键支柱,由于其能够处理大量文本并生成与预测下一个单词相关的准确结果 ,因此在自然语言处理 (NLP)领域越来越受到关注。给出所有前面的单词的句子

这些不同的LLM模型在大型或广泛的文本数据集上进行训练,其中包含数亿到数十亿个单词。众所周知,LLM依赖于复杂的算法,包括转换大型数据集并识别单词级别模式的变压器架构。这些数据帮助LLM更好地理解自然语言及其在上下文中的使用方式,然后做出与各种 NLP 任务相关的预测,例如文本生成、摘要、翻译、文本分类,甚至高精度地回答问题。

大型语言模型 (LLM) (例如属于GPT 和 BERT 家族的模型)在自然语言处理 (NLP) 领域表现出了比早期神经网络架构(例如循环神经网络 (RNN))显着的进步。以下是历年引进的LLM数量趋势。

这篇博文旨在提供对大型语言模型 、它们的重要性以及它们在各种 NLP 任务中的应用的全面理解。我们将讨论这些不同的LLM模型如何工作、LLM示例以及创建它们所涉及的培训过程。读完本文后,您应该能够充分理解为什么大型语言模型是当今人工智能/生成式人工智能应用程序的重要构建模块。

02

什么是大型语言模型 (LLM)?为什么它们被称为“大”?

大型语言模型 (LLM)是一类深度学习模型,旨在处理和理解大量自然语言数据。简单来说,大语言模型可以定义为人工智能/机器学习模型,试图解决 与文本生成、摘要、翻译、问答(Q&A) 等相关的NLP任务,从而实现更有效的人机交流。这就是为什么LLM需要处理和理解大量文本数据并学习句子中单词之间的模式和关系。

大型语言模型 (LLM) 之所以被称为“大型” ,是因为它们在大型文本语料库 上使用大量参数 (100M+)进行了预训练,以便为各种 NLP 任务处理/理解和生成自然语言文本。LLM家族包括BERT(NLU – 自然语言理解)、GPT(NLG – 自然语言生成)、T5等。具体的LLM模型如OpenAI的模型(GPT3.5、GPT-4 – 数十亿参数)、PaLM2、Llama 2等在前面提到的各种 NLP/文本处理任务中表现出了卓越的性能。其中一些 LLM 是开源的(Llama 2),而其他则不是(例如 ChatGPT 模型)。

03

注意力机制:LLM的基础

LLM 建立在神经网络架构之上 ,特别是Transformer 架构 (查看论文,Attention is all you need),这使得它们能够捕获复杂的语言模式以及大规模文本数据集中单词或短语之间的关系。LLM 也可以理解为Transformer 架构的变体。Transformer 架构依赖于自注意力和多头注意力等注意力机制,它允许模型通过权衡给定上下文中不同单词或短语的重要性来理解文本中单词之间的关系。

自注意力机制 是一种允许输入序列中的每个位置关注同一序列中的所有位置的机制。换句话说,它通过考虑整个序列来帮助模型理解和解释序列 。例如,在处理一个句子时,自注意力允许每个单词与该句子中的每个其他单词相关联。

Transformer 中的多头注意力 或多头自注意力 代表多个注意力头,其中每个注意力头学习不同的注意力机制,以便整个层可以学习更复杂的关系。

04

LLM的神经网络架构构建模块

Transformer 架构代表了基于编码器-解码器架构的自然语言处理任务的神经网络模型,它是 Vaswani 等人在论文《Attention Is All You Need 》中介绍的。2017年。Transformer架构由两个主要组件组成:编码器网络和解码器网络。

编码器网络 采用输入序列并产生一系列隐藏状态。例如,假设编码器网络采用源语言(例如英语)中的单词序列。

-输入序列示例 :例如,考虑句子“ The cat sat on the mat ”。

-输入处理 :编码器逐字处理该序列。每个单词首先被转换成代表其含义的数字形式(如向量)。这通常是使用词嵌入来完成的。

-隐藏状态序列 :在处理每个单词时,编码器使用自注意力机制来理解句子中每个单词相对于每个其他单词的上下文。

这会产生一系列隐藏状态,每个状态都是一个向量,对句子中单词的上下文信息进行编码。例如,“cat”的隐藏状态不仅会捕获“cat”的含义,还会捕获它与句子中“sat”、“on”、“the”和“mat”的关系。

解码器网络 采用目标序列并使用编码器的输出来生成预测序列。

-翻译任务示例 :例如,解码器网络的目标是生成目标语言的翻译,例如法语。它以一个起始标记(如“”)开头,并一次生成一个单词。

-使用编码器的输出 :解码器使用编码器产生的隐藏状态序列来理解源句子的上下文。

-预测序列 :对于它生成的每个单词,解码器使用交叉注意机制 来关注编码器输出的不同部分。这有助于解码器找出英语句子中的哪些单词与其尝试预测的法语单词最相关。

例如,当将“The cat sat on the mat”翻译为法语时,解码器在尝试预测“cat”的法语单词时可能会关注“cat”的隐藏状态。

-迭代过程 :这个过程是迭代的。当用法语生成每个单词时,解码器会更新其状态并做出下一个预测,直到翻译整个句子。

05

LLM 类型与 Transformer 架构:示例

虽然原始 Transformer 模型由编码器和解码器块组成,而编码器和解码器块由多层自注意力、交叉注意力和前馈神经网络组成,但不同类型的 LLM 可能会使用此Transformer 架构的变体。

取决于其预期应用。查看这篇文章以获取更多详细信息 – Transformer 架构类型:通过示例进行解释。下面给出的图片代表了原始的 Transformer 架构,代表了一堆多头注意力机制和前馈网络。

基于上述使用编码器、解码器或同时使用这两种网络的Transformer 架构,存在三种不同的 LLM 类型

-自回归语言模型(例如,GPT) :自回归模型主要使用 Transformer 架构的解码器部分 ,使它们非常适合自然语言生成(NLG)任务 ,如文本摘要、生成等。这些模型通过预测下一个文本来生成文本给定先前单词的序列中的单词。

他们经过训练,在给定上下文的情况下最大化训练数据集中每个单词的可能性。自回归语言模型最著名的例子是OpenAIGPT(生成式预训练 Transformer) 系列,其中 GPT-4 是最新、最强大的迭代。

基于解码器网络的自回归模型主要 利用与自注意力、交叉注意力机制和前馈网络相关的层作为其神经网络架构的一部分。

-自动编码语言模型(例如 BERT) :另一方面,自动编码模型主要使用Transformer 的编码器部分。它专为分类、问答等任务而设计。这些模型通过从屏蔽或损坏的版本重建原始输入来学习生成输入文本的固定大小向量表示(也称为嵌入)。

他们经过训练,可以利用周围的上下文来预测输入文本中丢失或被屏蔽的单词。BERT(Bi Direction Encoder Representations from Transformers)由 Google 开发,是最著名的自动编码语言模型之一。

它可以针对各种 NLP 任务进行微调,例如情感分析、命名实体识别和问答。基于编码器网络的自动编码模型 主要利用与自注意力机制和前馈网络 相关的层作为其神经网络架构的一部分。

-第三种是自编码和自回归的结合 ,例如T5(Text-to-Text Transfer Transformer)模型。T5 LLM由谷歌于2020年开发,可以进行自然语言理解(NLU)和自然语言生成(NLG)。

T5 LLM 可以理解为同时使用编码器和解码器网络的纯 Transformer。

06

不同的LLM模型和用例场景

传统的 NLP 算法通常只关注单词的直接上下文,而LLM则考虑大量文本以更好地理解上下文。以下是两个 LLM 示例场景,分别展示了使用自回归和自动编码 LLM 进行文本生成文本完成

07

自回归编码 LLM 示例

让我们举一个例子来说明自回归模型的工作原理 。如前所述,GPT 等自回归模型会根据给定的输入提示生成连贯且上下文相关的句子。

假设自回归模型 的输入如下:

“推出新型智能手机 UltraPhone 3000,其设计目的是”

生成的文本 可以是:

“以其尖端技术和无与伦比的性能重新定义您的移动体验。”

08

自动编码 LLM 示例

让我们再举一个例子来说明自动编码模型的工作原理。 如前所述,自动编码模型(例如 BERT)用于填充句子中缺失或屏蔽的单词,生成语义上有意义且完整的句子。

假设自动编码模型的输入如下:

最新的超级英雄电影有_______的故事情节,但视觉效果是_______。

完****成的文本 将如下所示:

最新的超级英雄电影,故事情节不错,但视觉效果却令人惊叹。

公众号:Atman语言智能

售前与商务合作:[email protected]
售后与问题咨询:[email protected]

苏州公司:苏州市工业园区金尚路仙峰大厦南楼5层
北京公司:北京市海淀区北四环中路智优沃大厦4层

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具