【LLM】终于有人将大模型可视化了作者：人工智能大讲堂来源：人工智能大讲堂一名来自新西兰的帅气小伙将大模型推理过程可视化了。在线网址： https://bbycroft.net/llm 如果在线玩感觉不过瘾，可以部署到本地，下面是源码，内附部署教程。 https://github.com/bbycroft/llm-viz 网站以nano-GPT为例，将推理过程进行了可视化。左侧是模型结构总览图

【LLM】终于有人将大模型可视化了

By AiBard123
January 24, 2024 - 2 min read

作者：人工智能大讲堂来源：人工智能大讲堂

一名来自新西兰的帅气小伙将大模型推理过程可视化了。

在线网址：

https://bbycroft.net/llm

如果在线玩感觉不过瘾，可以部署到本地，下面是源码，内附部署教程。

https://github.com/bbycroft/llm-viz

网站以nano-GPT为例，将推理过程进行了可视化。

左侧是模型结构总览图，包括模型的整体架构以及构成模型的各个组件。

通过上图可知，nano-GPT是一种Transformer架构，Transformer是一种Encoder-Decoder架构，但GPT仅使用了Decoder部分，在Decoder中，每个Token对应的输出只能参考当前输入Token之前的Token，所以Decoder通常用于文本生成，也就是通过自回归方式预测下一个单词。

有只使用Decoder的，当然就有只使用Encoder的，Bert就是典型代表，在Encoder中，每个Token对应的输出是借鉴了所有的输入，所以Encoder更擅长文本理解。

还有一种则都用了，这是一种典型的seq2seq架构，Encoder用于捕获源seq的内在表示，Decoder则将捕获的表示解码成目标seq。典型的应用包括语言翻译，语音识别等等；

选择模型整体或某个组件时，右侧可以通过鼠标进行交互，并且显示对应详细信息。

由上图可知，LLM的工作流程包括，将文本划分成Token，根据字典将Token转换成字典索引，也就是IDs，然后通过Word2Vec或者自定义的Embedding将IDs转换成embedding，也就是向量；然后将向量输入到Tranformer编码器中进行处理。

当选择模型整体或者某个组件时，右侧播放各个组件处理数据的动画。

其它交互式工具：

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具