【LLM】终于有人将大模型可视化了
作者: 人工智能大讲堂 来源: 人工智能大讲堂
一名来自新西兰的帅气小伙将大模型推理过程可视化了。
在线网址:
如果在线玩感觉不过瘾,可以部署到本地,下面是源码,内附部署教程。
https://github.com/bbycroft/llm-viz
网站以nano-GPT为例,将推理过程进行了可视化。
左侧是模型结构总览图,包括模型的整体架构以及构成模型的各个组件。
通过上图可知,nano-GPT是一种Transformer架构,Transformer是一种Encoder-Decoder架构,但GPT仅使用了Decoder部分,在Decoder中,每个Token对应的输出只能参考当前输入Token之前的Token,所以Decoder通常用于文本生成,也就是通过自回归方式预测下一个单词。
有只使用Decoder的,当然就有只使用Encoder的,Bert就是典型代表,在Encoder中,每个Token对应的输出是借鉴了所有的输入,所以Encoder更擅长文本理解。
还有一种则都用了,这是一种典型的seq2seq架构,Encoder用于捕获源seq的内在表示,Decoder则将捕获的表示解码成目标seq。典型的应用包括语言翻译,语音识别等等;
选择模型整体或某个组件时,右侧可以通过鼠标进行交互,并且显示对应详细信息。
由上图可知,LLM的工作流程包括,将文本划分成Token,根据字典将Token转换成字典索引,也就是IDs,然后通过Word2Vec或者自定义的Embedding将IDs转换成embedding,也就是向量;然后将向量输入到Tranformer编码器中进行处理。
当选择模型整体或者某个组件时,右侧播放各个组件处理数据的动画。
其它交互式工具:
更多AI工具,参考Github-AiBard123,国内AiBard123