大模型可视化

一名来自新西兰的帅气小伙将大模型推理过程可视化了。

在线网址:

https://bbycroft.net/llm

如果在线玩感觉不过瘾,可以部署到本地,下面是源码,内附部署教程。

https://github.com/bbycroft/llm-viz

网站以nano-GPT为例,将推理过程进行了可视化。

左侧是模型结构总览图,包括模型的整体架构以及构成模型的各个组件。

通过上图可知,nano-GPT是一种Transformer架构,Transformer是一种Encoder-Decoder架构,但GPT仅使用了Decoder部分,在Decoder中,每个Token对应的输出只能参考当前输入Token之前的Token,所以Decoder通常用于文本生成,也就是通过自回归方式预测下一个单词。

有只使用Decoder的,当然就有只使用Encoder的,Bert就是典型代表,在Encoder中,每个Token对应的输出是借鉴了所有的输入,所以Encoder更擅长文本理解。

还有一种则都用了,这是一种典型的seq2seq架构,Encoder用于捕获源seq的内在表示,Decoder则将捕获的表示解码成目标seq。典型的应用包括语言翻译,语音识别等等;

选择模型整体或某个组件时,右侧可以通过鼠标进行交互,并且显示对应详细信息。

由上图可知,LLM的工作流程包括,将文本划分成Token,根据字典将Token转换成字典索引,也就是IDs,然后通过Word2Vec或者自定义的Embedding将IDs转换成embedding,也就是向量;然后将向量输入到Tranformer编码器中进行处理。

大模型可视化_第1张图片

当选择模型整体或者某个组件时,右侧播放各个组件处理数据的动画。

你可能感兴趣的:(大模型,自然语言处理)