llama模型研究系列1

一、llama模型的结构是怎么样的?

采用了transfomer中的decoder,其中7b版本的结构如下:
llama模型研究系列1_第1张图片
13B结构如下:
llama模型研究系列1_第2张图片
GPU显存使用情况:
llama模型研究系列1_第3张图片

二、llama模型中的词典为什么会有大量的token有ord(‘▁’)=9601 的字符呢?

在这里插入图片描述

llama模型研究系列1_第4张图片

llama模型研究系列1_第5张图片

你可能感兴趣的:(llama)