GPT每预测一个token就要调用一次模型

问题:下图调用了多少次模型?

GPT每预测一个token就要调用一次模型_第1张图片
不久以前我以为是调用一次

通过看代码是输出多少个token就调用多少次,如图所示:

GPT每预测一个token就要调用一次模型_第2张图片

我理解为分类模型

预测下一个token可以理解为分类模型,类别是vocab的所有token,每一次调用都是在分类

为什么不能一次输出呢

从数学维度来讲,本质是条件概率,每次预测token都要基于前面的token为条件;
比如说预测了某个token,设为t1,然后要预测t2,这个时候t1要成为t2的条件了,那么t1也要转换成特征向量,那有两种选择,一种是直接使用t0的最后一层向量当作t1,还有一种是调用一次模型生成t1的特征向量; 对比两种选择,显然再调用一次模型更合理,才能利用transformer的优势,能得到更好的结果。

详情请看:https://www.zhihu.com/tardis/zm/art/623704947?source_id=1003

你可能感兴趣的:(gpt,人工智能)