模型蒸馏论文学习

原文链接: https://www.cnblogs.com/liaohuiqiang/p/9170582.html

学习链接

更加详细的介绍soft target

温度T的详细介绍

1.使用bert的计算结果来代替one-hot的目标。

2.使用T来控制BERT的计算结果的分布学习程度。

模型蒸馏github代码

with open('data/cache/t_tr','rb') as fin: y_tr = pickle.load(fin)
with open('data/cache/t_de','rb') as fin: y_de = pickle.load(fin)

读取BERT的预测结果来替代one-hot进行训练

BERT的预测结果是[0.9,0.1]这种类似的,因此student model不能使用softmax和交叉熵作为损失函数要使用mse作为损失函数

 

 

你可能感兴趣的:(NLP)