Sequence-Level Knowledge Distillation

Sequence-Level Knowledge Distillation

序列级别的知识提炼


一、大纲

这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然最小(网络的效果好)。

 

二、Word-Level

  Sequence-Level Knowledge Distillation_第1张图片

描述:Teacher Network和Student Network分别训练处没个词的概率分布(向量维度为词表大小),然后交叉熵和负对数似然插值的最小化。

目标函数:

                  其中:

  Sequence-Level Knowledge Distillation_第2张图片                

 

                  S是输入序列;t是输出序列;y是groundtruth,即真实的输出序列;p是student network的概率;q是teacher network的概率。

 

三、Sequence Level

(1)

         Sequence-Level Knowledge Distillation_第3张图片

描述:Teacher Network通过k-Beam Search获得k个候选序列,Student Network也一样可以获得候选序列,然后交叉熵最小化。(文中经过若干推导后可到,序列级别的负对数似然等于词级别的负对数似然,序列级别的交叉熵也就约等于以k个候选序列中分数最高的序列为“真实序列”的词级别的负对数似然。)

目标函数:

推导:

Sequence-Level Knowledge Distillation_第4张图片


Sequence-Level Knowledge Distillation_第5张图片

                  其中是Teacher Network的k个候选序列中概率最大的序列。

 

(2)

Sequence-Level Knowledge Distillation_第6张图片

描述:Teacher Network通过k-Beam Search获得k个候选序列,Student Network也一样可以获得候选序列,然后交叉熵和负对数似然插值最小化。(文中经过一些变换后,最终要求的是从Teacher Network的k个候选项中挑出与真实序列ground truth最相近的序列,然后求student network的负对数似然)

目标函数:

                  其中是Teacher Network的k个候选项中与真实序列ground truth最相近的序列

                   Sequence-Level Knowledge Distillation_第7张图片                                           

         为了减少计算量,引入

         Sequence-Level Knowledge Distillation_第8张图片

         所以

         Sequence-Level Knowledge Distillation_第9张图片

 

论文链接:https://arxiv.org/abs/1606.07947

 

 


你可能感兴趣的:(NLP)