论文解读:Recurrent Neural Network Training with Dark Knowledge Transfer

Hinton的Distillation研究了如何利用一个复杂网络来训练简单网络,但是训练出来的简单网络性能只能逼近复杂网络。而这篇文章则提出了一个相反的思路:利用简单网络来帮助训练简单网络,从而提升网络的性能。

Dark knowledge for complex model training

软标签有两个优势:

  • 为模型训练提供了更多的有效信息,而不仅仅是绝对的硬标签。
  • 软标签模糊了类之间的决策边界,提供了更为平滑的训练,使得训练更加可靠。也就是说,如果能够很好地学习teacher模型的话,那么训练的方差将为0,这使得训练更加有效可靠。

Regularization view

同时利用硬标签和软标签进行预测,可以看成是一种正则化的方法。

论文解读:Recurrent Neural Network Training with Dark Knowledge Transfer_第1张图片

Pre-training view

除了上面的正则化方法,我们可以先采用软标签对模型进行训练,然后再利用硬标签进行微调。由于软标签能够提供可靠的训练,所以用来作为初始化。然而,软标签所提供的信息并没有足够的区分度,也就是噪声很大,所以采用硬标签进行微调更为有效。

这种预训练方法有三个优势:

  • 是完全的监督学习,更加任务导向。
  • 这种方法将整个复杂网络进行预训练,而不需要一层层的进行,更加快速有效。
  • 可以用于预训练任何复杂网络,即使是一个像RNN这样的网络。

EXPERIMENTS

从实验结果中可以看到,采用预训练的方法得到的模型更加鲁棒。


论文解读:Recurrent Neural Network Training with Dark Knowledge Transfer_第2张图片

你可能感兴趣的:(论文解读:Recurrent Neural Network Training with Dark Knowledge Transfer)