AutoML论文笔记(十二)Search to Distill: Pearls are Everywhere but not the Eyes:千里马常有,而伯乐不常有

文章题目:Search to Distill: Pearls are Everywhere but not the Eyes
链接:link https://arxiv.org/pdf/1911.09074
会议期刊:CVPR 2020
论文内容

论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。
 蒸馏学习和NAS结合,对于被视作掌上明珠的学生,不仅能从老师那儿学到网络参数,还能学到网络结构。
 传统的distilling都是固定teacher结构,但是老师不同,相同的数据上学到的最优的学生网络结构往往也不一样。Efficientnet和Inception-Resnet这两个老师在同一个任务中教出的学生排名也不一样。每一个老师结构都有一个最强学生,基于此,作者从网络本身内在结构的视角出发,将神经网络视为一个大的function,映射到概率空间分布,从而Distilling和NAS结合。
 其中论文借鉴了一些tricks并自己也提出一些有意思的方法:

  1. Distilling的时候,用的是soft label,老师所有的softmax概率都能学到,从先验熵的角度来看,该方法表面了老师的信心,增加了鲁棒性;
  2. One-shot会抑制角度距离;
  3. 悲观主义——厉害的老师并不一定能教出更强的学生,好老师差老师都能教出令人满意的学生;
  4. 固定结构的话,会强迫学生牺牲参数来学习老师的结构,这样会掉进局部最优解中。
  5. 摒弃了参数共享
    AutoML论文笔记(十二)Search to Distill: Pearls are Everywhere but not the Eyes:千里马常有,而伯乐不常有_第1张图片
     因此作者通过强化学习,在代理任务上获取reward,通过一个老师网络来观察蒸馏指导的精度。RL先找高精度的,在5k个迭代后才找高效的小结构,Distilling蕴含其他未被发现的信息,来纠正学生往另一个方向走。AutoML论文笔记(十二)Search to Distill: Pearls are Everywhere but not the Eyes:千里马常有,而伯乐不常有_第2张图片
     该方法比传统的NAS多耗时2-3倍,Google每个实验用200个TPUv2训练5天才收敛,果然财力雄厚。从大型数据ImageNet和MegaFace中可以看出,AKD算法表现优异。AutoML论文笔记(十二)Search to Distill: Pearls are Everywhere but not the Eyes:千里马常有,而伯乐不常有_第3张图片
     作者还在文中提到,要是能够找到一个度量两个随机结构相似度的几何空间,将是非常值得做的方向。如果成功了,这一举措将滋养ML和CV的大部分领域。

你可能感兴趣的:(AutoML论文笔记,蒸馏学习)