AutoML论文笔记(七)Blockwisely Supervised NAS with Knowledge Distillation:基于蒸馏学习的区块自适应NAS算法

文章题目:Blockwisely Supervised Neural Architecture Search with Knowledge Distillation
链接:link https://arxiv.org/abs/1911.13053
会议期刊:CVPR 2020

论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。

论文内容

神经网络搜索技术(NAS)的迅速崛起,在带来便利的同时,人们发现性能不是最优的问题。其根本原因是没有足够的时间和资源让搜索出的子网络彻底训练,这样通过实时验证精度的网络排名就不够准确,从而导致了NAS的不高效。
 本文借鉴了人脑的思想,将神经网络结构分成互不影响的Block,同时利用蒸馏学习算法来压缩和指导训练,每个备选网络都是从头开始训练到收敛,然后排序。
AutoML论文笔记(七)Blockwisely Supervised NAS with Knowledge Distillation:基于蒸馏学习的区块自适应NAS算法_第1张图片
 参数共享虽然能够加速NAS训练,但是会缩小搜索空间。因此本文摒弃了参数共享机制,让各个block放开手脚去训练,甚至block的深度也能搜索。初始化的教师网络是在端侧表现优异的EfficientNet-B0,然后每个区域借鉴了transformers的并行机制,不用常规的LSTM,而是用带self-attention的BERT类网络。在并行的网络中,指数级的丢掉一部分结构,然后前一个block合到主线中,一起成为下一个block的教师网络。
 AutoML论文笔记(七)Blockwisely Supervised NAS with Knowledge Distillation:基于蒸馏学习的区块自适应NAS算法_第2张图片
 同时论文中发现,常规NAS算法喜欢类似于Resnet的直通操作,这种直通会产生无效的排序,从而增加搜索空间,导致收敛变慢,因此作者摒弃了这个操作。在自适应块搜索的过程中,精细的挑选最优网络,并且loss是由带记忆的DFS算法排序。所有可能的操作都预先计算好并排序,若搜出的网络大小超过了设定大小,直接跳过。
 DNA算法在ImageNet数据集中的表现,这是至今NAS算法中,端侧的SOTA。
 AutoML论文笔记(七)Blockwisely Supervised NAS with Knowledge Distillation:基于蒸馏学习的区块自适应NAS算法_第3张图片

亮点和收获
  1. 借鉴了DNA分块的思想,将NAS分块搜索,然后前一个Block的输出逐层作为下一个Block的教师,蒸馏着学习。
  2. 学生网络最终会超越老师,所以老师的选择并不是强相关的——能否自己不断学习,迭代收敛?

你可能感兴趣的:(AutoML论文笔记)