原文来源:metalearning.ml(Metalearning Workshop@31st Conference on Neural InformationProcessing Systems)
作者:Tommaso Furlanello、Zachary C. Lipton、Laurent Itti、Anima Anandkumar
「雷克世界」编译:嗯~阿童木呀、多拉A亮
知识精炼技术(Knowledge distillation techniques)试图将从已学习教师模型(teachermodel)那里获得的知识迁移到到新的学生模型(student model)中。在以前的研究中,教师通常是一个性能强大的高容量模型,而学生则更为紧凑。通过知识迁移,人们希望能够从学生的紧凑中受益,而与此同时仅收到轻微的性能损失。在本文中,我们重新审视了知识精炼技术,但关注的侧重点有所不同。我们不是压缩模型,而是对那些参数与其双亲参数相同的学生进行训练。令人惊讶的是,这些再生网络(born againnetwork,BAN)的性能表现往往要优于其教师模型。我们在再生密集网络上的实验结果表明,在CIFAR-100数据集上获得的当前最先进性能表现中,用一个单一模型能够达到15.5%的验证误差,而用我们最好的集合则获得的结果为14.9%。此外,我们根据研究结果判定,将知识迁移到不同的架构中是有一定的难度的,但其容量可以与其教师相媲美。在这些实验中,我们展示了,通过在密集网络和类似容量的残差网络之间进行知识迁移能够获得相似的优势。
Leo Breiman在一篇关于算法建模的著名论文《统计建模:两种文化(作者评论和反驳)》中指出,不同的随机算法程序可以生成具有相似验证性能的不同模型。此外,他还指出,我们可以将这些模型组合成一个集合,而这个集合的预测能力要优于每一个组成模型。有趣的是,基于这样一个强大的集合,人们通常可以找到一个更为简单的模型(其复杂度并没有该集合的组成模型更为复杂)来模仿该集合并达到其性能。在Leo Breiman和Nong Shang所著的《再生树(Born Again Trees)》中,Breiman首次提出了这样一个想法,学习一个能够实现多树预测器性能的单一树。这些再生树近似于集合决策,但提供了决策树的公认的可解释性。随后的一系列论文对再生模型的概念进行了重新阐述。
在神经网络社区中,类似的想法也存在于名称模型压缩和知识精炼中。在这两种情况下,这一想法通常是将具有强大性能表现的高容量教师的知识迁移到紧凑的学生当中。尽管在以监督的方式下进行训练时,学生不能直接与教师相匹配,但是知识精炼过程使得学生与教师的预测能力更为接近。
我们提出重新对知识精炼技术进行重新审视,但关注的侧重点有些不同。我们的目的不是压缩模型,而是将知识从教师迁移到一个具有相同容量的学生中。经过这样做,我们发现了一个惊人的结果:学生成为主人,在性能表现上要优于教师。我们联想到自我教学的明斯基序列(Minsky’s Sequence of Teaching Selves),基于此,我们开发了一个简单的重新训练过程:在教师模型收敛之后,我们对一个新学生进行初始化,并且用预测正确标签、与教师输出分布相匹配的双重目标对其进行训练。通过这种方式,预先训练的教师可以偏离环境的梯度,并有可能引导学生走向一个更好的局部最小值。我们将这些学生称之为为再生网络(BANs),并表明当应用于DenseNets中时,再生网络的验证误差要远低于其教师。我们的研究结果表明,尽管收益递减,这个程序仍然是可以应用于多步骤操作中的。
此外,我们还探索了在不依赖于诸如分组卷积、随机深度、学习率重新启动或shake shake的情况下,DenseNets教师所引发的目标函数是否可以用来改进像残差网络这样简单的体系结构,使其能够接近于现有技术的精确度。我们为他们的教师构建了宽泛残差网络(wide-ResNets)和瓶颈残差网络,结果表明,这些BAN-as-ResNets在性能表现上要远远超过其DenseNet教师,并且也大大超越了标准残差网络。
残差密集神经网络
正如最初在《用于图像识别的深度残差学习》中所描述的那样,深度残差网络采用了设计原则,即一些正在现代计算机视觉模型中迅速普及的设计原则,并已经提出了多种扩展性方案,逐步提高了在CIFAR100和Imagenet中上实施的准确性。密集连接网络(DenseNets)是最近提出的一种变体,其中,每个单元末端的求和操作由该单元的输入和输出之间的连接所代替。
通过实验结果,我们发现了令人惊讶的结果,即通过跨类似架构的模型进行知识精炼,BAN-DenseNets和BAN-ResNets在所有配置上都改进了其教师的性能表现。第三代BAN-3-DenseNet-80-80产生一个具有22M参数的单一模型,在CIFAR100上可以达到15.5%的误差,如表1所示。
再生DenseNet:具有不同深度和增长因子的DenseNet、AN-DenseNet的相应序列以及由序列产生的BAN集合在CIFAR100上的测试误差。每个BAN由其左侧的模型的标签损失和交叉熵进行训练。因为我们没有为这个配置训练一个BAN-3,所以我们把原来的老师作为Ens * 3集合的一员加入其中。
据我们所知,这是目前用没有任何形式shake-shake正则化的SGD进行训练的SOTA非集合模型。只有用shake-shake、pyramid-drop和cut-out正则化的组合经过1800轮训练的pyramidal ResNet才能超越其性能表现。
同样,我们最大的BAN-3-DenseNet-BC-80-120集合参数为150M,误差为14.9,是同一设置下所得到的最低集合结果。BAN-3-DenseNet-112-33是基于最好的耦合集合的构造块,在只有6.3M参数的情况下,达到误差为16.59的单误差模型,而且连续两代或三代的集合达到15.77和15.68的可比误差,而在《神经网络的耦合集合》中四个模型所使用的的基线误差为15.68。
最后,如表2 所示,BAN-ResNet在性能表现上,要优于传统的同类产品、没有用DenseNet教师训练的等同ResNet以及他们的DenseNet教师。同样,BAN DenseNet对于层数的变化具有强健的鲁棒性,在内存消耗和连续操作次数之间提供了一个很好的折衷。我们通过将块的数量设置为1或大幅减少特征的数量,设法找到比他们的主人表现更糟的学生。
原文链接:http://metalearning.ml/papers/metalearn17_furlanello.pdf
欢迎个人分享,媒体转载请后台回复「转载」获得授权,微信搜索「BOBO_AI」关注公众号
中国人工智能产业创新联盟于2017年6月21日成立,超200家成员共推AI发展,相关动态:
中新网:中国人工智能产业创新联盟成立
ChinaDaily:China forms 1st AI alliance
证券时报:中国人工智能产业创新联盟成立 启动四大工程搭建产业生态“梁柱”
工信部网站:中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合作备忘录
下载中国人工智能产业创新联盟入盟申请表
关注“雷克世界”后不要忘记置顶哟
我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……
↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册