一文读懂深度适配网络（DAN）

这周五下午约见了机器学习和迁移学习大牛、清华大学的龙明盛老师。老师为人非常nice，思维敏捷，非常健谈！一不留神就谈了1个多小时，意犹未尽，学到了很多东西！龙明盛老师在博士期间（去年博士毕业）发表的文章几乎全部是A类顶会，他在学期间与世界知名学者杨强、Philip S. Yu及Michael I. Jordan多次合作，让我非常膜拜！这次介绍他在ICML-15上提出的深度适配网络。

深度适配网络（Deep Adaptation Netowrk，DAN）是清华大学龙明盛提出来的深度迁移学习方法，最初发表于2015年的机器学习领域顶级会议ICML上。DAN解决的也是迁移学习和机器学习中经典的domain adaptation问题，只不过是以深度网络为载体来进行适配迁移。DAN是深度迁移学习领域的代表性工作，被UC Berkeley、HKUST等世界知名大学不断引用。杨强老师对DAN的评价很高，在Google Scholar上也有着很高的引用量，可以被看作是深度迁移学习领域的经典文章。值得注意的是DAN文章的最后一位作者是Michael I. Jordan，机器学习领域的泰山北斗。所以这篇文章的含金量非常的大。

背景

继Jason Yosinski在2014年的NIPS上的《How transferable are features in deep neural networks?》探讨了深度神经网络的可迁移性以后，有一大批工作就开始实际地进行深度迁移学习。我们简要回顾一下Jason工作的重要结论：对于一个深度网络，随着网络层数的加深，网络越来越依赖于特定任务；而浅层相对来说只是学习一个大概的特征。不同任务的网络中，浅层的特征基本是通用的。这就启发我们，如果要适配一个网络，重点是要适配高层——那些task-specific的层。

适配高层网络的代表性工作是Eric Tzeng等人在2014年发在arXiv上的《Deep domain confusion: maximizing for domain invariance》（至今没找到到底发在哪了）。这篇文章针对于预训练的AlexNet（8层）网络，在第7层（也就是feature层，softmax的上一层）加入了MMD距离来减小source和target之间的差异。这个方法简称为DDC。这篇文章概括一点说，就是适配了最高层网络，只有一层。那么，是否只适配这一层就够了呢？

介绍

DAN是在DDC的基础上发展起来的，它很好地解决了DDC的两个问题：

DDC只适配了一层网络，可能还是不够，因为Jason的工作中已经明确指出不同层都是可以迁移的。所以DAN就多适配几层；
DDC是用了单一核的MMD，单一固定的核可能不是最优的核。DAN用了多核的MMD（MK-MMD），效果比DDC更好。

一文读懂深度适配网络（DAN）

背景

介绍

方法

你可能感兴趣的:(人工智能)