?数浅谈深度学习?
香港中文大学 罗平教授
罗平,2011至14年港中文攻读博士师从汤晓鸥和王晓刚,16至17年商汤研究院访问任研究总监,18年港中文研究助理教授。近5年发表论文70余篇Google Scholar引用4700余次。其工作具开创性,例如最早把深度学习用于行人、人脸分割、与人脸生成(CVPR12, ICCV13, NIPS14);首先提出CNN求解MRF用于语义分割等 (ICCV15, PAMI16);其人脸关键点工作(ECCV14, PAMI15)是多任务深度学习的代表性工作。他主导建立多个数据集如DeepFashion,CelebA,ComprehensiveCar和WIDERFace等。近期提出深度神经网络白化与归一化方法,例如GWNN (ICML17), EigenNet (IJCAI17), Switchable Normalization (arXiv:1806.10779), BN Regularization (arXiv:1809.00846) 与Kalman Normalization (NIPS18)等。
罗平教授Webinar的题目为:数浅谈深度学习:归一化的正则与泛化
在报告中,罗平教授首先回顾了近年来深度学习网络结构设计和求导的基本方法。并总结性地指出深度学习的优化问题可以认为是一个前向传播网络结构设计问题。在第一部分工作中介绍了网络结构的白化方法,并详细介绍了如何实现网络的输入和反传梯度白化的方法。在第二部分工作中以批归一化(Batch Normalization, BN)为起点介绍了归一化方法,并总结BN是保持了前向和后向的信息流,并且BN可以认为是一种隐式的约束(implicit regularization)。通过分析,BN可以认为是population normalization加gamma decay。在分析的基础上介绍了显示约束的方法,并指出在BN中均值和方差有不同的影响,都很重要。这些结论对设计与batch无关的归一化方法很重要。在第三部分中介绍了一个新的观点,即不同的CNN层需要不同的归一化方法。在此部分对不同归一化的方法(WN, IN, LN, BN, SN)的方法进行了简要介绍。最后一部分介绍了instance和batch联合做归一化的方法(IBN-Net)和卡尔曼归一化(Kalman Normalization)。在ImageNet、分割等实验中的结果发现IBN-Net和卡尔曼归一化都是有效的。
问答部分:
问题1:可变化归一化(Switchable Normalization SN)适合RNN网络吗,比如RNN、LSTM、GRU?
回答:在Switchable Normalization arXiv的第一个版本v1中,实验部分使用SN进行NAS训练。验证SN可以应用于RNN。不过需要考虑在Omega里选择的normalizers。
问题2:对BN,LN,IN进行对比时说到batch-size越小,BN影响越大是吗?那是不是batch-size越小越好呢?
回答:其实不是,batch size越小,mu和sigma带来的噪声越多,训练越不稳定。batch size很小的时候通常BN难以收敛。
问题3:batchsize比较小的时候,SN,BN以及IN差异大吗?
回答:SN的paper里有每一层的可视化。
问题4:SN适合文字识别吗?
回答:应该是可以的。norm前后有不同的结构的话,要看是否适合BN, LN, IN。具体要对不同norm的权重做些适应(可以学习)。
问题5:前学术界的行人重识别的成果能具体应用到工业界吗?如果仍面临挑战,您预测多久能真正应用到工业界?
回答:其实工业界有应用了。
问题6:关于SN在GAN上面的工作预计会什么时候能看到?
回答:会在1-2个月内出来。在GAN上做各种norm的研究是很有意思的。初步结果SwitchableNorm与SpectralNorm一样有效。
问题7:neural search architecture的工作是把BN放在search space吗?
回答:实际上放在了附录里面。
问题8:LN是专门用在RNN网络里的,那么SN用在RNN会比LN效果好吗?
回答:会的。
问题9:SN适合SR或者去噪等low-level vision任务?
回答:SwitchNorm应用在low-level vision问题上应该没问题。
问题10:正则化数据对实际问题的真正作用是什么?
回答:平滑解空间。现在优化时SGD其实是有问题的。所以需要更好的方式来做。
问题11:Grouped normalization (GN)中把norm分成了两个维度,sn跟动态学习这两个维度有什么区别?
回答:SN每个norm的权重在每个channel是共享的。如果不share就是分group。
问题12:第二部分结束时候放了generalization 效果的比较,那个泛化能力是怎么评价的?
回答:Natural gradient的好处,可以让训练变得更快,泛化能力更强。
问题13:我记得BN中的mu和sigma是在多个Batch中估计的,有些框架的BN是在所有训练数据中估计mu和sigma后固定,训练,一定代数后重新训练。您实验中的BN的做法是不是不同?
回答:在多个minibatch估计值的是同步BN。实际应用中可以这么做。SN的BN也可以同步。关键在于不同normalization layer需要不同的操作。
问题14:normalization方法是不是会影响sgd的learning rate?
回答:是的。一般真正发挥作用的lr称为effective lr。BN使得effective lr与gamm成正比,卷积层的参数(filter)成反比。
问题15:白化网络可不可以理解为对上一层的output feature做白化处理,那么是不是也可以做其他操作,比如PCA、ICA?
回答:是的。
录像视频在线观看地址:
http://www.iqiyi.com/u/2289191062
PPT链接:
http://vision.ouc.edu.cn/valse/slides/20181024/valse18-10-24-pluo.pdf