2016AAAI_Face model compression by distilling knowledge from neurons (商汤)

论文地址    http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/11977/12130

总结

    代替Distilling the knowledge in a neural network (Hinton 2015)中作为知识的soft target,从隐藏层的神经元学习知识,同时考虑到神经元可能包含噪声或无关信息,需要对神经元进行选择,经过选择之后的特征作为训练学生网络的回归对象

思考:什么是有用的知识?

分两步,首先对teacher network的神经元进行选择,然后将选择之后神经元的输出作为监督信息来指导student network的训练,问题:是否要求学生网络的输出特征等于老师网络选择之后的特征图通道数和大小?

问题2:首先对老师网络进行剪枝,然后利用剪枝后神经元的输出指导学生网络训练?

知识设计的目的or本文针对的问题

在人脸识别领域,类别维数高,利用softmax输出(类别概率)作为知识的模型难收敛

 

主要贡献

1,更紧凑的监督信息加速收敛——最后一个fc层的输出不要求是N维,N表示类别数,只需要等于选择之后的神经元个数

2,揭露了人脸识别中的三个观察结果,由此设计了一种有效的神经元选择方式

 

为什么要进行神经元选择?

三个观察结果:

1,人脸识别任务学习到的人脸表征是基于人脸属性的分布式表示。人脸属性包括identity-related attributes(IA)和identity non-related attributes(NA),因此每一个属性可以激活一部分神经元,并且每个神经元不止被一个属性激活

Deeply learned face representation by the face recognition task is a distributed representation [6] over face attributes, including the identity-related attributes (IA), such as gender, race, and shapes of facial components, as well as the identity non-related attributes (NA), such as expression, lighting, and photo quality.

2,有相当一部分的神经元会被NA激活或者同时被IA和NA激活,对NA有分类功能的神经元体现了网络对训练数据的过拟合

However, a certain amount of neurons are selective to NA or both NA and IA, implying that the distributed representation is neither invariant nor completely factorized

3,少量的神经元对所有属性都抑制,可以当作噪声

Furthermore, a small amount of neurons are inhibitive to all attributes and server as noise

 

具体实现

1,损失函数:teacher网络和student网络所提取特征的距离

2,神经元选择:构造一个fully-connected graph,将神经元的选择转换为图优化问题,用mean field algorithm 求解

    图的节点代表神经元,边代表神经元之间的相关性,优化目标包括两部分代价:

(1)单个神经元的选择代价;(2)一对神经元的选择代价

2016AAAI_Face model compression by distilling knowledge from neurons (商汤)_第1张图片

    其中,yi=0或1表示单个神经元是否被选择,选择代价为f(xi),向量xi表征神经元i对人脸属性的判别能力(例如准确判别男女);一对神经元的选择代价是神经元相关性(or相似性)的惩罚函数

    因此,最终选择出的神经元既对人脸属性有强烈的判别能力,同时神经元之间的相关性弱

3,xi如何求取——将神经元分类的重要依据

借助于CelebA dataset数据集(提供了人脸多属性标记,如下图所示)作为验证集,测量单个神经元对不同人脸属性的判别能力(xi)

2016AAAI_Face model compression by distilling knowledge from neurons (商汤)_第2张图片

    根据观察结果1,同一神经元可能对多个属性敏感,xi的第j个元素为该神经元对属性j的平均分类准确率,0.5(TPj+TNj),P/N分别代表属性j的正负样本。进一步得到选择单个神经元的代价函数

 

神经元选择的效果图

1.     对teacher网络DeepID2+提取的特征(outputs of top hidden layer)测试,得到各神经元对不同人脸属性的敏感程度如下图(光强表示程度),验证了之前提出的3个观察结果。

2016AAAI_Face model compression by distilling knowledge from neurons (商汤)_第3张图片

 

2.    另外,文中还给出了DeepID2+网络提取的特征与传统手工设计特征(HOG与LBP)的性能对比(同样是特征对不同人脸属性的判别能力),黑色为IA属性,灰色对应NA属性。

2016AAAI_Face model compression by distilling knowledge from neurons (商汤)_第4张图片

3.    同一神经元对不同输入图片的响应可视化如下图,每个神经元对应的三张图片从左到右分别表示了神经元对某一个属性or某两个属性的微弱、中等、强烈响应。

2016AAAI_Face model compression by distilling knowledge from neurons (商汤)_第5张图片

你可能感兴趣的:(2016AAAI_Face model compression by distilling knowledge from neurons (商汤))