基于Knowledge Distillation的增量学习论文学习(之三)——iCaRL: Incremental Classifier and Representation Learning

这是CVPR 2017的一篇论文,发表以后一直作为IL的一个基准方法被引用。

作者对增量学习的观点包括如下三点:

(1)增量算法可以训练不同时间出现的新数据;

(2)增量算法需在旧数据集中表现良好,即可以完美解决“灾难遗忘”问题;

(3)计算能力与内存应该随着类别数的增加固定或者缓慢增量。

乍看下来,与LwF算法没有太大区别,但因为第(3)条的存在,给作者开了一个口子,即可以存储一部分旧数据,参与增量训练。具体而言,ICARL方法包括三步:

(1)使用特征提取器(可以是任何深度网络已训练完毕的卷积层)对新旧数据(新数据的全部,旧数据中具有代表性的一部分)提取特征向量,并计算出各自的平均向量。

(2)采用最近邻均值分类算法计算出新旧数据的预测值(不采用典型的softmax分类等方法)。

(3)设计双损失函数,对权重进行优化。

基于Knowledge Distillation的增量学习论文学习(之三)——iCaRL: Incremental Classifier and Representation Learning_第1张图片

这个双损失函数的设计与LwF大同小异,一个为常规交叉熵损失,一个为蒸馏损失。不同点包括:

(1)LwF完全不使用旧数据,iCaRL挑选特定旧数据参与训练;

(2)LwF对全部卷积层进行微调训练,iCaRL则仅将卷积层视为特征提取器,训练完后固定参数不动;

(3)计算各类平均特征向量,采用最近均值分类算法(Nearest-Mean-of-Examplars) 计算出新旧数据的预测值,而非通过softmax,关于这一点,作者的解释是避免softmax中权重会随着样本的改变而改变,从而使得输出不可控,导致灾难遗忘。

 

 

你可能感兴趣的:(增量学习,图像分类,incremental,learning,distillation,loss)