利用深度神经网络进行特征的提取和分类取得了很好的效果。在很多视觉会议的竞赛上,CNN(卷积神经网络)的方法效果都不错。一些“基准”的数据集例如:Caltech-101(Fei-Fei et al., 2004),办公室内区域数据集(Saenko et al., 2010)Caltech-UCSD鸟类纹理识别数据集(Wnlinder et al., 2010)以及SUN-397场景识别数据集(Xiao et al., 2010)。在此之前,可以利用传统的特征提取法以及分类方法例如人工神经网络法或者SIFT特征等方法对上述数据集进行分别训练,然后识别。那么问题来了,在有限的数据集上,有监督的深度神经网络结构很容易造成过拟合(Krizhevsky et al., 2012),这应该怎么解决?
本文研究的是,在大规模数据集上进行有监督的训练,提取出来的特征直接应用到其他的分类任务当中。就比如,在ImageNet数据集上训练CNN,得到了一个有参数的神经网络结构,把这个训练好的网络直接作为其他数据集的特征提取器,例如SUN-397数据集。实验证明,这个方法比把SUN-397直接作为训练集单独训练的方法性能更好。作者开发了CAFFE(注:原文中介绍的是DeCAF,现在的版本已经更新并且软件包更名为了“CAFFE”,下文即将提到的CAFFE指的都是原文中的DeCAF),这是一个深度神经网络的开源开发工具,可以直接拿来进行训练数据集,进行特征的提取以及目标分类。如果研究人员不想花费很大的代价训练数据集,作者也公布了训练好的网络模型参数,可以直接拿来进行特征提取或者分类。
感知器学习的重要目标就是找到数据集的主要语义的有效表达方式,也就是好的特征。传统的视觉表达是基于扁平化的特征提取方法(如SIFT特征,梯度过滤法等),这些方法效果很好,但是近几年来进展不大。
人们一直在讨论的一个问题是,深度分层的网络结构可以求得特定区域的主要表达,这些“主要表达”是根据语义簇、部分、中间层特征或者说隐层单元提取的(Hinton&Salakhuidinov, 2006; Fidler&Leonardis, 2007; Zhu et al., 2007; Singh et al., 2012; Krizhevsky et al., 2012)。在一些识别任务上,深度神经网络比传统的手工选择特征的性能还好,而且更适用于一些目前还没有找到较好的特征的例子(Le et al., 2011)。最近成果表明,在基于部分的检测任务上,适当的深度无监督特征方法性能也优于梯度直方图方法(Ren&Ramanan 2013)。
深度网络已经应用于大规模的视觉识别任务中,例如利用了卷积层的BP算法模型(LeCun et al., 1989)。如果在大量训练数据的情况下,网络的性能更好,这已经应用于数字分类任务(LeCun et al., 1998)。利用一个大规模的图像数据集(Deng et al 2009),以及结合了”dropout”方法(Krizhevsky et al., 2012),测试的性能在当时超过了所有已知的方法(Berg et al., 2012)。
在有限的训练集上,有监督深度网络容易造成过拟合(Krizhevsky et al,. 2012)。然而,少量的训练集,正是视觉识别要克服的问题。本文研究了多任务学习的半监督的深度卷积表示方法,模型是从相关的其他数据集上训练得到,但是应用在新的任务中。这样做的原因是,这个”新的任务”的训练样本不够。本文的模型也可以认为是基于有监督的预训练阶段(supervised pre-training phase),也可以把本文的模型提取出来的特征,称为CAFFE特征。CAFFE特征就是经过预训练阶段的目标提取任务中提取出来的。与本文工作有关的方法是,基于相关任务的可学习分类器的特征立即表示法(Li et al., 2010; Torresani et al., 2010; Quationi et al., 2008),即训练出来的网络中直接包含了特征提取器和分类器。
本文主要结论:在ImageNet数据集上训练卷积神经网络,然后在其他数据集上测试,数据集包括Caltech-101(Fei-Fei et al 2004),office区域适应数据集(Saenko et al 2010),细致纹理识别数据集(Welinder et al 2010),场景识别数据集(Xiao et al 2010)。测试的结果比在Caltech101这些数据集单独训练分类的结果更好,说明了CNN适用于大规模数据集的训练。
在cv(计算机视觉)领域,深度卷积神经网络的应用很早,一个用有监督反向传播算法的神经网络成功应用在数字识别上(LeCun et al., 1989)。更近的成果,例如2012年的卷积网络(Krizhevsky et al 2012)在很多基准数据集上的性能测试都取得了冠军,它可以训练100万图片,如ImageNet数据集(Berg et al., 2012)。
“从相关的其他任务的进行学习”这种思想,在机器学习领域的应用也很早(Caruana 1997;Thrun 1996)。之后的工作(Argyriou et al 2006),提出相关任务的最优表示框架,2005年的论文(Ando&Zhang 2005)探索如何把(网络)参数转移到相关的其他任务上。CV领域,在相关任务的训练分类器上形成表示方法(特征),在检索和分类上很有效,尤其当分类器用在视觉方面的工作上(Torresani et al 2010;Li et al 2010)。此类学习的核心问题是,找到特征表示方法,它能得到与目标类别有关的信息并且抛弃了不相关的噪音,例如:亮度。
利用深度表示法(特征)跨任务进行学习,已经在广泛研究,尤其在无监督应用上(Raina et al 2007;Mesnil et al., 2012)。然而,这些paper里的基于卷积网络的模型虽然取得成功,但是限制在较小的数据集中,例如CIFAR和MNIST,但是对于大型数据集则不多(Le et al 2012)。本文研究了“有监督的预训练”,它在cv和多媒体应用成功,利用concept-bank paradigm(Kennedy&Hauptmann 2006;Li et al., 2010; Torresani et al., 2010),方法在大规模数据集进行有监督训练特征,然后应用到其他任务上面(任务不同,标签也不同,重新训练分类器)。
为了评价深度卷积特征的通用性,本文在一些和ImageNet数据集有误差的其他数据集上进行训练和测试。比如SUN-397数据集和场景适应数据集(Chopra et al., 2013; Kulis et al., 2011)。本文评价了学习到的特征是否可以消除“区域偏差”,通过捕捉真实的语义信息,而不是特定区域的过拟合信息。
欢迎登陆我的个人主页,hello2019,查看原文:http://richardliu.cn/
欢迎登陆我的个人主页,hello2019,查看原文: http://richardliu.cn/