【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification

HCP:用于多标签图片分类的灵活的卷积神经网络

【初次翻译此类文章,翻译不当之处敬请指正】

 

摘要——卷积神经网络(CNN)在单标签图片分类任务中表现出良好的性能。但是,如何最好地利用CNN处理多标签图片仍然是一个难题,主要是由于复杂的底层对象布局和多标签训练图片的缺乏。在本文中,我们提出了一个灵活的深度卷积神经网络框架,叫做“Hypothesis-CNN-Pooling(HCP)”,其中以任意数量的对象片段假设作为输入,然后将共享CNN与每个假设相连。最后,通过最大值汇总将来自不同假设的CNN输出结果进行最大池化(译者注1),从而产生最终的多标签预测。这种灵活的深度卷积神经网络框架包括以下独特特性:

1)训练不需要完全真实的包围盒信息;

2)整个HCP框架对于可能的噪声和/或冗余假设是健壮的;

3)共享的CNN是灵活的,可以通过大型单标签图像数据集(如ImageNet)进行良好的预训练;

4)自然输出多标签预测结果。

在Pascal VOC 2007和VOC 2012多标签图像数据集上的实验结果很好地证明了HCP框架优于其他先进技术。值得一提的是,仅使用HCP时,mAP达到90.5%,而与我们基于VOC 2012数据集手工制作的补充结果[12]融合后达到93.2%。

 

关键词——深度学习,CNN(卷积神经网络),多标签分类

 

注1:即max pooling。后文所有的pooling将翻译为“池化”,max pooling为“最大池化”。

 

引言

    单标签图像分类旨在将标签从预定义集合分配给图像,在过去几年[10]、[14]、[18]中得到了广泛的研究。对于图像表示和分类,传统方法利用精心设计的手工特征,例如SIFT [29],以及词袋编码方案,接着是特征池化[24]、[32]、[39]和经典的分类器,如支持向量机(SVM)[5] 和随机森林[3]。近年来,与手工制作的特征相比,具有深层网络结构的学习图像特征在各种视觉识别任务中显示出巨大的潜力[21]、[23]、[25]。在这些体系结构中,图像分类的最大突破之一是深层卷积神经网络(CNN)[23],它在大规模单标签目标识别任务(也就是ImageNet大规模视觉识别挑战(ILSVRC),它具有来自1000个对象类别的100多万幅图像)中,它已经获得了最先进的性能(比先前基于手工特征的方法提高了10%)。

然而,由于现实世界中的大多数图像包含来自多个不同类别的对象,因此多标签图像分类是更普遍和实用的问题。对于一个典型的多标签图像,不同类别的对象以不同的比例和姿态位于不同的位置。此外,多标签图像中对象之间的不同组合和交互,如局部可见性和遮挡,也增加了问题的复杂性,这需要更多的注释数据来覆盖不同的情况。例如,如图1所示,对于单标签图像,前景对象大致对齐,而对于多标签图像,即使具有相同的标签,即马和人,马和人实例的空间布置在不同图像之间也变化很大。相对于实际用于采集和注释的单标签图像,大规模多标签图像数据集的注释负担要重得多。目前人们已经提出了许多方法[8]、[12]、[32]来解决这个更具挑战性的问题。CNN在单标签图像分类上的成功也为解决多标签图像分类问题提供了一些启示。一般来说,CNN能够很好地处理具有良好对齐的对象的图像,而它在预测具有严重未对齐或遮挡的对象的图像时相对不准确。因此,通过将多标签问题放宽为若干个单标签任务,并减轻对准和遮挡问题,可以更好地利用CNN模型的强大的区分能力。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第1张图片

    最近,许多基于假设的方法已经被提出用于检测[9]和分割[40]。通过生成包围盒或片段的假设池,可以将多标签问题转换为单标签预测的几个子任务。由于对象假设通常具有较高的客观性置信度,这意味着它们更可能包含某些语义对象,所以在裁剪和规范化之后,错误对齐和遮挡都可以稍微减轻。基于假设的思想和传统CNN模型的单标签分类性能,本文提出了一种灵活的深层CNN结构,称为假设-CNN-池化(Hypotheses-CNN-pooling,HCP)。HCP以任意数量的对象片段假设(H)作为输入,这些假设可以由最新的客观性检测技术(例如,二值化规范梯度(BING)或EdgeBoxes)生成,然后共享CNN(C)与每个假设连接。最后,为了将不同假设下的单标签CNN预测聚合为多标签结果,将新的池化层(P)集成到所提出的CNN模型中,给出最终的多标签预测。特别是,所提出的HCP基础设施具有以下特征:

  • 在多标签图像数据集上不需要真实的包围盒信息。与以往使用真实包围盒信息进行训练的工作[7]、[12]、[30]不同,所提出的HCP不需要包围盒注释。由于包围盒注释比标记成本高得多,注释负担显著减少。因此,所提出的HCP在转移到新的多标签图像数据集时具有更好的泛化能力。
  • 所提出的HCP基础设施对于噪声和/或冗余假设是健壮的。为了抑制可能的噪声假设,执行交叉假设最大池化操作以将共享CNN的输出用于集成预测。使用最大池化,高预测分数的包含对象的假设被保留,噪声大的则被丢弃。因此,只要一个假设包含感兴趣的对象,就可以在交叉假设池化之后抑制噪声。冗余假设也可以使用最大池化很好地解决。
  • 共享的CNN是灵活的,可以很好地使用一个大规模的单标签图像数据集进行预训练。为了解决多标签训练图像不足的问题,基于HypothesesCNN-Pooling体系结构,共享CNN可以首先在大规模单标签数据集(例如ImageNet)上进行良好的预训练,然后在目标多标签数据集上进行微调。此外,共享CNN的体系结构是灵活的,可以使用各种先进的CNN作为共享CNN,如Networkin-Network [28]、Spatial Pyramid Pooling Net [20]、Very Deep Net [36] 和GoogLeNet [37]。
  • HCP输出本质上是多标签预测结果。HCP在softmax层之后的标签上产生一个标准化的概率分布,并且预测的概率值本质上是对应类别的最终分类置信度。

 

2 相关工作

深度学习试图通过使用由多个非线性转换组成的体系结构来对视觉数据的高级抽象进行建模。具体而言,深层卷积神经网络(CNN)在单标签数据集(例如,ImageNet)和事件检测上已经证明了图像分类[20]、[21]、[23]、[26]、[27]、[28]、[37]的非凡能力。

最近,CNN架构已被用来解决多标签问题。Gong等人[16]研究并比较了基于类似于[23]的网络结构的多标签注释问题的几种多标签损失函数。然而,由于CNN需要学习大量的参数,一个有效的模型需要大量的训练样本。因此,对于训练样本数量有限的数据集,训练任务特定的卷积神经网络是不适用的。

近期的研究成果 [6]、[11]、[15]、[17]、[30]、[33]、[34]、[36]已经证明,在具有数据多样性的大数据集上预训练的CNN模型,例如ImageNet,可以在没有足够训练数据的情况下被传输以提取其他图像数据的CNN特征。Pierre等人[34]和Razavian等人[33] 提出了一种用于多标签分类的CNN特征SVM流水线。具体来说,来自多标签数据集的全局图像被直接馈送到在ImageNet上预先训练的CNN中,以获得CNN激活作为现成的分类特征。Chattield等人[6] 探讨了基于不同CNN结构的CNN表示对多标签分类任务的影响。Simonyan等人[36] 基于两个超深卷积网络,在大范围范围内提取和聚集图像描述符,在具有SVM classifier的Pascal VOC数据集上实现了最先进的性能。

另外,Oquab等[30]和Girshick等[15]提出了两种基于多方案的多标签分类和检测方法。虽然这两种方法已经取得了相当大的改进,但是它们高度依赖于真实的包围盒,这限制了它们在没有任何包围盒信息的情况下转移到新的多标签数据集时的泛化能力。具体而言,所有与真实包围盒重叠≥0.5IoU的假设都被视为该盒类别的正值,而其余的假设在[15]中被视为负值。接下来这些标记的假设被用于对预先训练的CNN进行微调。相比之下,提出的HCP框架不需要用于训练的真实包围盒信息,并且对于可能嘈杂和/或冗余的假设是健壮的。不同于[15],[30],该框架在训练过程中不需要明确的假设标记,更提出了一种新的假设选择方法来选择少量的高质量的训练假设。

 

3 假设-卷积神经网络-池化

    图2显示了所提出的HCP深度网络的体系结构。我们应用对象检测技术,例如BING[9]或EdgBoxes [44],来产生一组候选对象窗口。然后,通过假设的选择方法,选择一个更小数量的候选窗口作为假设。所选择的假设被馈送到共享CNN。来自输入假设的置信向量通过具有最大池化操作的融合层组合,以产生最终的多标签预测。具体而言,共享CNN首先在大规模单标签图像数据集(即,ImageNet)上进行预训练,然后通过使用整个图像作为输入,对目标多标签数据集(例如,Pascal VOC)进行微调。之后,我们用平方损失函数对所提出的HCP进行重新训练,用于最终预测。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第2张图片

3.1提取假设

    HCP以任意数量的对象片段假设作为共享CNN的输入,将每个假设的预测与最大池化操作进行融合,得到最终的多标签预测。因此,所提出的HCP的性能很大程度上取决于所提取的假设的质量。然而,设计一个有效的假设提取方法是有挑战性的,它应该满足以下标准:

  • 高目标检测召回率。提出的HCP基于输入假设可以覆盖给定多标签图像的所有单个对象的假设,这要求较高的检测召回率。
  • 少量假设。由于给定多标签图像的所有假设需要同时被馈送到共享CNN,所以更多的假设需要更多的计算资源(例如,RAM和GPU)。因此,对于有效的假设提取方法来说,小的假设数是优选的。
  • 计算效率高。作为提出的HCP的第一步,假设提取的效率将显著影响整个框架的性能。HCP具有很高的效率,可以很容易地集成到实时应用中。

    综上所述,一个好的假设生成算法应该以有效的方式生成尽可能少的假设,同时实现尽可能高的召回率。

    在过去的几年中,许多客观性建议(假设)方法[1]、[2]、[4]、[9]、[38]、[44]被提出来产生一组假设,以覆盖给定图像中的所有独立对象。实验上,我们采用BING[9]和EdgeBo.[44]两种方法生成假设,因为它们具有高的计算效率和高的对象检测召回率。尽管与一般的滑动窗口范例相比,由BING或EdgeBox生成的假设数量非常少,但对于HCP训练来说仍然非常大。为了解决这个问题,我们提出了一个假设选择(HS)的方法来选择假设从生成的建议。表示给定的图像的生成的假设包围盒作为H ={h1,h2,…hn},,其中n是假设数。构造一个n*n亲和矩阵W,其中Wij(i;j<=n)是hi和hj之间的IoU值,它可以定义为:

其中|·|用于测量像素的数目。然后采用归一化分割算法[35]将假设包围盒分组到M群中。如图3b所示,不同的颜色指示不同的簇。我们根据经验过滤掉那些小面积(<900像素)或较高的高宽(或宽高)比(>4)的假设,如图3c中红色边界框所示。对于每个集群,我们选择BING或EdgeBoxes生成的预测得分最高的前1种假设,并将其调整为方形。因此,将选择比建议方法直接生成的假设少得多的m个假设作为每个图像的HCP的输入。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第3张图片

3.2 训练HCP

    在建议的HCP中,任何最先进的CNN模型[23]、[28]、[36]、[37]均可作为共享CNN使用。以Alex Net [23]为例,它包含五个卷积层和三个具有6000万参数的全连接层。没有足够的训练图像,很难获得一个有效的多标签分类HCP模型。然而,收集和注释一个大规模的多标签数据集通常是困难的。幸运的是,可以使用大规模的单标签图像数据集,即ImageNet,对共享CNN进行参数初始化的预训练,因为每个多标签图像首先被裁剪成许多假设,并且基于HCP。

HCP的初始化过程主要包括两个步骤。首先,用ImageNet预先训练的参数初始化共享CNN。其次,将网络的最终完全连接层(训练用于1000路ImageNet分类)替换为c路完全连接层,其中c是目标多标签数据集的类别号,并且采用图像精细化(I-FT)过程来初始化最终结果。利用目标多标签图像集作为输入的全连接层。

初始化后,基于所提出的HCP框架进行假设微调(H-FT)。具体而言,在训练图像的第3.1节中阐述的所有M假设被馈入共享的CNN。为了抑制可能的噪声假设,执行交叉假设最大池来将输出融合为一个综合预测。假设vi(i=1,…,m)是共享CNN的第i个假设的输出向量,vi(j)(j=1,…,c)是vi的第j个分量。在融合层中的交叉假设最大池可以表述为:

 

    其中v(j)可以被认为是给定图像的第j个类别的预测值。

    值得注意的是,I-FT是HCP培训的重要步骤。原因是,对于每个地面真值标签,在交叉假设最大池操作之后,应该选择一个实例来表示这个类。在最后一个完全连接的层没有合理的参数,初始链路可能不正确,这可能导致CNN模型陷入局部最优。此外,交叉假设最大池是整个HCP框架对噪声的健壮性的关键步骤。如果一个假设包含一个对象,则输出向量对第j个组件具有高响应(即,大值),这意味着对应第j个类别的高置信度。使用交叉假设最大值池,将保留与感兴趣的对象相对应的大预测值,而来自噪声假设的值将被抑制。

对于I-FT和H-FT,我们实验使用平方损失作为损失函数。假设在多标签图像集中有N个图像,yi=[yi1 , yi2 , … yic]是第i个图像的标签向量。如果图像用类J注释,则yij=1(j=1 , … , c),否则yij=0。第i图像的真实概率向量定义为pi= yi/|| yi ||1,预测概率向量为pi=[pi1 , pi2 , … , pic]。然后将被最小化的代价函数定义为

3.3 测试图像的多标签分类

基于训练的HCP模型,给定图像的多标签分类可以概括如下。我们首先基于假设提取方法生成给定图像的输入假设。然后,对于每个假设,可以通过共享的CNN获得C维预测结果。最后,利用交叉假设最大池合并伴随Softmax进行最终预测。如图4所示,第二行和第三行指示生成的假设以及来自共享CNN的相应输出。对于每个对象假设,在相应的类别上存在高响应(例如,对于第一假设,对汽车的响应非常高)。如图4中的最后一行所示,在交叉假设最大池操作之后,可以视为预测标签的高响应(即汽车、马和人)被保留。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第4张图片

 

4 实验结果

4.1 数据集和设置

    我们在PASCAL视觉对象类挑战(VOC)数据集[13]上评估所提出的HCP,该数据集被广泛用作多标签分类的基准。本文采用PASCAL VOC 2007和VOC 2012进行实验。这两个数据集分别包含9963个和22531个图像,被划分为trainvaltest子集。我们在trainval/test 分割(VOC 2012的5011/4952和VOC 2007的11540/10991)上进行实验。评估指标是平均精度(AP)和AP的平均值(mAP),符合PASCAL挑战协议。我们基于两个CNN模型,即Alex Net [23] 和VGG网(16层)[36],对所提出的方法进行了实验验证。我们直接应用Jia等人[22] 和西蒙尼等人[36] 使用1000个ImageNet类预先训练的参数来初始化CNN模型。对于假设微调,包围盒聚类M的数目设置为15。在补充材料中提供了模型部件的详细说明。所有的实验都是在一个6GB内存的NVIDIA GTX Titan GPU上进行的,我们所有的训练算法都是基于Jia等人提供的代码[22]。

4.2 图像分类结果

与I-FT的比较:表1显示了从I-FT到HCP的改进细节。可以看出,基于所提出的HCP框架,分类性能可以进一步提高至少5.7%。I-FT和HCP的结果是基于分别使用单中心裁剪和500个EdgeBoxes假设进行测试的。图5示出了基于不同模型的测试结果的示例。可以看出,在给定的图像中有三个真实类别,即汽车、马、人。应该注意的是,汽车类别没有被I-FT检测出来,而HCP成功恢复了该类别。这可能是因为所提出的HCP是基于假设的方法并且前景(即,马、人)和背景(即,汽车)对象都可以被等效地处理。然而,在i-FT阶段,整个图像被视为输入,这可能导致对一些背景对象的无知。我们还用500个假设来检验i-FT模型,但改进非常有限。详情请参阅补充资料。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第5张图片【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第6张图片

与使用不同数量的假设进行测试的比较:表2通过在VOC 2007的测试阶段改变假设的数目(从50到500)来显示测试结果。我们基于Alex Net和VGG Net 将BING [9]与EdgeBoxes [44] 进行比较。可以观察到,EdgeBoxes比BING稍微好一些。此外,随着假设数的减少,两个提案生成器的性能都非常稳定(从500下降到50,仅下降1%到1.6%)。因此,即使只有少量的假设,我们的方法仍然可以达到令人满意的性能。具体而言,采用Top-50假设,基于VGG Net的性能为89.9%。这一结果仍然优于[36](即89.3%),并且一个图像的测试可以在2s内完成。

【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第7张图片

与最先进的方法进行比较。表3和表4分别将我们的实验结果与VOC 2007和VOC 2012的最先进的方法进行了比较。表3和表4的上部和底部分别显示了由单个模型和组合模型产生的结果。此外,标记为*的方法是使用附加图像,即ImageNet,用于训练。我们的所有结果都是通过利用EdgeBoxes生成的每个测试图像的前500个假设作为输入。Alex Net和VGG Net在GPU上的测试时间约为3s/image和10s/image,包括提案生成。(EdgeBoxes:0.25s/image)【翻译】HCP: A Flexible CNN Framework for Multi-Label Image Classification_第8张图片

从实验结果可以看出,单HCP-VGG模型的性能优于以往的方法。具体地,在[36]中,首先应用预先训练的VGG模型来提取大范围图像尺度(Q 2 256;384;512;640;768)上的视觉特征,然后通过平均来聚集(5个尺度和每个尺度50个裁剪的补丁)以生成最终图像表示,其中用SVM分类器实现了最新的性能。从表3和表4可以看出,我们的单个模型结果在两种模型体系结构以及它们的组合模型上都优于[36]。如表2所示,在测试中使用相同数量(即250)的假设,我们的单一模型可以达到90.8%,这比[36]的单一模型增加了1.5%。在补充材料中提供了更详细的比较分析。

在VOC 2012上,MVMI-DSP和Tencent-BestImage在公共排行榜上取得了一些最新的研究成果,分别达到90.7%和90.4%。然而,如它们的描述所示,这两种结果都是通过某种组合获得的。为了进一步改进,我们将HCP-VGG的预测分数与我们以前的模型NUS-PSL[12](它在PASCAL VOC 2012分类任务中获优胜奖)进行了融合。令人难以置信的是,通过这两种模型的组合产生的mAP得分可以飙升到93.2%,这优于所有其他方法。

 

5 结论

本文提出了一种Hypotheses-CNN-Pooling(HCP)框架来解决多标签图像分类问题。基于所提出的HCP,对大规模单标签图像数据集(如ImageNet)进行预训练的CNN可以成功地传输以解决多标签问题。此外,所提出的HCP不需要用于训练的边界框注释,因此可以容易地适应新的多标签数据集。我们对VOC 2007和VOC 2012进行了评估,证实了HCP与现有技术相比可以取得显著的改进。此外,还证明了CNN输出与手工特征方案之间的后期融合可以显著提高分类性能。

 

致谢

    本课题来源于国家基础研究计划(2012CB316400)、基础科学研究项目(K15JB00360)、国家自然科学基金(61210006、61532005)。

 

参考文献

[1] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image

windows,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 34,

no. 11, pp. 2189–2202, Nov. 2012.

[2] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik, “Multiscale

combinatorial grouping,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog.,

2014, pp. 328–335.

[3] L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. 1, pp. 5–32, 2001.

[4] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation

using constrained parametric min-cuts,” IEEE Trans. Pattern Anal. Mach.

Intell., vol. 34, no. 7, pp. 1312–1328, Jul. 2012.

[5] C.-C. Chang and C.-J. Lin, “LIBSVM: A library for support vector

machines,” ACM Trans. Intell. Syst. Technol., vol. 2, no. 3, p. 27, 2011.

[6] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman, “Return of the

devil in the details: Delving deep into convolutional nets,” arXiv preprint

arXiv:1405.3531, 2014.

[7] Q. Chen, Z. Song, J. Dong, Z. Huang, Y. Hua, and S. Yan, “Contextualizing

object detection and classification,” IEEE Trans. Pattern Anal. Mach. Intell.,

vol. 37, no. 1, pp. 13–27, Jan. 1, 2015.

[8] Q. Chen, Z. Song, Y. Hua, Z. Huang, and S. Yan, “Hierarchical matching

with side information for image classification,” in Proc. IEEE Conf. Comput.

Vis. Pattern Recog., 2012, pp. 3426–3433.

[9] M.-M. Cheng, Z. Zhang, W.-Y. Lin, and P. H. S. Torr, “BING: Binarized

normed gradients for objectness estimation at 300fps,” in Proc. IEEE Conf.

Comput. Vis. Pattern Recog., 2014, pp. 3286–3293.

[10] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “ImageNet:

A large-scale hierarchical image database,” in Proc. IEEE Conf. Comput. Vis.

Pattern Recog., 2009, pp. 248–255.

[11] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell,

“Decaf: A deep convolutional activation feature for generic visual recognition,”

arXiv preprint arXiv:1310.1531, 2013.

[12] J. Dong, W. Xia, Q. Chen, J. Feng, Z. Huang, and S. Yan, “Subcategoryaware

object classification,” in Computer Vis. Pattern Recog., 2013, pp.

827–834.

[13] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman,

“The pascal visual object classes (VOC) challenge,” Int. J. Comput. Vis., vol.

88, no. 2, pp. 303–338, 2010.

[14] L. Fei-Fei, R. Fergus, and P. Perona, “Learning generative visual models

from few training examples: An incremental Bayesian approach tested on

101 object categories,” Comput. Vis. Image Understanding, vol. 106, no. 1,

pp. 59–70, 2007.

[15] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies

for accurate object detection and semantic segmentation,” arXiv preprint

arXiv:1311.2524, 2013.

[16] Y. Gong, Y. Jia, T. K. Leung, A. Toshev, and S. Ioffe, “Deep convolutional

ranking for multi label image annotation,” arXiv preprint arXiv:1312.4894,

2013.

[17] Y. Gong, L. Wang, R. Guo, and S. Lazebnik, “Multi-scale orderless pooling

of deep convolutional activation features,” arXiv preprint arXiv:1403.1840,

2014.

[18] G. Griffin, A. Holub, and P. Perona, “Caltech-256 object category dataset,”

2007.

[19] H. Harzallah, F. Jurie, and C. Schmid, “Combining efficient object localization

and image classification,” in Proc. IEEE Conf. Comput. Vis. Pattern

Recog., 2009, pp. 237–244.

[20] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional

networks for visual recognition,” in Proc. Eur. Conf. Comput. Vis.,

2014, pp. 346–361.

[21] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun, “What is the best

multi-stage architecture for object recognition?” in Proc. Int. Conf. Comput.

Vis., 2009, pp. 2146–2153.

[22] Y. Jia. (2013). Caffe: An open source convolutional architecture for fast

feature Embedding [Online]. Available: http://caffe.berkeleyvision.org/

[23] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with

deep convolutional neural networks,” in Proc. Neural Inf. Process. Syst.,

2012, pp. 1106–1114.

[24] S. Lazebnik, C. Schmid, and J. Ponce, “Beyond bags of features: Spatial

pyramid matching for recognizing natural scene categories,” in Proc.

IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recog., 2006, vol. 2,

pp. 2169–2178.

[25] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and

L. Jackel, “Handwritten digit recognition with a back-propagation

network,” in Advances in Neural Information Processing Systems. San Mateo,

CA, USA: Morgan Kaufmann, 1990.

[26] Y. LeCun, F. J. Huang, and L. Bottou, “Learning methods for generic object

recognition with invariance to pose and lighting,” in Proc. IEEE Comput.

Soc. Conf. Comput. Vis. Pattern Recog., 2004, vol. 2, pp. II-97–II-104.

[27] H. Lee, R. Grosse, R. Ranganath, and A. Y. Ng, “Convolutional deep belief

networks for scalable unsupervised learning of hierarchical representations,”

in Proc. Int. Conf. Mach. Learn., 2009, pp. 609–616.

[28] M. Lin, Q. Chen, and S. Yan, “Net ^ A-work in net ^A-work,” arXiv preprint

arXiv:1312.4400, 2013.

[29] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,”

Int. J. Comput. Vis., vol. 60, no. 2, pp. 91–110, 2004.

[30] M. Oquab, L. Bottou, I. Laptev, and J. Sivic, “Learning and transferring

mid-level image representations using convolutional neural networks,” in

Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2014, pp. 1717–1724.

[31] M. Oquab, L. Bottou, I. Laptev, and J. Sivic, “Weakly supervised object recognition

with convolutional neural networks,” INRIA, Le Chesnay, France,

Tech. Rep. HAL-01015140, 2014.

[32] F. Perronnin, J. Sanchez, and T. Mensink, “Improving the fisher kernel for

large-scale image classification,” in Proc. Eur. Conf. Comput. Vis., 2010,

pp. 143–156.

[33] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, “CNN features

off-the-shelf: An astounding baseline for recognition,” arXiv preprint

arXiv:1403.6382, 2014.

[34] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun,

“Overfeat: Integrated recognition, localization and detection using convolutional

networks,” arXiv preprint arXiv:1312.6229, 2013.

[35] J. Shi and J. Malik, “Normalized cuts and image segmentation,” IEEE Trans.

Pattern Anal. Mach. Intell., vol. 22, no. 8, pp. 888–905, Aug. 2000.

[36] K. Simonyan and A. Zisserman, “Very deep convolutional networks for

large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.

[37] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V.

Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” arXiv

preprint arXiv:1409.4842, 2014.

[38] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders, “Selective search

for object recognition,” Int. J. Comput. Vis., vol. 104, no. 2, pp. 154–171, 2013.

[39] J. Wang, J. Yang, K. Yu, F. Lv, T. Huang, and Y. Gong, “Locality-constrained

linear coding for image classification,” in Proc. IEEE Conf. Comput.

Vis. Pattern Recog., 2010, pp. 3360–3367.

[40] W. Xia, C. Domokos, L. F. Cheong, and S. Yan, “Background context augmented

hypothesis graph for object segmentation,” IEEE Trans. Circuits

Syst. Video Technol., vol. 25, no. 4, pp. 582–594, Sept. 2015.

[41] W. Xia, C. Domokos, J. Dong, L.-F. Cheong, and S. Yan, “Semantic segmentation

without annotating segments,” in Proc. IEEE Int. Conf. Comput. Vis.,

Sydney, Australia, Dec. 2013, pp. 2176–2183.

[42] Z. Xu, Y. Yang, and A. G. Hauptmann, “A discriminative CNN video

representation for event detection,” in Proc. IEEE Conf. Comput. Vis. Pattern

Recog., 2015, pp. 1798–1807.

[43] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional

networks,” in Proc. Eur. Conf. Comput. Vis., 2014, pp. 818–833.

[44] C. L. Zitnick and P. Dollar, “Edge boxes: Locating object proposals from

edges,” in Proc. Eur. Conf. Comput. Vis., 2014, pp. 391–405.

你可能感兴趣的:(翻译论文,深度学习,CNN,卷积神经网络,多标签分类)