细粒度图像分类--CVPR2017 & ICCV2017论文总结

先放在前面几个工程链接,

1、https://github.com/aimerykong/Low-Rank-Bilinear-Pooling

2、https://github.com/gy20073/compact_bilinear_pooling

3、https://github.com/ronghanghu/tensorflow_compact_bilinear_pooling

4、https://github.com/therne/compact-bilinear-pooling-tf

5、bilinearCNN一篇介绍

CVPR2017

1、Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition

由于有区别性的区域定位和细粒度特征学习的挑战,识别细粒度类别很困难。已有的方法主要是独立地解决这些挑战,忽略了区域检测和细粒度特征学习是相互联系的事实,因此它们可以相互增强。

这篇论文中,作者提出一个recurrent attention convolutional neural network(RA-CNN),可以以一种相互增强的方式,递归的学习有区别性的区域关注和多尺度的基于区域的特征表示。多尺度学习包含了分类子网络和attention proposal子网络(APN)。

APN从整个图像开始,通过拿先前的预测作为参考,迭代产生从粗糙的到精细的region attention,而一个更精细的scale 网络经常以一种循环的方式从先前的scale中将放大的attented区域作为输入。

RA-CNN使用scale间分类损失和scale内排名损失来优化,互相学习精确地region attention和细粒度表示。RA-CNN不需要bounding box或者part annotation,是一种端到端的训练。

作者进行了综合的实验,并且在三个细粒度任务上实现了最先进水平,分别在CUB Birds, Stanford Dogs and Stanford Cars相对精度提高3.3%, 3.7%, 3.8%。

网络架构:

2、Low-Rank Bilinear Pooling for Fine-Grained Classification

代码链接:https://github.com/aimerykong/Low-Rank-Bilinear-Pooling

在多类别细粒度分类上,二阶局部特征统计池化以形成高维双线性特征已经被认为可以实现最先进水平。为了处理高维度特征的计算需求,作者将协方差特征表示为一个矩阵,并使用低秩双线性分类器。结果分类器不需要明确计算双线性feature map可以验证,这样计算时间和学习的有效参数都可以大量减少。

为了进一步压缩模型,作者提出分类器协同分解,将双线性分类器的集合分解为common factor和compact perclass terms。这个协同分解可以通过两个卷积层来实现,端到端架构训练。作者建议进行简单但有效的初始化,避免第一个明确的训练和分解较大的双线性分类器。通过广泛的实验,作者的模型在几个公开的细粒度分类数据集上,只使用类别标注,取得了最先进水平。重要的是,这个模型比最近提出的compact bilinear model小1个数量级,比标准双线性CNN模型小3个数量级。

3、Fine-Grained Image Classification via Combining Vision and Language

由于大的类间误差和小的类内误差,细粒度图像分类是一个有挑战性的任务,旨在识别同一个类目下的成百上千的子类目。很多已有的细粒度图像分类方法通常是学习部位检测模型来获得语义部位以最好的进行分类。尽管实现了不错的结果,这类方法主要有两个限制:1、通过部位检测模型获得的部位,不是所有的都对分类是有效的不可缺少的;2、细粒度图像分类需要更多的细节上的视觉描述,而这些通过部位定位和属性标注很难获得。为了解决上述的两个限制,这篇论文提出了一个two-stream模型,结合了视觉的语言信息,学习潜在的语义表征。视觉流通过深度卷积网络从原始视觉信息中学习深度表征。语言流通过自然语言描述,它可以对每个图像,指出哪些部位是有区别性的、有特征的,并且提供一个灵活简洁的方式对可判别性的子类的静态视觉方面进行编码。由于两个流是互补的,两个流的结合可以进一步地实现更好的分类准确度。作者在CUB-200-2011数据集上与12个细粒度图像分类的最先进水平进行了比较,实验结果表明这个方法实现了最好的性能。

4、Fine-Grained Recognition as HSnet Search for Informative Image Parts

这项工作是处理细粒度图像分类。主要基于这样一个假设,当处理目标类别之间的细微差别时,这很难判定,并且只有一些有信息的图像部位起作用,剩余的图像内容不仅没有信息而且可能还会损坏识别。这激励我们将问题表述为,在深度CNN生产生的深度feature map上,一种对有信息部位的顺序检索。这项研究的一种情形是,图像上的一组proposal bounding boxes,有信息的被heuristic function (H)拿来验证,并且用successor function (S)产生新的候选框。这两个函数可以通过a Long
Short-Term Memory network (LSTM)统一到一个深度循环架构中,成为HSnet。因此,HSnet(1)产生有信息的图像部位的proposal,(2)融合所有的proposal最终进行细粒度识别。依赖于object part annotations的可用性,作者指定了HSnet监督和弱监督的训练。在Caltech-UCSD Birds 200-2011 and Cars-196数据集上进行了验证,结果与最先进水平有竞争性。

5、Fine-Grained Recognition of Thousands of Object Categories With Single-Example Training

不相关,零售商品什么的。

ICCV2017

1、Higher-Order Integration of Hierarchical Convolutional Activations for Fine-Grained Visual Categorization

细粒度视觉分类(FGVC)的成功极大地依赖于外观建模和不同语义部位的相互作用。这使得FGVC非常有挑战性:1、部位注释和检测需要专家指导,并且非常昂贵;2、部位大小不同;3、部位之间的相互作用既复杂又高阶。为了解决这些问题,作者提出一个FGVC的端到端框架,基于高阶集成的层级卷积激活。通过将卷积激活作为一个局部描述符,层级卷积激活可以处理不同尺度的局部区域的表示。提出一个基于预测器的多项式核来捕捉卷积激活的高阶统计信息,来对部位作用建模。为了对中间层部位作用建模,作者通过核融合将多项式预测器拓展,以整合层级激活。这篇论文也提出一个新观点,多层之间的卷积激活的结合。尽管hypercolumns简单地将不同层的map进行了连接,整体上网络使用权重融合来结合side-outputs,但是这个方法采用高阶内部层之间的关系来更好的集成层级卷积特征。这个框架也是用了判别表示,在FGVC数据集上实现了与最先进水平有竞争力。

2、Fine-Grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach

尽管细粒度目标识别在计算机视觉中是一个比较重要的问题,但是目前的模型很难在真实环境中正确分类目标。在每个新的场景,这些完全监督的模型需要额外的标注图像来分类目标,这是一个不可行的任务。然而,例如电子商务网站、野外指导这些源,提供了很多标注的类别。

本文工作中,作者研究了细粒度领域适应,作为克服数据集从真实环境和容易后天人工标注图像之间的数据集偏移。在细粒度领域中并没有研究适应,因为标注作为一个属性可以用来提高性能。这项工作使用一个基于多任务适应损失的属性,将准确率从baseline的4.1%提高到19.1%,在半监督的适应情况下。

先前主要的适应性工作都是在小的数据集上进行了,例如一些领域总数只有795图像的数据集,只包含数字的简单数据集。作者在一个新的大型的有挑战性的细粒度分类数据集的子集上做了实验,这个数据集包含2657个汽车类型,共1095021张图像,都是从电子商务网站和谷歌街景上获取到的。

3、Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition

识别细粒度类别(例如鸟类)高度依赖于有判别性的部位定位和基于部位的细粒度特征学习。现存的方法都是独立地解决这几个问题,忽略了部位定位(鸟的头)和细粒度特征学习(头的形状)是相互联系的这个事实。在这篇论文中,作者提出一个新的部位学习的方法,通过multi-attention的CNN(MACNN),部位产生和特征学习可以互相增强。MACNN包含了卷积、通道分组和部位定位三个子网络。通道分组网络将卷积层的特征通道作为输入,在空间相关的通道聚簇、加权、池化来产生多个部位。部位分类网络进一步通过每个独立的部位对图像进行分类,可以学习到更多的有区别性的细粒度特征。使用两个损失来指导通道分组和部位分类多任务学习,以一种相互增强的方式,促进MACNN从特征通道产生更多的有判别性的部位,从部位中学习到更好的细粒度特征。MACNN不需要bounding box和part annotation,是一种端到端的学习。作者将MACNN学到的部位与部位分类CNN结合进行识别,在三个有挑战性的公开数据集(CUB-Birds, FGVC-Aircraft and Stanford-Cars)上实现了最先进水平。

4、CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training

作者提出一个生成对抗网络的变体,是一个通用的学习框架,结合了auto-encoder的变体和生成对抗网络,用来合成细粒度类别的图像,例如特定人脸和目标等。作者将图像建模为概率模型中标签和潜在属性的组合。通过改变注入到结果生成模型的系细粒度类别标签,使用潜在属性向量上随机喷绘的值生成特定类别的图像。

这个方法有两个创新点:1、对于判别和分类网络采用交叉熵损失,但是对生成网络采用平均差异目标。这种不对称的损失函数使得GAN训练更稳定。2、使用encoder网络学习潜在空间和真实图像空间的关系,使用两两特征匹配来保持生成图像的结构。

作者在人脸、花、鸟的自然图像上做了实验,表明这个网络有能力生成细粒度类别标签的真实、多样的样本。作者进一步展示,这个模型可以用在其他任务中,例如图像修复、超分辨率、数据增强来获得更好的人脸模型。

5、Reasoning About Fine-Grained Attribute Phrases Using Reference Games

基于一种对话游戏,无关

6、Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

不相关

7、VegFru: A Domain-Specific Dataset for Fine-Grained Visual Categorization

提出的新数据集,包含水果和蔬菜,不相关。

你可能感兴趣的:(深度学习,细粒度分类)