Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译

Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition

细粒度分类一直是图像分类中的一个难点,近年来基于深度学习的图像分类发展迅速,细粒度分类也发展出了很多优秀的模型,早期的多阶段模型是通过引入一个辅助网络来融合位置信息到主分类网络中,或者通过一个复杂的特征编码方式来获得高阶特征统计,而最近的端到端模型从根本上强化了mid_level CNN的学习能力。作者在论文中通过实验表明了mid_level 特征学习可以在CNN 网络结构中得到强化,通过学习一个卷积过滤器库来捕获特定种类辨别性块(patch)而不需要额外的部分或者边界框注释。
当前的细粒度方法可大致分为2类:Localization-calssification subnetworks 和end-to-end feature encoding.
第一类是定位分类子网络,由定位网络辅助的分类网络组成。这些方法背后的共同动机是首先找到相应的部分,然后比较它们的外观。第一步要求语义部分(例如鸟的头部和身体)在对象类之间共享,鼓励各部分的表示形式相似;但是,为了有辨别力,第二步鼓励part represnetations随着类别的不同而不同,该算法在识别能力和定位能力之间存在着微妙的冲突,这可能会降低单个集成网络的分类性能。这种权衡也反映在实践中,因为训练通常涉及两种网络的交替优化,或分别训练两种网络,然后进行联合调谐。交替或多级叠加使集成网络的调谐复杂化。第二类,端到端特征编码,通过对卷积特征映射的高阶统计量进行编码,增强CNN的中层学习能力。与定位分类子网络相比,端到端编码网络虽然有效,但在非严格和严格视觉领域的性能很难保持一致性,同时可解释性也差。
本文讨论了这两类端到端网络所面临的问题。作者的主要贡献设计了在CNN框架中以端到端的方式,不需要额外的部分或边框注释,就可以学习有区别的mid_level patches.这样我们的辨别性patch就不用各个类之间共享,只需要有辨别性的apperance就行了。因此,我们的网络完全专注于classification,避免了识别和定位之间的权衡。
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译_第1张图片
这是通过把1*1的过滤器看做小的path detectors ,设计了一种利用patch_level信息和全局外观的非对称多stream结构,并引入非随机层初始化的滤波器supervision来激活在辨别性patches的滤波器。
下面是网络的整体架构,先睹为快:
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译_第2张图片

我们把一个11卷积滤波器看作是一个小的patch detector。具体地说,指的是第一张图中,如果我们通过一个输入图像通过一系列的卷积和池层获得特征图大小CHW,每个C11跨渠道以固定向量空间位置代表了一小块在相应的位置在原始的image。假设我们学习了一个11滤波器它对特定的判别区域有很高的响应;通过将特征映射与该滤波器进行卷积,我们得到了一个热图。因此,只要在整个热图中选择最大值的位置,就可以找到一个判别patch。将整个feature map空间合用到一个值的操作称为全局最大池化(GMP)。 要使feature map适合这个想法,需要两个需求。首先,由于细粒度类别中的区分区域通常是高度定位化的,我们需要一个相对较小的感受域,即,每个C11的向量表示原始im-age中相对较小的一个patch。其次,由于细粒度识别涉及到accurate patch定位,在原始图像中相邻patch之间的stride也应该很小。

网络的核心组成负责辨别性patch学习的是一个11的卷积层伴随着一个GMP层。这个组成部分后面跟着一个分类器(例如,完全连接的层和一个softmax层)形成了我们网络的判别patch流(P-Stream),
一些细粒度类别的识别也可能取决于全局形状和外观,所以另一个流保护了进一步的卷积层和全连接层 ,其中,第一个全连通层中的神经元编码全局信息通过线性结合整个全连接特征图。由于此流集中于全局特性,所以我们将其称为G-Stream。
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译_第3张图片
使用上面描述的网络体系结构,P-Stream中的11个卷积层并不能保证按需要对识别补丁进行触发。为了让框架学习特定于类的判别补丁检测器,我们通过引入跨通道池层和softmax损耗层,直接对11个过滤器进行监视,如图3所示,作为图2中整个框架(侧分支)的一部分。
在实际应用中,如果对1
1卷积层进行随机初始化,在过滤器监督下,可能收敛到较差的局部极小值。例如,跨通道池的输出向量可以接近全零或某种一致性,以减少训练过程中的边损失,这是一种退化的解决方案。为了解决这个问题,作者引入了一种非随机初始化的方法。
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译_第4张图片

你可能感兴趣的:(深度学习,图像分类,计算机视觉)