Destruction and Construction Learning for Fine-grained Image Recognition

Destruction and Construction Learning for Fine-grained Image Recognition

abstract

本文提出一种“破坏和构件的学习”简称为DCL的方法,来增加细粒度识别的难度,强行让分类模型获取专家的知识。提出的方法在训练期间不需要任何额外知识,在预测时除了标准分类网络外,没有计算开销。

1. Introduction

细粒度引起广泛研究,现在研究细粒度大都两种方法,第一:首先定位鉴别对象部分,然后根据鉴别区域进行分类,这些两步方法大多需要在对象或部件上添加额外的包围框注释,而收集这些注释的开销很大。第二:试图通过注意机制在无监督的情况下自动定位识别区域,因此不需要额外的标注,但是增加了额外计算。

因此作者提出了一种新的方法:先对图像进行打乱,这样可以强调局部细节。并且:一方面,DCL自动定位识别区域,因此在培训时不需要任何额外的知识。另一方面,DCL结构只在训练阶段采用,因此在推理时不会引入计算开销。作者认为在细粒度中,局部细节比全局细节更加重要,因为这些需要经细粒度识别的网络在大体上差不多,就是在细节上不相同,打乱之后,迫使进行局部细节识别。作者说这种打乱(文中称:RCM)并不是全优的,也有自己的缺点。RCM引入了几个嘈杂的可视模式。为了抵消负面影响,我们使用了一种对抗性损失来区分原始图像和破坏图像。因此,噪声模式的影响可以最小化,只保留有益的局部细节。从概念上讲,对抗性损失和分类损失以对抗性的方式工作,以仔细学习“破坏”。

Destruction and Construction Learning for Fine-grained Image Recognition_第1张图片

2. Related works

就介绍了细粒度识别的方法,框架啥的。。

3. Proposed Method

Destruction and Construction Learning for Fine-grained Image Recognition_第2张图片

3.1. Destruction Learning

3.1.1 Region Confusion Mechanism打乱机制

过程:先输入一个图像叫它I,然后把它分成N*N个子区域,把分成的子区域叫R_{ij},翻不下去了。。。下面这图看的这位博主的:https://blog.csdn.net/zsx1713366249/article/details/92370490

Destruction and Construction Learning for Fine-grained Image Recognition_第3张图片

意思就是即使我打乱,我也不是随意的打乱的,就是用算法控制一下,只把差不多周围搞一下,别动的太乱太乱。

初始图像I,破坏后的图像\phi (I),以及其相对应的一对多标签l(细粒度类别),组合为\left \langle I,\phi (I),l \right \rangle用于训练模型。分类网络将输入图像映射为一个概率分布向量C(I,\theta _{cls}), 其中\theta _{cls}表示分类网络中所有可学习的参数。分类网络的损失函数为:

3.1.2Adversarial Learning

因为打乱图像RCM,会带来一些噪声,因此为了让噪声不是那么那么大,进行了对抗学习。

对抗学习的目的(1)保留原始图像和损坏图像的相同域;(保持域不变模式)(2)拒绝原始图像和损坏图像的不同域。

用对抗网络训练一个判别器,无法识别原始图像和破坏图像的区别,即对抗网络学到的是原始图像和破坏图像的共同特征,减少由RCM机制引起的图像噪声。具体的我看的头大。。。

Destruction and Construction Learning for Fine-grained Image Recognition_第4张图片

3.2. Construction Learning

考虑到图像中相关区域的组合构成了复杂多样的视觉模式,我们提出了另一种局部区域间相关性建模的学习方法。具体地,我们提出了一个具有区域构造损耗的区域对齐网络Lloc用于测量图像中不同区域的定位精度,通过端到端训练,诱导骨干网对区域间的语义关联进行建模。

具体看不下去。。

区域构造损失有助于定位图像中的主要目标,并有助于发现子区域间的相关性。通过端到端训练,区域构造损失可以帮助分类骨干网建立对对象的深入理解,对对象形状、对象局部语义关联等结构信息进行建模。

 

不想搞了。。。

你可能感兴趣的:(论文阅读,细粒度)