Look Closer to See Better 阅读笔记

1) 摘要

现有的细粒度图像识别的方法忽略了区域检测和细粒度特征学习是相互关联的,并且两者可以相互加强。所以提出了循环注意力卷积神经网络(RA-CNN),该网络以相互增强的方式,在多个尺度上递归地学习判别性的区域注意力和基于区域的特征表示。每个尺度的学习包括一个分类子网络和一个注意力建议子网络(attention proposal sub-network (APN)),APN从完整的图像开始,以之前的预测作为参考,迭代的由粗到精产生注意力区域,而一个更细的尺度网络以之前尺度放大的注意力区域的重复方式作为输入。提出的RA-CNN由分类损失和ranking损失来相互学习注意力区域的准确度和和细粒度的表示。

2) 论文贡献


(2)提出了pairwise ranking损失来优化注意力建议网络,与只有标签监督的区域定位相比,这种设计能够让网络逐步的定位到判别区域;

(3)在CUB Birds, Stanford Dogs, Stanford Cars三个数据集上进行的充分的实验,并且实现了最佳的结果

3) 模型结构

Look Closer to See Better 阅读笔记_第1张图片


4) 注意力建议网络(Attention Proposal Network)

Look Closer to See Better 阅读笔记_第2张图片


5) 分类和排序(Classification and Ranking)

Look Closer to See Better 阅读笔记_第3张图片

这样的设计可以使网络能够从粗尺度作为参考进行预测,并且通过强制更精细的网络逐渐接近最具辨别力的区域以产生更高置信度的预测。(Such a design can enable networks to take the prediction from coarse scales as references, and gradually approach the most discriminative region by enforcing the finer-scale network to generate more confident predictions.)

6) 多尺度联合表示(Multi-scale Joint Representation)


7) 训练细节

(1) 使用预训练的VGG网络结构, 三个网络具有相同的网络模型;

(2) 通过搜索原始图像中的区域来选择正方形,在最后的卷积层中具有最高响应值。

(3) 以交替的方式进行训练,首先保持APN的参数不变,来优化每个尺度的softmax损失,然后固定卷积层和分类层的参数不变,使用ranking loss来优化APN;

Input images (at scale 1) and attended regions (at scale 2,3) are resized to 448×448 and 224×224 pixels respectively in training, due to the smaller object size in the coarse scale. We use VGG-19 (pre-trained on ImageNet) for bird and car datasets, and VGG-16 for dogs as the same settings with baselines. We find that k in and the margin are robust to optimization, thus we empirically set k as 10 and margin as 0.05.


Look Closer to See Better 阅读笔记_第4张图片Look Closer to See Better 阅读笔记_第5张图片Look Closer to See Better 阅读笔记_第6张图片


