细粒度图像分类论文研读-2015

Bilinear CNN Models for Fine-grained Visual Recognition(by end-to-end feature encoding)

本文是单阶段法的开山之作。

Abstract

本文提出了双线性模型,由两个特征提取器组成。

其输出在图像的每个位置使用外积相乘并合并来获得图像的描述。

这样一种结构可以建模局部的、成对的特征交互(以一种平移不变的方式),这对于细粒度分类尤其有用。

这样一种结构还会产生各种无序纹理描述,比如Fisher向量、VLAD和O2P。

双线性形式简化了梯度计算并允许仅使用图像标签对两个网络进行训练。

Introduction

目前的方法主要是检测局部,然后对这些部分进行外观的建模。这样的方法的最大缺陷在于极度依赖于手工标注(成本大且不一定适合识别任务。)。

另一种方法是应用比较鲁棒的图像表征。传统的表征有Fisher vector、VLAD、SIFT等,目前比较好的方法是卷积神经网络。

这一模型以一种平移不变的方式,很适合纹理和细粒度任务。

对比分析:法2解决了法1最大的弊端,但是性能不大行,特别是对于目标比较小或者场景相对杂乱的图像。然后,对法2的端到端的结构的影响没有很好的研究。

本文的输出捕捉了成对的局部特征交互。

本文认为,本文的架构和人脑视觉处理的双流假说有关,ventral stream涉及到目标的检测和识别。dorsal stream涉及到处理目标相对于观察者的空间位置。

Bilinear models for image classification

细粒度图像分类论文研读-2015_第1张图片

你可能感兴趣的:(细粒度图像识别,分类,深度学习)