Bilinear CNNs for Fine-grained Visual Recognition

1. 前言

作者提出了Bilinear Convolutional Neural Networks(B-CNNs)用于精细化的视觉识别问题,这个网络将一个图片表示为两个CNN特征的outer product
通常情况下,在精细化的分类问题中,有两种方法:一是part-based model,通过定位关键部位并提取特征。二是holistic models,这种方式在整张图片上构造特征。
这篇论文主要基于这样一个思想:很多广泛使用的texture representation可以被表示为两个设计合理的特征的outer product。

2. B-CNNs for Image Classification

2.1 The B-CNN architecture

Bilinear CNNs for Fine-grained Visual Recognition_第1张图片
Fig 1

一个B-CNN包含了四个部分:
,其中
提取特征的函数,通常基于CNN,
是pooling 函数,
是分类函数。
对于图片
,和位置
,它们的bilinear combination为:
1

假设特征的大小为:
,结果就是

pooling函数整合所有位置的bilinear combination,来得到图片的全局信息:

2

因为pooling是求和,和位置,顺序无关,因此是 orderless的特征表示。

作者还在上进行了归一化:
分类作者使用了SVM。

Bilinear CNNs for Fine-grained Visual Recognition_第2张图片
Fig 2

你可能感兴趣的:(Bilinear CNNs for Fine-grained Visual Recognition)