论文笔记《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》

文章提出一种基于多尺度滑窗的CNN特征的编码方法。

1 Information

发表会议:ECCV2014

相关链接:作者主页 项目主页

2 Motivation

Gloabl CNN:编码了图片的空间结构信息,对类内差异容忍度差,globally ordered

BOW:完全丢失图片的空间结构信息,orderless

对于场景分类问题,我们希望一个在小的region,空间结构globally ordered,比如region内的一个船它的结构是很强的约束,船帆必须在船身上方;在大的region,由于场景本身的布局差异,空间结构orderless,比如region内的两个船,它们互相的结构要求就很弱,A船可以在B船的上下左右任意方位。因此,需要基于CNN特征得到更加orderless的特征,使特征在准确刻画局部信息的同时,包容类内差异,更加invariant

同时,基于一个observation:我们可以根据一个region判定整幅图的类别,如图b和f,对红色框的region提取CNN特征,可以预测出图片真实label。
论文笔记《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》_第1张图片

3 Method

本文提出multi-scale orderless pooling CNN,对原图分别做128×128和64×64的滑窗取patch,对每个patch提CNN特征,再用VLAD pooling将这些patch级别的CNN编码,得到一幅图的表示,最后将这2个滑窗尺度下的pooling结果和整幅图的CNN特征相连,得到图像最终的特征表示。

论文笔记《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》_第2张图片

为什么滑窗呢?因为如上图中可以看出,如果region取得稍有不对(蓝色框),根据patch CNN预测的图像label也会错的离谱。

4 Experiment

同时文章中还设计实验证明了MOP CNN特征的invariant:对图片人为施加形变后再提CNN特征分类,MOP CNN特征明显好于global CNN。

从MIT Indoor67分类实验结果可以看到3个level的特征都起到作用。

你可能感兴趣的:(编码,图片,cnn)