PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS阅读笔记

不久前看到一篇paper,感觉效果虽然不是特别好,但是对于图像检索和目标识别的后续工作特别有启发意义,所以大致记录一下阅读笔记,以此激励自己学习。

近年来,基于CNN的图像表征已经为图像检索提供了很有效的描述子,超越了很多由预训练CNN模型的到的短向量表示。然而这些方法和模型不适用于几何感知重排,仍然会被一些依赖于精确的特征匹配,几何重排或者查询扩展的传统图像检索所超越。所以本文的工作利用CNN获得的信息重新学习了初始搜索和重排序阶段,构建了紧致的特征向量编码几个图像区域,不需要多次输入图像到网络。然后,文章对整个图像的卷积层进行最大池化操作,从而有效地定位匹配目标。最终的bounding box用来图像重排序。总之,文章改善了现有的CNN识别方法,在oxford5k和paris6k上获得了比较好的效果。

本文考虑预训练的CNN模型,比如Alexnet 或者VGG,并抛弃了所有的全连接层。给定一个输入图像I,大小为WI*HI,卷积层的响应构成了3维的张量W*H*K,这里K是输出特征通道的数量,即多维的滤波。

PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS阅读笔记_第1张图片

MAC(卷积层最大激活值):通过上述的到的k维的向量之间的余弦相似度计算两幅图像的相似性。这个向量叫做MAC,对单个W*H的区域最大池化。MAC编码了每个卷积核的局部响应,所以是旋转不变的,本文主要考虑最后一层卷积层。

对图像的区域进行编码

PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS阅读笔记_第2张图片
R-MAC(卷积层区域最大激活值):考虑R个不同大小的区域,文章定义区域在CNN响应图上,而不是原始图片。采样了L个不同规模的方形区域。当尺度l=1,即区域的宽和高是W和H,区域被统一采样连续区域使得覆盖率为40%。注意原始图像的分辨率对区域的个数m有影响,如果输入图像是方形则提取一个区域,对于尺度l,我们统一采样宽度为2min(W,H)/(l+1)的l*(l+m-1)个区域。然后计算每个区域的特征向量,再通过l2归一化,PCA白化,对区域向量求和的单一的向量,进行l2归一化。这样使得特征的维度保持和k一致,与MAC维度相同但是性能改进了很多。

接下来还有目标检测阶段,窗口检测阶段,AML近似最大池化定位,都是为了目标匹配,定位而做的。

本文在检索阶段主要对提取的向量进行初始化检索,然后重排序,查询扩展使得检索精度比较好。
我感觉通过这种方法提取得到的特征其实还有很多信息丢失,所以应该还有很多改进的办法来提高精度的,有必要好好研究一下细节了。

你可能感兴趣的:(图像检索)