阅读小结:CNN Image Retrieval Learns from BoW:Unsupervised Fine-Tuning with Hard Example:CNN Image Retrie

What:

图像检索的一篇文章,使用了CNN特征。

结果方面,由于数据集的问题,ft以后在Holiday上 VGGNET    82.5   <   NetVlad 86.0  (因为ft的数据集多为建筑)

在Oxford 5k上结果(cropi) VGGNET 79.1  为一个state of art的结果。


How:

1.网络结构: 

全卷积网络,没有fc层。MAC层是一个根据输入大小对应的max pool。

对于pool5使用MAC,可以得到维数为256,512的特征。

MAC后的特征进行L2norm,然后做内积(这就是cos距离)作为loss  (regression loss)


2.提出了一个post processing的方法 (用training数据集得到一个映射矩阵)


3.提出了了一个无监督收集的数据集

首先收集一大堆没标注的图像,然后聚类

然后再用每一类构建3D model,扔掉一些冗余的模型。


4.选择训练pair的问题

3D模型可以看作一个二分图,一边是图像Image,一边是视点points。

正样本有三种策略

 a,MAC距离最小的,b.有很多视点交集的,c.视点交集满足一定的阈值的(这种最好)  可见Figure2

负样本的话

从其他类中选择  a.选择k近邻  b.选择视点相同的


实验

1query, 1positive and 5 negative images



你可能感兴趣的:(阅读小结:CNN Image Retrieval Learns from BoW:Unsupervised Fine-Tuning with Hard Example:CNN Image Retrie)