Fine-Tuning CNN Image Retrieval with No Human Annotation

论文杂记
上一篇 主目录 下一篇

文章结构

    • 1 预备知识
      • 1.1 Structure from Motion (SfM)
      • 1.2 池化层
      • 1.3 Whitening(白化)
    • 2 本文相关工作
      • 2.1 训练数据
    • 附录

前言
通常训练CNNs需要大量的标记数据,针对这种情况,本文提出一种微调后的CNNs网络结构可用于在大规模无序图像中进行检索。通过利用3d模型中可用的几何图形和摄像机位置来选择正负样例,来增强特定目标检索的性能表现。本文提出一种参数可训练的pooling layer:Generalized-Mean (GeM)来提高检索性能。在VGG网络上使用本文提出的GeM在Oxford Buildings, Paris, and Holidays datasets上得到了最好的检索性能。
IEEE,JULY 2019

本文要点

  1. 利用SfM信息,增强派生的图像表示。与以前的监督方法相比,3D重建训练数据的可变性在图像检索任务中表现优异
  2. 通过相同的训练数据来学习白化,它的作用是补充微调,并进一步提高性能。此外,与端对端学习相比,将白化作为一个后处理步骤来训练效果更好,速度也快得多。【白化见1.3节】
  3. 提出了一个可训练的池层Generalized-Mean (GeM)
  4. 提出了一种新的α-weighted 的查询扩展【相比于用于压缩图像再现的扩展查询技术具有更强的鲁棒性】

【本文代码链接】
http://cmp.felk.cvut.cz/cnnimageretrieval/
https://github.com/ShaneHolmes/cnnimageretrieval-pytorch

本文是《CNN image retrieval learns from BoW: Unsupervised fine-tuning with hard examples》, in ECCV, 2016的改进扩展
本文《Fine-Tuning CNN Image Retrieval with No Human Annotation》下载地址
或者联系博主获取,邮箱:[email protected]

本文引用仅供学习用,如有侵权请联系删除。


1 预备知识

1.1 Structure from Motion (SfM)

文中引用的paper:《From single image query to detailed 3D reconstruction》,IEEE 2015
Structure from Motion (SfM),即从运动到结构,通过相机的移动来确定目标的空间和几何关系,是三维重建的一种常见方法。

SfM: (bundler, VisualSFM, OpenMVG)
input: 一组图片 output:
场景粗糙的3D形状(稀疏重建), 还有每张图片对应的相机参数

https://www.bilibili.com/video/av49289103?from=search&seid=3238883746439954948
参考文章:
https://blog.csdn.net/lpj822/article/details/82716971
https://blog.csdn.net/weeeeeida/article/details/101726093
https://blog.csdn.net/j10527/article/details/78867884
https://blog.csdn.net/qq_33826977/article/details/79834735

本文不需要手工注释数据或对训练数据集的任何假设,而是利用结构-运动(SfM)管道自动重建的三维模型的几何形状和摄像机位置来实现这一点。最先进的检索- sfm管道采用无序的图像收集作为输入,并试图建立所有可能的3D模型。

1.2 池化层

关于池化层的作用和各种池化方法:
《CNN的工作原理》 3 池化

1.3 Whitening(白化)

whitening (白化)这个词,可能在深度学习领域比较常遇到,其实whitening 是PCA【《主成分分析(PCA)》】的进一步,其目的就是降低输入的冗余性。(假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的)
输入数据集X,经过白化处理后,新的数据X’满足两个性质:

(1)特征之间相关性较低(PCA)
(2)所有特征具有相同的方差(PCA后新坐标下方差归一化)

使用PCA降维即求出特征向量,然后把数据X映射到新的特征空间,这样的一个映射过程,其实就是满足了我们白化的第一个性质:除去特征之间的相关性。因此白化算法的实现过程,第一步操作就是PCA,求出新特征空间中X的新坐标,然后再对新的坐标进行方差归一化操作。

2 本文相关工作

对于人工标注的图像,来自相同对象类别的两个图像可能完全不同,例如建筑物的不同视角或不同的建筑物。 我们从大型无序图像收集开始,以全自动方式解决了这个问题,而无需任何人工干预。

2.1 训练数据

附录

【问题】end-to-end learning used to image retrieval???
《End-to-end learning of deep visual representations for image retrieval》

你可能感兴趣的:(图像检索论文,image,retrieval,Fine-Tuning,CNN)