【论文笔记】VLAD特征:Aggregating local descriptors into a compact image representation

摘要

大尺度的图像搜算需要考虑三个约束:精确性,效率,存储使用。

  • 我们首先提出一个简单但有效的方式,去将局部图像描述子聚合成一个有限维的向量,可视为一个简化的Fisher kernel表示。
  • 然后,我们联合优化降维和索引算法,尽可能的保留向量比较的质量。
  • 我们的结果展示:我们的方法在一个用20byte表示的图像上,与BOF(词袋向量特征)有相当的精确性,但是我们在搜索效率上有着巨大的提升 。

1. 导言

-词袋模型精确度高源于:1. 有力的局部描述子如SIFT。2. 这些向量表示可以用标准距离进行比较。但是它的缺点在于:当数据库数据过大时变得不可用。
我们重点讨论了搜索精度、搜索效率和内存使用三个约束条件的联合优化问题,后两个因素的相关的,因为搜索效率是能够被近似于之前参观过的地方的总共所占的memory数。
我们的方法通常使用20字节的表示,从而获得更高的精度。通过优化得到:

  1. 表示,即如何将局部图像描述符聚合为向量表示;
  2. 这些向量的降维;
  3. 索引算法。
    这些步骤是密切相关的:用高维向量表示图像通常比用低维向量提供更好的穷举搜索结果。然而,高维向量很难有效地索引。相比之下,低维向量更容易建立索引,但其识别能力较低,可能不足以识别对象或场景。
  • 我们提出了一个描述符,它来自于BOF和Fisher核, 聚合SIFT描述子并且生成一个更紧凑的表示,我们把它称作VLAD。实验结果表明,在相同尺寸下,VLAD的性能明显优于BOF。它的计算成本更低,而且通过主成分分析(PCA)可以将其维数减少到几百个分量,而不会显著影响其准确性。
  • 我们证明了联合优化降维与指数化算法之间的权衡的好处。我们特别考虑了最近[1]的索引方法,因为我们可以直接比较PCA引起的错误和索引造成的错误,这是由于矢量编码索引的近似重构造成的。

2.图像表示

在本节中,我们将简要回顾两种流行的方法,它们从一组局部描述符生成图像的向量表示。然后,我们提出了聚合本地描述符的方法。

  1. BOF词袋特征

博主补基础去了,过几天更新新!

参考文献

【1】H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. PAMI. To appear.

你可能感兴趣的:(论文笔记)