abstract:diffusion过程能够捕捉到object之间潜在的流形结构。那么到底是哪种流型结构?本文提出了一种亲和学习算法regularized diffusion process(RDP)。通过RDP,我们为Tensor product diffusion过程提供了一种解释。此外,本文还定义了一种衡量流形的平滑度的度量。我们进一步为两个特定的目标贡献了两种变体。ARDP可以学习跨异构域(across heterogeneous)的相似性,HRDP考虑了对象之间的更复杂的关系,对tensor product hypergraph进行亲和度学习。因此,RDP,ARDP和HRDP构成了在大多数常用设置中进行检索的通用工具,无论对象之间的输入关系是否来自同一域,以及是否成对。
1.introduction
目前研究人员已经设计了很多算法来捕捉流形的几何结构,它们有各式各样的命名,如:context sensitive similarity[2,3],affinity learning[4,5],re-ranking[6,7,8,9],ranking list comparison[10,11,12]。它们的区别在于相似度矩阵的初始化方式、转移矩阵的初始化方式以及迭代策略。其中,diffusion process on tensor product graph的效果比较好。但是它们都没有解释以下三个问题:
(1)到底捕捉了什么样的流形结构?它好在哪里?
(2)为什么high order的信息是有用的?
(3)迭代策略的本质是什么?到底需要多少次迭代?
3.regularized diffusion process(RDP)
RDP将数据流形建模为加权图
其中表示数据点,表示邻接矩阵,表示和之间的相似度。我们的目标是学得一个新的相似度度量
虽然是在图G上建模,但如下所述,RDP本质上是在学习tensor product graph 上的相似度A,但是其复杂度与在图G上的扩散过程是相同的。在tensor product graph 上,每个顶点对应原图中两个顶点,每个边描绘原始图中四个顶点之间的关系。形式化地,被定义为:
其中X表示Cartesian product,表示kronecker product。
3.1 regularized framework
以前的工作都是以一种迭代的方式进行,然而,本文提出建议获得新的相似性度量A作为以下优化问题的闭式解:
其中是一个正则化参数,表示初始的亲和力矩阵。是一个对角矩阵,。
如上式所述,RDP的目标函数包括两部分。第一部分描述了输入相似度W对学习到的相似度A的一种影响,通过类比Local and Global Consistency(LGC)[29],我们将其称为smooth term。然而,这两种平滑的含义是不同的。作为半监督学习算法,LGC中的smooth term表示如果和相似(大的),它们很有可能属于同一类。而本文中的平滑项表示如果和相似(大的)并且和相似(大的),那么和,如下图所示:
manifold ranking[17]通过将属于类别的概率解释为对象之间的相似性,直接将LGC应用于检索任务。可以发现本文方法中的平滑项实际上对manifold ranking施加了宽松约束,即单个物体由成对的物体和代替。因此,为了同时相互关联四个tuples,张量积图是一种自然选择,因为它的每个顶点包含两个数据点,并且每个边都记录四个数据点之间的关系。
从这个意义上讲,RDP可以说是具有宽松平滑项的流形排名的扩展版本。上式的第二项叫fitting term,它惩罚了A与初始相似性Y的差异。之前的工作中Y是identity matrix I,表示仅固定每个节点的自亲和性。我们认为这样是最佳选择。
似乎很难得到上式的闭式解,因为很难求出关于A的导数。然而,我们发现可以通过一些图论中的工具得到上式的解。我们需要2种额外的操作:
1):量化矩阵,将其列向量进行堆叠
2):逆操作
以及两个identical 坐标转换以及。
后面向量化操作表示为
最终得到的闭式解:
其中,,。
可以清楚地看到,平衡状态与邻接矩阵有关。
3.2 Iteration-based Solver
上述的式子时间复杂度较高,本文提出了一种高效的迭代策略:
每次迭代中,通过query和DB的上下文信息在亲和度图上传播相似性,包括对A先左乘S,再右乘S。换句话说,考虑到双向的上下文信息。总的来说,每次迭代中以的概率在亲和图上传播相似度,以的概率回归到初始相似度Y。
3.4 Metric-based Interpretation
[2]H. Jegou, C. Schmid, H. Harzallah, and J. Verbeek, “Accurate image search using the contextual dissimilarity measure”,TPAMI,vol. 32, no. 1, pp. 2–11, 2010.
[3]X. Bai, X. Yang, L. J. Latecki, W. Liu, and Z. Tu, “Learning contextsensitive shape similarity by graph transduction,” TPAMI, vol. 32,no. 5, pp. 861–874, 2010.
[4]B. Wang and Z. Tu, “Affinity learning via self-diffusion for image segmentation and clustering,” in CVPR, 2012, pp. 2312–2319.
[5]P. Kontschieder, M. Donoser, and H. Bischof, “Beyond pairwise shape similarity analysis,” in ACCV, 2009, pp. 655–666.
[6]S. Zhang, M. Yang, T. Cour, K. Yu, and D. N. Metaxas, “Query specific fusion for image retrieval,” in ECCV, 2012, pp. 660–673.
[7]S. Zhang, M. Yang, T. Cour, K. Yu, and D. N. Metaxas, “Query specific rank fusion for image retrieval,” TPAMI, vol. 37, no. 4, pp. 803–815, 2015.
[8]D. Qin, S. Gammeter, L. Bossard, T. Quack, and L. Van Gool, “Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors,” in CVPR, 2011, pp. 777–784.
[9]X. Shen, Z. Lin, J. Brandt, S. Avidan, and Y. Wu, “Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking,” in CVPR, 2012, pp. 3013–3020.
[10]D. C. G. Pedronette and R. d. S. Torres, “Image re-ranking and rank aggregation based on similarity of ranked lists,” Pattern Recognition , vol. 46, no. 8, pp. 2350–2360, 2013.
[11]Y. Chen, X. Li, A. Dick, and R. Hill, “Ranking consistency for image matching and object retrieval,” Pattern Recognition, vol. 47, no. 3, pp. 1349–1360, 2014.
[12]D. C. G. Pedronette, J. Almeida, and R. da Silva Torres, “A scalable re-ranking method for content-based image retrieval,” Information Sciences, vol. 265, pp. 91–104, 2014.