【计算机视觉中的相似性度量学习问题】
两个样本之间的相似度计算是计算机视觉以及机器学习中的一个重要问题,并在许多方法和应用研究中发挥着至关重要的作用。模式识别和机器学习中的许多方法,如K近邻、K均值、RBF-SVM等,均涉及到了相似度或距离的计算,而相似度(距离度量)的好坏对这些方法的性能产生重要影响。同样,计算机视觉的很多应用,如人脸验证[1]、行人重识别[2]、图像检索[3]等,都可以直接转化为相似度计算问题。基于相似度计算的FaceNet[17]等方法也是目前人脸识别领域性能最好的方法之一。
自2002年Xing等人[4]针对聚类问题提出第一个凸模型以来,距离度量学习在视觉与学习领域得到了较多的关注,并涌现出一批有影响力的代表性方法如LMNN[20]、ITML[19]、LDML[1]等。其中Davis等的ITML方法[19]获得了2007年ICML的最佳论文奖。在ICML 2010(http://www.slideshare.net/zukun/metric-learning-icml2010-tutorial)、ECCV 2010(http://www.ariel.ac.il/sites/ofirpele/DFML_ECCV2010_tutorial/)及ECCV 2016(http://www.eccv2016.org/tutorials/)等顶级会议上,也有一些相似性(距离)度量学习方面的Tutorial。近年来,在JMLR (SpecialTopic on Kernel and Metric Learning,2011)、ACM TIST(Special Issue on Distance MetricLearning in Intelligent Systems,2012)、Pattern Recognition(SpecialIssue on Distance Metric Learning for Pattern Recognition,2016)、IEEE TCSVT(SpecialIssue on Large Scale and Nonlinear Similarity Learning for Intelligent VideoAnalysis,2016)等知名期刊上也出现了一些相似性(距离)度量学习的专刊。
相似性(距离)度量学习旨在学习一个恰当的相似性(距离)度量,使相同类别样本之间的相似度增大(或距离减小),不同类别样本之间的相似度减小(或距离增大),从而实现提高分类器的判别能力、改善匹配及聚类性能等目的。传统的度量学习方法主要是在特征空间确定的情况下学习马氏距离或余弦距离,一般可以建模为凸优化问题。前面提到的LMNN[20]、ITML[19]和LDML[1]等均属于这类方法。通过分析距离度量学习与核分类器学习的关联关系,我们也提出了一些新的距离度量学习模型[21,22]。Bellet[23]等针对传统的度量学习方法做了一个较为全面和详尽的综述。
随着深度学习的成功,针对计算机视觉领域中一些应用问题的特点,相似性度量学习也迎来了新的发展契机。下面我们将从多样化视觉数据的相似度计算、发展相似性度量学习模型两个角度,对近年来的一些典型的度量学习方法进行总结,并根据自身的理解对未来发展做了些简要的分析与展望。
【多样化视觉数据的相似性计算】
传统的样本对相似性计算模型一般要求样本是一个向量或一幅图像。而在实际应用中,待匹配的数据不仅越来越呈现出多样化的趋势,而且还存在需要匹配的两个样本分别来自于不同的模态/视角/域的情形。下面我们将从流形上的相似性度量学习、跨域相似性学习两个方面,简要介绍一些处理多样化视觉数据相似性计算的新方法。
a) 流形上的相似性度量学习
随着视频采集设备的广泛使用,每个样本可能会是一段视频或一个图像集合,并可被表示为流形(如黎曼流形或仿射包)中的一个点。考虑到以往的度量学习方法大多实现的是图像之间的匹配,如何对他们加以推广和发展,实现图像到图像集合、图像集合之间的匹配(如图1所示),近年来得到了一定的关注。
图1 流形上的相似性度量学习,通过将视频或图像集合表示为流形中的点,并定义d1为同类图像集合之间的流形距离,d2,d3为异类图像集合之间的流形距离,我们希望借助于流形上的相似性度量学习,实现使d1减小的同时令d2和d3增大的目的。
图像集合的表示、距离和学习模型问题是流形上的相似性度量学习研究关注的几个主要方面。Zhu等[7]将图像集合视为仿射包,将样本与集合的距离表示为样本与该仿射包内最近点的距离,将集合与集合之间的距离表示为两个仿射包最近点的距离,并在此基础上建立了样本点与样本集,以及样本集与样本集之间的距离度量学习模型。Wang等[5]将图像集合表示为流形,并将其表示为一系列局部线性子空间的集合,从而将流形之间的距离表示为每个局部子空间距离的组合。Lu等[6]同样使用流形表示图像集合,通过深度网络将每个流形映射至公共子空间,使同类别流形在公共子空间的距离减小,不同类别流形在公共子空间的距离增大。Huang等[24]使用图像均值、协方差矩阵和高斯分布来表示图像集合,由于这三种统计量分别分布在欧几里得空间和两种半正定黎曼流形,这项工作提出了欧几里得空间到黎曼流形的度量学习方法,通过核函数将三种统计量融合,并学习图像集合之间的距离度量。
b) 跨域(模态/视角)匹配
在计算机视觉的许多应用(如人脸与素描图像的匹配,不同分辨率/视角图像的匹配,图像与文本的匹配等)中,由于样本来源不同,往往会导致待匹配的两个样本存在域/模态/视角方面的差别。针对跨域(模态/视角)匹配问题,一种可行的方法是通过学习线性或非线性变换,将不同模态的样本投影至公共子空间,然后在公共子空间中计算样本的相似度(或距离),如图2所示。
Mignon等人[9]对不同模态样本通过不同的变换矩阵投影到公共子空间,并计算它们的距离,并基于Logistic损失函数来学习投影矩阵。Lin等人[10]通过对不同模态的样本分别进行仿射变换,并结合马氏距离与余弦相似度,提出了针对跨领域匹配问题的一般化的相似性度量。Zhang等人[11]针对人脸与素描图像匹配,通过全卷积神经网络将人脸图像变换为伪素描图像,然后利用其与素描图像的距离进行匹配。
图2 跨模态匹配示意图(以人脸与素描图像匹配为例)[8]
【推广和发展相似性度量学习模型】
传统方法通常将相似性度量学习建模为凸优化问题,在特征空间确定的情况下学习马氏距离或余弦距离。近年来,开始陆续出现一些相似性度量学习的推广方法。随着以卷积神经网络(CNN)为代表的深度学习方法的成功,特征表达和相似性度量的联合学习也获得了广泛的关注。
a) 广义相似性度量学习
除了传统马氏距离以外,还可以设计和使用一些广义距离来更好地度量样本之间的相似度,以进一步提高度量学习模型的判别能力。Chen等人[12]通过分析同类和异类样本对的概率分布,将同类样本对的似然比表示为马氏距离与样本对交叉内积项的和。Li等人[13]通过对距离约束引入自适应阈值,将相似度表示为一个更加一般化的二阶决策函数。Lin等人[10]对相似性度量进行了推广,提出了一种广义相似性测度以综合马氏距离和余弦相似性,并引入仿射变换以改善样本对的匹配性能。Wang等人[14]针对行人重识别问题,提出同时利用单样本表达和样本对表达以更好地挖掘样本之间相互关系,分别构造了基于单样本表达和样本对表达的相似度函数,取得了优于当前方法的识别性能。Huang等[25]提出了条件高阶玻尔兹曼机方法,通过定义样本对及其正/负类别标记的联合概率密度函数,并使用生成学习、判别学习两种方式对玻尔兹曼机进行带监督学习,使其可以预测样本对的相似度。
b) 从非线性到深度相似性度量学习
由于传统度量学习方法学习能力有限,在分布复杂的数据中效果不理想,研究人员提出了一些局部度量学习及非线性度量学习方法用以解决该问题。局部度量学习方法通过对每个类别或每个样本学习局部距离度量,克服了传统单一全局度量学习方法的缺点。非线性度量学习将传统度量学习方法通过核函数非线性化,或者直接学习非线性距离或相似度,显著提高了度量学习方法对分布复杂数据的学习能力。然而,以上度量学习方法主要基于已有的特征表达,其难以突破人工设计的特征表达的瓶颈。随着近年来CNN模型在图像分类、物体检测等视觉任务取得的巨大成功,许多学者开始结合距离测度学习与卷积神经网络,提出了一系列特征表达和相似性度量的联合学习模型。传统基于人工设计特征的度量学习和深度特征与距离度量联合学习的示意图如图3所示。
Sun等提出的DeepID2人脸识别方法[15]将二元组距离约束作为验证监督信息,将softmax作为识别监督信息,在LFW数据集的识别率达到99.15%。Ding等[16]将三元组距离约束与深度网络相结合,在行人重识别任务上达到了较高的识别率。Schroff等 [17]提出了FaceNet模型用于人脸识别,该模型同样采用三元组距离约束并结合深度网络。Schroff等[17]还提出了一种构造三元组的策略,能够在训练过程中在线构造对训练作用较大的三元组,并且避免了离群样本和错误标记样本的影响,在LFW数据集上达到了99.63%的识别率。Zhao等人[18]针对图像检索应用,使用深度网络提取图像的哈希编码,并通过图像编码海明距离的相对距离约束构造损失函数,对网络参数和距离度量进行学习。Lin等人[10]提出了一般化的相似性函数,并将其与深度网络结合,实现了深度网络与相似性度量的联合学习,在跨模态匹配中达到了优于主流方法的识别效果。
(a) (b)
图3 (a) 传统相似性度量学习,(b) 深度特征与相似性度量的联合学习
【结语】
本文主要从多样化视觉数据的相似度计算、发展相似性度量学习模型两个角度,介绍了近年来的一些度量学习方法,并希望这一方向能够得到大家的关注而得到更多的发展机会。对于未来的相似性度量学习发展,除了进一步发展和改进模型和学习算法之外,也可以从问题和应用角度进行推广和拓展。例如,目前的相似性度量学习主要考虑的是分类与验证问题,可以通过设计一些新的二元组决策函数,将其推广到二元关系预测,以解决更多的计算机视觉实际问题。针对视觉数据的多样性,如何结合CNN模型改进和调整二元关系预测模型及算法,也是一个值得考虑的方向。此外,在弱标注或存在标注错误的情形下发展相似性度量学习算法,也应该具有一定的实际意义和研究价值。
【参考文献】
[1]M. Guillaumin, J. Verbeek, and C. Schmid, “Is that you? Metric learningapproaches for face identification,” in Proc.IEEE Int. Conf. Comput. Vis. (ICCV), 2009, pp. 498–505.
[2]M. Hirzer, P. M. Roth, M. Köstinger, and H. Bischof, “Relaxed pairwise learnedmetric for person re-identification,” in Proc.Eur. Conf. Comput. Vis. (ECCV), 2012, pp. 780–793.
[3]S. C. H. Hoi, W. Liu, and S.-F. Chang, “Semi-supervised distance metric learningfor collaborative image retrieval,” in Proc.IEEE Int. Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2008, pp. 1–7.
[4]E. P. Xing, A. Y. Ng, M. I. Jordan, and S. Russell, “Distance metric learning,with application to clustering with side-information,” in Proc. Adv. Neural Inf. Process. Syst. (NIPS), 2002, pp. 505–512.
[5]R. Wang, S. Shan, X. Chen, Q. Dai, “Manifold–Manifold Distance and itsApplication to Face Recognition with Image Sets,” IEEE Trans. Image Process., vol. 21, no. 10, pp. 4466–4479, 2012.
[6]J. Lu, G. Wang, W. Deng, P. Moulin, J. Zhou, “Multi-manifold deep metriclearning for image set classification,” in Proc.IEEE Int. Conf. Comput. Vis. Pattern Recognit. (CVPR), 2015, pp. 1137-1145.
[7]P. Zhu, L. Zhang, W. Zuo, D. Zhang, “From Point to Set: Extend the Learning ofDistance Metrics,” in Proc. IEEE Int.Conf. Comput. Vis. (ICCV), 2013, pp. 2664-2671.
[8]X. Wang, X. Tang, “Face photo-sketch synthesis and recognition,” IEEE Trans. Pattern Anal. Mach. Intell.,vol. 31, no. 11, pp. 1955–1967, 2009.
[9]A Mignon, F Jurie, “CMML: a New Metric Learning Approach for Cross ModalMatching,” in Proc. Asian Conf. Comput.Vis. (ACCV), 2012.
[10]L. Lin, G. Wang, W. Zuo, X. Feng, L. Zhang, “Cross-Domain Visual Matching viaGeneralized Similarity Measure and Feature Learning,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.
[11]L. Zhang, L. Lin, X. Wu, S. Ding, L. Zhang, “End-to-End Photo-Sketch Generationvia Fully Convolutional Representation Learning,” in Proc. ACM Int. Conf. Multimedia Retrieval, 2015, pp. 627-634.
[12]D. Chen, X. Cao, L. Wang, F. Wen, and J. Sun, “Bayesian face revisited: A jointformulation,” in Proc. Eur. Conf. Comput.Vis. (ECCV), 2012, pp. 566–579.
[13]Z. Li, S. Chang, F. Liang, T. S. Huang, L. Cao, and J. R. Smith, “Learninglocally-adaptive decision functions for person verification,” in Proc. IEEE Conf. Comput. Vis. PatternRecognit (CVPR), 2013, pp. 3610–3617.
[14]F. Wang, W. Zuo, L. Lin, D. Zhang, L. Zhang, “Joint Learning of Single-imageand Cross-image Representations for Person Re-identification,” in Proc. IEEE Conf. Comput. Vis. PatternRecognit (CVPR), 2016, pp. 1288-1296.
[15]Y. Sun, Y. Chen, X. Wang, and X. Tang, “Deep learning face representation byjoint identification-verification,” in Proc.Adv. Neural Inf. Process. Syst. (NIPS), 2014, pp. 1988-1996.
[16] S. Ding, L. Lin, G. Wang, and H. Chao, “Deepfeature learning with relative distance comparison for personre-identification,” Pattern Recognit.,vol. 48, no. 10, pp. 2993-3003, 2015.
[17]F. Schroff, D. Kalenichenko, J. Philbin, “FaceNet: A unified embedding for facerecognition and clustering,” in Proc.IEEE Int. Conf. Comput. Vis. Pattern Recognit. (CVPR), 2015, pp. 815-823.
[18]F. Zhao, Y. Huang, L. Wang, and T. Tan, “Deep semantic ranking based hashingfor multi-label image retrieval,” in Proc.IEEE Int. Conf. Comput. Vis. Pattern Recognit. (CVPR), 2015, pp. 1556-1564.
[19]J.V. Davis, B. Kulis, P. Jain, S. Sra, I.S. Dhillon, “Information-theoreticmetric learning,” in Proc. Int. Conf.Mach. Learn. (ICML), 2007, pp. 209-216.
[20]K.Q. Weinberger, J. Blitzer and L.K. Saul. Distance metric learning for largemargin nearest neighbor classification, in Proc.Adv. Neural Inf. Process. Syst. (NIPS), 2005.
[21]F. Wang, W. Zuo, L. Zhang, D. Meng, and D. Zhang, “A Kernel ClassificationFramework for Metric Learning,” IEEETrans. Neural Netw. Learn. Syst., vol. 26, no. 9, pp. 1950 - 1962, 2015.
[22]W. Zuo, F. Wang, D. Zhang, L. Lin, Y. Huang, D. Meng, and L. Zhang, “Iteratedsupport vector machines for distance metric learning,” http://arxiv.org/abs/1502.00363.
[23]A. Bellet, A. Habrard, and M. Sebban, “A survey on metric learning for featurevectors and structured data,” arXiv:1306.6709, 2013.
[24]Z. Huang, R. Wang, S. Shan, and X. Chen, “Face recognition on large-scale videoin the wild with hybrid Euclidean-and-Riemannian metric learning,” Pattern Recognit., vol. 48, pp.3113-3124, 2015.
[25]Y.Huang, W. Wang, and L. Wang, “Conditional high-order Boltzmann machine: A supervisedlearning model for relation learning,” in Proc.IEEE Int. Conf. Comput. Vis. (ICCV), 2015, pp. 4265-4273.
【作者简介】
王法强,哈尔滨工业大学计算机学院博士研究生。主要从事距离度量学习及深度学习方面的研究。
左旺孟,哈尔滨工业大学计算机学院教授、博士生导师。主要从事图像增强与复原、距离度量学习、目标跟踪、图像与视频分类等方面的研究。
林倞,中山大学数据科学与计算机学院教授、博士生导师。主要从事大数据智能分析与感知、多媒体内容语义理解、深度学习、高性能计算等方面的研究。