loss 加权_Multi-Similarity Loss使用通用对加权进行深度度量学习-CVPR2019

《Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning》

原文Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning​openaccess.thecvf.com

codehttps://github. com/MalongTech/research-ms-loss​github

摘要

在深度度量学习(deep metric learning)中,有一系列的基于对(pair-based)的损失函数被提出。但是都没有提出一个统一的框架去理解这些损失函数,论文中提出了一种通用的加权框架,去理解这些基于对(pair-based)的损失函数。文中将这种框架称为通用的对加权(General Pair Weighting, GPW),其将深度度量学习中的采样问题看成通过梯度分析的对加权问题。通过使用GPW,可以比较并且更好的理解现有的基于对(pair-based)的方法的明显不足与关键限制。论文中还在GPW的框架下提出了一个新的损失函数叫多相似性损失(multi-similarity loss, MS loss),该方法主要分为两个迭代步骤,即挖掘(mining)和加权(weighting)。MS loss在图像检索任务中达到了目前最好,在CUB200和In-Shop Clothes Retrieval dataset。

General Pair Weighting(GPW)

GPW框架

是一个实值的实例向量(可以理解为CNN中的fc的输出),然后我们有一个实例矩阵

(其中

可以理解为batch_size),和一个标签向量

。然后实例

通过一个函数

映射到一个一个

维度的单位空间,这里的

指的是带有参数

的神经网络。然后我们定义两个样例的相似性

,其中

指的是点成(dot product),得到一个相似性矩阵

,其

位置的元素表示为

对于一个基于对(pair-based)的损失函数

,其可以表示为

的函数:

。对于模型参数

在第

次迭代中的导数可以表示为:

公式(1)为了对加权,可以通过一个新的函数

写成一个新的形式,

可以写成下式:

其中

是不包含

的常量。

因为深度度量学习的中心思想就是让正例对更近,让反例对更远。对于一个基于对(pair-based)的损失函数

,假设

是反例对,并且

是正例对。因此公式(2)可以变换成下面这种对加权的形式:

其中

正如公式(3)中表示的一样,基于对(pair-based)的方法能够被公式化为一个逐对(pair-wise)加权的相似性表达,这里对于对

的权重是

。公式(3)就是通用的对加权(GPW)公式。

Contrastive loss:可以表示成下式:

其中

是设定的阈值,

指的是一个正例对,

是一个反例对。通过公式(4)可以看出所有的正例对和

的反例对是相等权重。

Triplet loss:可以表示成下式:

其中

是设定的阈值,

指的是反例对

和正例对

的相似性。虽然其和Contrastive loss选择对的机制不同,但是还是等权重的去选择对。

Lifted Structure Lossmini-batch中的所有正反例对,表示如下:

其中

是设定阈值,在公式(6)中,我们有一个加权值

对于对(pair)

,根据公式(3)

关于

求导,得到正例对的权重如下:

反例对的权重:

Binomial Deviance Losssoftplus函数而不是Contrastive loss中的铰链函数,可表示如下:

其中

指的是正例对和反例对的数,

是固定的超参数。其对于对(pair)

的加权值,由

求导得:

Binomial Deviance Loss是一个软版本的Contrastive loss,即加权版本的,会对反例对中有更高相似性的赋予更大的权重去优化。

多重相似性(Multiple Similarities)

S:Self-similarity:从自身对计算而来,是最重要的相似性。一个反例对有一个更大的余弦相似对意味着从不同的类别中区分两对样例是更困难的。这样的对被视为硬反例对(hard negative pairs),他们有更多的信息并且更有意义去学习一个可区分的特征。Contrastive loss和Binomial Deviance Loss就是基于这个准则,如图case-1,当反例样例变得更近的时候,三个反例对的权重是被增加的。

N: Negative relative similarity:通过考虑附近反例对的关系计算而来的,如图case-2,即使自相似度(self-similarity)不变,相对相似度也减少。这是因为附近的反例样例变得更近,增加了这些对的自相似度(self-similarity),所以减少了相对相似度。Lifted Structure Loss就是基于这个的。

P:Positive relative similarity:相对相似度也考虑其他的正例对的关系,如果case-3,当这些正例样例变得和anchor更近的时候,当前对的相对相似度就变小了,因此该对的权重也变小。Triplet loss就是基于这个相似度。

Multi-Similarity Loss

主要分为两步:1.首先通过Similarity-P来将信息丰富的对采样;2. 然后使用Similarity-S和Similarity-N一起给选择的对加权。

Pair mining:首先通过计算Similarity-P来选择信息丰富的对。明确的说就是,一个反例对是和最难的正例(hardest positive pair,就是有最小的相似度)比较,一个反例对是和有最大相似性的反例对比较。设

是一个anchor,一个反例对

被选中满足下面的情况:

一个正例对

被选中满足下面的情况:

其中

是一个给定的阈值。文中的难例挖掘(hard mining strategy)灵感来源于

Pair weighting:Pair ming中能够粗滤的选中丰富信息的对,丢掉信息匮乏的对。文中通过考虑Similarity-S和Similarity-N,进一步的软加权选中的样例。文中的软加权是灵感来源于Binomial Deviance Loss(考虑了Similarity-S)和Lifted Sturcture Loss(使用了Similarity-N)。明确的说,对一个选中的反例对

其权重

被计算如下

正例对

的权重

计算如下:

其中

是超参数。公式(13)中的反例对的权重是通过联合计算其自相似度(self-similarity)和相对相似度中的Similarity-N而来,正例对的权重与之类似。

通过集成Pair mining和Pair weighting得到multi-similarity(MS) loss如下:

实验结果

总结

本文主要是提出了一个统一的框架(GPW)去度量每一个基于对的损失函数,然后提出了一个逐对挖掘(pair mining)和软加权(pair weighting)的损失函数。其中的pair mining和目标检测中的hard sample mining很像,pair weighting和focal loss中软加权很像,该文章公式比较多,如果一次读不懂,建议多读几遍。有什么问题欢迎各位留言讨论。

参考^R. Hadsell, S. Chopra, and Y. LeCun. Dimensionality reduction by learning an invariant mapping. In CVPR, 2006. 1, 2, 3, 4 http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf

^E. Hoffer and N. Ailon. Deep metric learning using triplet network. In SIMBAD, 2015. 1, 2, 3, 4 https://arxiv.org/pdf/1412.6622

^H. Oh Song, Y. Xiang, S. Jegelka, and S. Savarese. Deep metric learning via lifted structured feature embedding. In CVPR, 2016. 1, 2, 3, 4, 5, 6, 7 http://cvgl.stanford.edu/papers/song_cvpr16.pdf

^D. Yi, Z. Lei, and S. Z. Li. Deep metric learning for practical person re-identification. arXiv:1407.4979, 2014. 1, 2, 3, 4 https://arxiv.org/pdf/1407.4979

^K. Q. Weinberger, J. Blitzer, and L. K. Saul. Distance metric learning for large margin nearest neighbor classification. In NIPS. 2006. 6 https://papers.nips.cc/paper/2795-distance-metric-learning-for-large-margin-nearest-neighbor-classification.pdf

你可能感兴趣的:(loss,加权)