Circle loss思想的简单分析理解:Circle Loss: A Unified Perspective of Pair Similarity Optimization

Circle loss思想的简单分析理解

本文提出了一种基于深度特征学习的对相似度优化观点,旨在最大化类内相似度区间,最小化类间相似度序列。现有的损失函数像triplet loss和softmax plus cross-entropy loss,嵌入 s n s_n sn s p s_p sp到对相似度,并且寻求减少 s n s_n sn- s p s_p sp。这种优化方法具有一定的灵活性,限制了每个单一相似度评分的惩罚强度相等。作者觉得如果一个相似度评分远远偏离最佳值,就应该强调它,所以简单的重新分配每个相似度的权重,突出较少优化的相似度评分。它会导致一个圆损失,该损失以其圆形决策边界命名。作者通过分析论证了该损失与损失函数优化 s n s_n sn- s p s_p sp相比,提供了一种更加灵活的优化方法,能够达到更加明确的收敛目标。

本文从相似度优化的角度对两种基本的深层特征学习方法进行了研究,从带有类级别标签的数据和带有成对标签的数据中学习。前者采用分类损失函数(如Softmax +交叉熵损失来优化样本与权值向量之间的相似性。后者利用一个度量损失函数(例如,三重损失)来优化样本之间的相似性。这两种学习方法没有本质上的区别,都寻求最小化类间相似度 s n s_n sn,以及最大化类内相似度 s p s_p sp,即嵌入 s n s_n sn s p s_p sp到对相似度,并且寻求减少 s n s_n sn- s p s_p sp

作者认为这种对称优化方式容易出现以下两个问题:

缺乏优化的灵活性 s n s_n sn s p s_p sp上惩罚强度被限制为相等,在给定的损失函数下,对于相同振幅的 s n s_n sn s p s_p sp的梯度在一些弯角情况下, s p s_p sp很小但是 s n s_n sn已经趋近于0,所以会以较大的梯度惩罚 s n s_n sn,这不合理。
模棱两可的收敛状态:优化 s n s_n sn- s p s_p sp会导致一个决策边界( s p s_p sp- s n s_n sn),这个决策边界是可以模糊的,就像图1中用于收敛的T和T’,作者通过举例分析T有( s n s_n sn s p s_p sp)=(0.2,0.5)或者( s n s_n sn’, s p s_p sp’)=(0.4,0.7)都得到了边际m=0.3,但是 s p s_p sp s n s_n sn’只相差0.1,破坏了特征空间的可分离性,即区别性高的特征。

根据以上论证作者认为不相的相似度分数应该有不同的惩罚强度。如果一个相似度评分远远偏离最优值,应该受到强烈的惩罚,而接近最优时应该适度优化。首先将 s n s_n sn- s p s_p sp泛化为 a n s n a_ns_n ansn- a p s p a_ps_p apsp,这里的 a n a_n an- a p a_p ap表示独立的权重因子,允许 s n s_n sn s p s_p sp以不同的速率学习,然后分别实现了 s n s_n sn s p s_p sp的线性函数,使得学习速度适应优化的状态,相似度评分偏离最优值越远,权重因子越大。这样的优化结果使得决策边界m= a n s n a_ns_n ansn- a p s p a_ps_p apsp在( s n s_n sn s p s_p sp)空间中形成一个圆形。
Circle loss思想的简单分析理解:Circle Loss: A Unified Perspective of Pair Similarity Optimization_第1张图片
如图所示为常用的优化方式 s n s_n sn- s p s_p sp和本文提出的 a n s n a_ns_n ansn- a p s p a_ps_p apsp的比较,使用 s n s_n sn- s p s_p sp容易导致刚性优化,如图所示A,B和C拥有相同的梯度,收敛状态不明确。对于b a n s n a_ns_n ansn- a p s p a_ps_p apsp在( s n s_n sn s p s_p sp)空间上动态的调整梯度,得益于灵活的优化过程,对于A,它强调 s p s_p sp的增加,对于B,则强调 s n s_n sn的减少,并在在圆形决策边界上设置指定的点T进行收敛,建立明确的收敛目标。
Circle loss思想的简单分析理解:Circle Loss: A Unified Perspective of Pair Similarity Optimization_第2张图片
如图三种损失函数的比较,无论是Triplet loss还是AMSoftmax loss都缺乏灵活性的优化, s n s_n sn s p s_p sp的梯度被限制为相等,收敛时梯度突然减少,例如在A点,类内相似度评分已经接近与1,但是梯度还是很大,并且决策边界平行于 s p s_p sp= s n s_n sn。相比之下Circle loss给相似度评分分配不同的梯度,对于A重点优化 s n s_n sn,对于B则减低它的梯度,且具有圆的判定边界,促进了精确的收敛状态。

你可能感兴趣的:(CVPR2020,loss)