真实世界数据中有噪声标签的存在会对深度学习模型的性能产生负面影响。
在本文中,提出了一种用于deep metric learning (DML)的抗噪声训练技术,称之为基于概率排序的带记忆实例选择(PRISM)。
PRISM使用由几个先前版本的神经网络提取的图像特征的平均相似度来识别小批量中的噪声数据。
DML的目标是学习距离度量,该距离度量基于预定义的相似性概念,将相似的数据点对映射在一起,将不同的数据点点对映射到很远的地方。
PRISM根据数据点和其他数据点之间的相似性,使用在最近几次训练迭代中提取的特征,计算标签干净的概率。这可以被视为对数据标签的后验概率建模。对于具有高概率的数据点,我们提取其特征并将其插入到记忆块中,用于后续模型更新。
此外,还开发了一种平滑top-R(sTRM)技巧来调整噪声数据识别的阈值,以及一种在概率计算中用类中心替换单个数据点的加速技术。
PRISM采用了在线数据过滤方法。在每次训练迭代中,使用在过去几次迭代中提取的特征来过滤出一部分训练数据。其余的被认为是干净的,添加到记忆块中,并用于更新度量。
DML的目的是学习卷积神经网络f(·),该网络为图像xi提取特征向量,使得f(_)和f(_)之间的余弦相似性S(f(_),f(_))在_ = _时高,在_ ≠ _下低:
将小批量表示为={( _0 ,_0 ),…,( _ , _ )}。
如果_ = _ ,一对特征(f(_),f(_))称为正对,如果_ ≠ _称为负对。
为了识别有噪声的标签,维护一个先进先出的记忆块M,M ={( _0 , _0 ),…,( _ , _ )},以存储样本的历史特征。
在步骤中,将干净数据从噪声数据中分离出来,将干净数据_的当前特征_i附加到记忆块中。如果超过了最大存储体容量,最旧的功能将从记忆块中退出队列,以便始终跟踪最新的功能。
将_的特征与记忆块的内容进行比较,以确定其标签_是否有噪声。如果_是一个干净的标签,那么_和记忆块中具有相同类标签的其他样本之间的相似性应该比其与其他类样本的相似性大。
将( _ , _ )作为干净数据点的概率_(i)定义如下:
_是记忆块中k类中的样本数。 T( _ ,k)是_和类k中所有存储特征_之间的平均相似性。
将_的特征当_(i)低于阈值m时,将( _ , _ )视为噪声数据样本。提出了两种确定阈值m的方法:top-R方法(TRM)和平滑top-R法(sTRM)。
在TRM下,定义了一个滤波率(即估计噪声率)R。在每个小批次中,如果_(i)在当前小批次B中所有样本的最小R%内,将( _ , _ )视为噪声。
sTRM跟踪最后τ批次中_(i)值的R%的平均值。形式上,假设_j是第j个小批量中_(i)值的R%,阈值m定义为:
要创建平衡的小批量:
首先对P个唯一类进行采样,并对每个选定类的K个图像进行采样,在每个小批量中生成PK个图像。
对于第k个聚类,用该类的平均特征向量_替换其_数据样本:
要将等式(5)插入等式(2), _(i)可以表示为:
传统的基于对的对比损失函数计算小批量B中所有数据样本对之间的相似性。损失函数鼓励f(·)在同一类样本之间分配小距离,在不同类样本之间指定大距离:
使用以先进先出方式存储先前小批量中数据样本特征的记忆块M,可以在损失中使用更多的正和负对,这可以减少梯度估计中的方差,记忆块损失可以写为:
memory-based contrastive loss(MCL)为二者之和。
使用PRISM的另一种损失是Soft Triple损失,一种基于proxy的损失函数。损失计算为小批量数据和所有类别之间的相似性:
_j^ℎ是类j的第h个proxy(proxy是与图像特征具有相同大小的向量)
将PRISM合并到MCL中可提高所得模型的性能。PRISM的优点在50%的噪声率下尤其明显。
在这两个数据集中,使用带PRISM的Soft Triple实现了最佳性能。
在SOP数据集和10%对称标签噪声上,使用和不使用PRISM进行5000次迭代所需的训练时间。