Learning with Noisy Correspondence for Cross-modal Matching个人笔记

abstract

背景:多模态匹配Cross-modal matching,在不同模型间建立对应关系,已经应用于跨模态检索(retrieval)和vision-and -language understanding
问题:以往方法都假设多模态训练数据是对齐的,但实际不是,且代价很高(这里对齐的意思应该是总有匹配的对象和label?)
提出解决方案:新方向:noisy correspondence(a new paradigm of noisy labels)noisy labels传统意义上是errors in category labels,但我们的noisy correspondence是mismatch paired samples
新方法:Noisy Correspondence Rectifier (NCR)解决learning with noisy correspondence
做法:基于神经网络的记忆功能,将数据分为clean and noisy 部分通过自适应预测模型在co-teaching的方式矫正correnspondence
测试:图文匹配,Flickr30K, MS-COCO, and Conceptual Captions
代码:www.pengxi.me

Introduction

现有方法:将不同模态应用在正跨模态对的相似性最大,负跨模态对相似性最小的common space。

  • 图中有说noisy labels和noisy correspondence,还有true/false positive negative
    传统noisy labels指类别注释的错误,而noisy correspondence指alignment errors in
    paired data 一个不同于noisy correspondence的方法:view-aligned problem (PVP)

为了解决跨模态匹配中的noisy correnpondence,提出NCR。
1.我们的方法基于DNN的记忆功能(DNN在匹配noisy samples前会学习simple patterns)。Motivated by这个观察性的发现,NCR将数据分为相对精准的数据集(relative accurate data partitions),noisy 和clean,基于它们loss的不同。
2.然后,NCR用矫正标签的自适应预测函数(an adaptive prediction function for label rectifying)让false positives and the true positives分为clean和noisy子集。(摘要里说用了co-teaching方法)
3.再然后,用新的三重损失函数提高匹配的鲁棒性,通过将矫正的标签作为软边界。
本文贡献/创新点:
1.揭示了跨模态分析的新问题noisy correspondence。
2.提出noisy correspondence下的新学习方法NCR,NCR的创新点是矫正的label被优雅的recast为三重损失的软边界–>跨模态匹配的鲁棒性增强。
3.验证了方法。

相关工作:

1.跨模态匹配:已有的方法很大程度上依赖于正确对齐的数据(the correctly aligned data)(或者说是well-matched data?),但收集这种数据昂贵又耗时。收集大量的野生数据对(dataset)能显著提升效果,但是不可避免有不匹配的pairs。因此,对于noisy correspondence有高鲁棒性的方法是很有必要的,也没被研究过。与图片和字幕间的多对多匹配(correspondence)不同,NCR解释了noisy correspondence问题,即图片文本对的对其错误,并提出消除noisy pairs对downstream tasks带来的负面影响。
2.有噪标签的学习:
问题不同:以往噪声标签研究,关注注释错误的数据点(incorrectly annotated data points),本文关注不匹配的多模态数据对。
方法上不同:noisy label learning使用model’s prediction for label rectifying(矫正),此方法用在预测correspondence of given pairs太困难,即使可以用某种方式矫正,校正后label也与已有的配对方式不兼容,因为已有的配对方式大部分使用二进制labels。为了解决这些问题,NCR提出自适应预测函数新的recast the soft labels as soft margins的三重损失

过程

一些问题:
soft的理解,soft margin,soft labels,soft similarity
recall的理解,recall on the validation set
SGR GMM

我们以图像文本匹配为例介绍跨模态匹配任务。D={(Ii, Ti, yi)}, i=1~N,N是data size,(Ii, Ti)是image-text pair,yi在0到1之间,表示是否匹配(positive or negative)。noisy correspondence指(Ii, Ti)是negative pair但是yi=1。为了解决这个问题,我们用NCR实现鲁棒性。
1.将图和文模态都投影到共同空间(shared space),图用f网络,文用g网络实现投影。
2.计算相似性S(f(I), g(T))。(在下文中表示为S(f, g) )
3.研究表明DNN先学习简单样本(simple sample),然后逐渐拟合噪声样本(noisy sample)(所以我怀疑simple sample指的是clean sample)。DNN这种记忆效应使clean sample的损失loss相对较低。基于此,我们使用 noisy sample和clean sample的不同损失分布(loss distribution)划分训练集training data(为noisy和clean)。给定一个(f, g, S)计算每个样本sample的 loss:
在这里插入图片描述
在这里插入图片描述

(I, T)是positive pair,α是给定的margin,T^是所有的negative test,I被当作query与T
^进行了take over(?)。margin是什么,求和符号和^,S是什么
4.用双成分高斯混合模型two-component Gaussian Mixture Model拟合所有训练数据的每个样本损失per-sample loss
在这里插入图片描述

βk是混合系数,φ(l|k) 是第k个分量的概率密度。基于DNN的记忆效应,我们将平均值较低(loss较低)的作为clean set,其他的视为noisy set。为了优化GMM,我们使用期望最大化算法。此外我们计算后验概率wi=…作为第i个sample的clean 概率,k是平均值较低的高斯分量。给 {wi} ,i=1~N设定一个threshold,将数据分为noisy和clean subset。简单起见,整个实验的threshold=0.5。
GMM是什么?

结论:

本文解决跨模态匹配的新问题(?指数据原本就不匹配),也就是noisy correspondence(其是noisy label问题的潜在新方向)。解决方法是:用自适应预测函数(adaptive prediction function)新的有软边界的三重损失(a novel triplet loss with a soft margin) 来矫正noisy correspondence,达到鲁棒的跨模态匹配。

你可能感兴趣的:(Learning with Noisy Correspondence for Cross-modal Matching个人笔记)