[小样本分割]Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?

没有元学习的Few-Shot分割:一个好的转导推理是你所需要的吗? (CVPR2021)

本文的从构建推理过程入手,而非对网络结构进行设计,巧妙利用了转导推理实现了超高的性能!

文章的方法部分全是数学推导,比较晦涩

关于什么是转导推理可以参考博文:https://www.cnblogs.com/huty/p/8517867.html

论文地址
开源代码

摘要

我们表明,在Few-Shot分割任务中执行推理的方式对性能有实质性的影响——这是一个在元学习范式的文献中经常被忽视的方面。我们通过优化三个互补的新损失,利用其未标记像素的统计信息,为给定的查询图像引入一种转导推理:i)标记的支持像素的交叉熵;ii)测试图像查询像素的后验信息熵;iii)基于预测前景像素在测试图像中的比例的全局KL散度正则化。由于我们的推理使用提取特征的简单线性分类器,其计算负荷可与归纳推理相媲美,并可用于任何基础训练。在之前仅在基类上使用标准交叉熵训练的情况下,我们的推理在1-shot场景的基准上产生竞争性能。且随着可用Shot数量的增加,在性能上的差距扩大。此外,我们还引入了一种新的设置,包括域移位(domain shifts),其中基类和新类是从不同的数据集中提取的。我们的方法在这个更真实的场景中取得了最好的效果。

存在的问题及解决方案

元学习方法普及了将训练数据结构化为episodes的需求,从而模拟将在推理中呈现的任务。然而,尽管取得了改进,一些最近的图像分类工作观察到元学习可能只有有限的泛化能力。例如,在具有领域转移的更现实的环境中,简单的分类基线可能会胜过更复杂的元学习方法。最近关于Few-Shot分割的文献遵循了learning-to-learn范式,大量的研究工作集中在为基础训练设计专门的架构和片段式训练方案上。然而,i)episodic训练本身隐含地假设测试任务具有与元训练阶段使用的任务类似的结构(例如,支持图像的数量);ii)通常假设基类和新类是从同一个数据集采样的。

特别是,我们观察到现有的SOTA方法在提升样本数量后可能会出现饱和现象。其次,根据最近在图像分类中观察到的情况,现有的元学习方法在跨领域场景下表现不佳。这使人们对当前少镜头分割基准和数据集的可行性产生了怀疑;并促使人们重新思考元学习范式的相关性,这已成为Few-Shot分割文献的事实选择。

在本研究中,我们放弃元学习,重新考虑在特征提取基类的训练过程中采用简单的交叉熵监督。此外,我们提出了一种比现有方法更好地利用支持集监督的转导推理。

方法

片段训练中的归纳偏差(Inductive bias in episodic training):
假定 D b a s e D_{base} Dbase表示训练数据集,存在不同的方法来利用这一数据集,元学习或是learning to learn。它通过将 D b a s e D_{base} Dbase拆分为一系列子任务来在训练过程中模拟测试情景。然后,在这些任务上训练模型,学习如何最好地利用支持集的监督,以增强其查询分割。近期,Cao等人证明了在原型网络中训练时每个片段所使用的shot数量 K t r a i n K_{train} Ktrain代表了一种学习偏差,当 K t e s t K_{test} Ktest K t r a i n K_{train} Ktrain不同时,测试性能会迅速饱和。

标准训练(Standard training):
实际上,测试任务的形式可能事先就不知道。因此,我们想在这个问题上做尽可能小的假设。这促使我们在整个 D b a s e D_{base} Dbase上使用标准交叉熵监督训练的特征提取器 f ϕ f_{\phi} fϕ,而不是诉诸于片段训练。

推理(Inference)

[小样本分割]Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?_第1张图片

对于每个测试任务,我们通过优化以下转导目标来找到分类器的参数 θ \theta θ
在这里插入图片描述
其中 λ H , λ K L ∈ R \lambda _{\mathcal{H}},\lambda _{KL}\in \mathbb{R} λH,λKLR是用于平衡不同项影响的非负超参数。
在这里插入图片描述
CE是是支持图像的下采样标签 y k ∼ \overset{\sim}{y_k} yk和分类器的软预测(softmax)之间的交叉熵。简单地最小化这一项通常会导致退化,特别是在One-shot设置中,如图1所示——分类器 θ \theta θ通常会在支持集 S S S上过拟合,转换成查询图像上的小的激活区域。
在这里插入图片描述
H \mathcal{H} H表示查询图像像素预测的香农熵。这个熵项的作用是使模型对查询图像的预测更有置信度。 H \mathcal{H} H的使用源自半监督文献。直观上,它将线性分类器绘制的决策边界推向提取的查询特征空间的低密度区域。虽然这一项在保留最初以中等置信预测的对象区域方面起着至关重要的作用,但它单独加入CE并不能解决退化问题,在某些情况下甚至可能使问题恶化。
在这里插入图片描述
其中:
在这里插入图片描述
是一个用于鼓励模型预测的B/F比例匹配参数 π ∈ [ 0 , 1 ] 2 \pi \in \left[ 0,1 \right] ^2 π[0,1]2的KL散度项。我们认为这一项在我们的损失中起着关键作用。首先,在参数 π \pi π不匹配查询图像的精确B/F比例的情况下,这一项仍然有助于避免由CE和 H \mathcal{H} H最小化引起的退化。第二,如果可以准确估计查询图像中的B/F比例,就可以很容易地通过这个项嵌入它,从而大大提高性能。

然后是一大堆的数学推导。。。建议阅读论文原文。

实验结果

[小样本分割]Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?_第2张图片
[小样本分割]Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?_第3张图片
[小样本分割]Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?_第4张图片

结论

在没有求助于流行的元学习范式的情况下,我们提出的RePRI在标准的5次分割基准上实现了新的最先进的结果,同时在1次设置中接近最佳表现方法。RePRI是模块化的,因此,可以与任何特征提取器一起使用,而不管基础训练是如何执行的。在本研究结果的支持下,我们认为片段式训练的相关性应该在Few-Shot分割的背景下重新考虑,并且我们提供了一个强有力的基线来激励未来对这一主题的研究。我们的结果表明,当前最先进的方法可能在更有挑战性的设置中有困难,当处理领域转移或对任务进行推理时,其结构与训练中看到的不同——这些场景在文献中被忽视了。这些发现与最近在少Few-Shot分类中观察到的结果一致。此外,嵌入更准确的前景-背景比例估计似乎是一种非常有前途的限制推理的方法,正如oracle得到的显著改善的结果所证明的那样。

你可能感兴趣的:(小样本图像分割,小样本学习,计算机视觉,深度学习,图像识别)