Paper Link:Cross-Domain Few-Shot Semantic Segmentation
Code and Datasets:GitHub
总的来说呢,就是解决了小样本分割学习中由于domain shift而导致模型效果较差的问题,提出了可以迅速适应unseen domains的PATNet(Pyramid-Anchor-Transformation based few-shot segmentation network)。
具体来讲这个PATNet、以及Paper的贡献,有以下几点:
记录于2022年11月28日,第一次接触,不懂得有很多。
1.“all layers are frozen”具体指什么?
2.anchor layers和Pyramid
……(未记录完整,比如5.1和5.2就有很多┭┮﹏┭┮)
Keywords:Few-shot Learning,Cross-Domain,Transfer Learning,Semantic Segmentation
FSS目的是学习一个模型,只用几张像素级的注释图像就能对新的类别进行分割,但很难将现有的方法应用到跨领域的场景中。
因此扩展FSS到CD-FSS,将元知识从具有足够训练标签的领域(例如PASCAL)推广到低资源领域
下图是现有工作与CD-FSS的区别,主要区别在于训练过程中能否访问target domain、source domain和target domain的训练数据集和测试数据集的分布是否相同
CD-FSS中,训练阶段的数据分布Xs和标签Ys与测试阶段的数据分布Xt和标签Yt都是不同的、不互通的。
针对CD-FSS的benchmark包括4个不同的domains:FSS-1000、Deepglobe、ISIC2018和Chest X-ray,用于评估分割模型在不同领域间隙下的跨领域泛化能力。作者使用这个benchmark还评估了FSS、迁移学习中具有代表性的methods性能,结果显示如下两点:
1) 现有的几张照片的语义分割方法的性能在大的领域转移下会明显下降。当目标域与源域有巨大差异时,这些方法甚至不如简单的迁移学习baselines
2) 在有限的域差异环境下,元学习方法比所有迁移学习baselines更有效
CD-FSS的一个主要挑战是,从源域学到的特征空间不能应用于目标域。为了解决这个问题,paper提出了一个新颖的基于金字塔锚的转换模块(PATM),将特定领域的特征转换为领域无关的特征,因此,下游模型可以通过匹配support set和query set的领域无关的特征来进行分割,从而很好地适应新领域。
为了进一步完善查询图像的预测掩码,我们还提出了一个任务适应性微调推理**(TFI)策略**,以快速适应未见过的领域。
为了避免over-fitting,在测试阶段,只有PATM随着support images和query predictions之间的原型相似度而不断更新,通过这种方式,预测的掩码被微调的PATM产生的校准特征所完善。
这部分三个related work都是先介绍了这部分existing works,然后指出缺点,最后再引到Paper是如何克服不足、解决问题的,也可以说是有哪些创新点。
介绍了符号、字母的表示意义。公式不太好打,看原文就可,很好懂。
这部分大多是公式,由于我太菜的水平,这部分很多不懂,就不介绍了,借用其他博主的讲解,对应 PATNet 部分
尴尬,同5.1,看链接吧。
对应 任务自适应微调推理(TFI)策略 部分
在本文中,我们将少镜头语义分割扩展到一个新任务,称为跨域少镜头语义分割(CD-FSS),其目的是学习一种模型,该模型可以仅用少数几个在看不见的域中分割新类像素级注释图像。此外,建立了一个新的 CD-FSS 基准来评估不同域转移下少镜头分割模型的跨域泛化能力。实验表明,由于跨域特征分布的巨大差异,SOTA 少镜头分割模型不能很好地泛化到来自不同域的类别。此外,我们提出了一种新模型 PATNet,通过将特定领域的特征转换为与领域无关的特征来解决 CD-FSS 问题,以便下游分割模块快速适应不可见的领域。广泛的实验结果表明,我们的方法优于现有技术,在域偏移下具有相当大的余量。我们相信这项工作将帮助社区以实用的方式了解现有方法,并深入研究实际应用的进一步进展。