【论文速览_01】Awesome Few Shot Segmentation论文

Awesome Few Shot Segmentation

  • Awesome Few Shot Segmentation论文
    • CVPR 2023
      • Hierarchical Dense Correlation Distillation for Few-Shot Segmentation
        • 文章内容
      • MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation
        • 文章内容
    • ICCV2023
      • Self-Calibrated Cross Attention Network for Few-Shot Segmentation
        • 文章内容
    • Transactions
      • DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation
        • 文章内容
    • Others
      • Masked Cross-image Encoding for Few-shot Segmentation
        • 文章内容

Awesome Few Shot Segmentation论文

CVPR 2023

Hierarchical Dense Correlation Distillation for Few-Shot Segmentation

Paper Url / Code Url

文章内容

查询样本背景中的对象也可能与支持样本中的目标相关,因为查询样本的背景图像也可能被增强从而引入噪声。必要的支持信息可能通过多个堆叠的交叉注意力和自注意力层积累查询背景上,使得解码器更难区分它们。因为文章只使用自注意力层去建立层次化的特征。如下是本文方法和之前方法的比较:
【论文速览_01】Awesome Few Shot Segmentation论文_第1张图片
文章使用的是余弦相似度计算Correlation Map,但没有说明这么做的原因。

同时文章使用了Correlation Map蒸馏,蒸馏low-level的map信息到high-level的map,因为low-level特征含有更多的细节信息。

文章网络结构为:
【论文速览_01】Awesome Few Shot Segmentation论文_第2张图片

贡献:

  • 将Transformer扩展为层次解析和特征匹配,用于少样本语义分割,并使用了一个新的匹配模块来减少过拟合。
  • 提出在多层和多尺度结构下利用soft correspondence的相关映射蒸馏

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:
【论文速览_01】Awesome Few Shot Segmentation论文_第3张图片

文章针对的问题:

  • 类内差异的多样性导致支持集和查询集之间不能进行很好地匹配
  • 因为模型拟合训练数据的分布,训练好的模型将可见的训练类错误地分类到不可见的测试类。

文章的网络结构为:
【论文速览_01】Awesome Few Shot Segmentation论文_第4张图片

PG使用的是high-level的特征,多次使用它产生层次化的激活图,有实例信息。

GIG将从支持集得到的前景原型和从语义标签得到的类别语义向量作为输入,生成通用的类别原型,它的结构是两层全连接层。

LFG以中层支持特征为输入,生成与区域相关的局部特征,形成正负对从而构成三元组,LFG由3个卷积块组成,它将支持特征的大小减少了4倍,以获得区域特征。

然后使用支持mask进行特征选择,得到前景和背景区域向量。选择最困难的样本作为positive样本,negtive样本通过平均背景区域向量得到。

本文的贡献为:

  • 首次在FSS中使用词嵌入,并且设计了一个通用信息模块( GIM )来从每个类的词嵌入中获得通用类信息。
  • 提出了一种多信息聚合网络( MIANet )来聚合通用信息和无偏的实例级信息,以实现准确的分割
  • 提出一种非参数分层先验模块( HPM )为MIANet提供无偏的实例级分割知识,提供了查询图像在多尺度上的先验信息,缓解了测试中的偏置问题

ICCV2023

Self-Calibrated Cross Attention Network for Few-Shot Segmentation

Paper Url / Code Url

文章内容

和存在方法的比较:

【论文速览_01】Awesome Few Shot Segmentation论文_第5张图片

文章针对的问题:在FSS中,查询集的前景特征可以和支持集的前景特征融合,但是查询集的背景特征可能无法在支持集中找到正确的特征进行融合,从而引入噪声。

本文的出发点:实现前景和前景匹配,背景和背景匹配,从而解决上述问题。具体来说,文章提出了一个自校准交叉注意力( SCCA ),它同时计算自注意力和交叉注意力。查询特征作为Q和K,支持特征的前景特征作为V,这样可以有效解决背景不匹配问题以及前景和背景特征错误融合问题。

本文提出的结构:

【论文速览_01】Awesome Few Shot Segmentation论文_第6张图片

文章的方法是基于patch的,分为patch alignment,它将每个查询patch与其最相似的支持patch(含有前景像素)对齐;自校准交叉注意力( SCCA ),将查询特征和支持集的前景特征融合。

同时为了避免查询特征本身在self-attention过程占据主导地位,进一步将SCCA与比例余弦( Scaled-cosine,SC )机制相结合,以鼓励查询前景特征从支持图像中集成更多的信息。如下图所示:

【论文速览_01】Awesome Few Shot Segmentation论文_第7张图片

本文的贡献:

  • 提出了一种自校准交叉注意力网络( SCCAN ),包括伪掩码聚合( PMA )模块和自校准交叉注意力( SCCA )模块,以有效地利用支持信息
  • SCCA可以解决BG错误匹配和FG - BG错误融合问题,使查询的FG和BG分开,从而实现有效的分割。
  • 训练无关的PMA模块可以粗略地定位查询FG,与现有的方法相比,它能更好地抑制噪声的影响

Transactions

DRNet: Disentanglement and Recombination Network for Few-shot Semantic Segmentation

Paper Url (TCSVT 2023) / Code Url

文章内容

和其他方法的比较:

【论文速览_01】Awesome Few Shot Segmentation论文_第8张图片

文章认为:并不是查询分支中的所有信息都有助于促进分支间的信息交互,因为它们还包含一些不相关的背景信息。

文章的网络结构为:

【论文速览_01】Awesome Few Shot Segmentation论文_第9张图片

其中Fine-grained encoding是一个transformer encoder,它用于挖掘背景中的有用信息。

文章设计了一个联合学习方法,不仅预测查询集的图像,还预测支持集的图像,它促进分支之间的信息交互,鼓励不同分支中的前景原型之间的对齐,有助于促进无GT掩码的查询图像的查询特征分解。

原型是在视觉空间中精确表示类的语义的向量表示。查询集的前景和背景特征的生成文章中并没有说明,我认为应该首先初始化为原始特征,然后通过intra-branch和inter-branch来加强前景特征,然后利用前景特征生成背景特征。

本文的贡献为:

  • 开发了一个用于FSS的解耦和重组网络( DRNet ),以提高泛化性能。它更具有实用性,因为它可以同时执行支持图像和查询图像的分割,这在以前的工作中被忽视了。
  • 提出了一个特征分解和重组模块,可以将没有GT掩码的查询特征分解为前景和背景特征。基于分解后的前景特征,建立分支间的前景交互,在减少类内差异的同时间接增加类间差异。据我们所知,这是第一个在FSS任务中使用没有GT掩码的查询图像的解耦特征的工作。
  • 设计了一个联合学习调度方法,帮助模型在不牺牲支持图像中大量分割能力的情况下,提高模型对查询图像中新对象的泛化性能

Others

Masked Cross-image Encoding for Few-shot Segmentation

Paper Url (ICME 2023) / Code Url

文章内容

和之前方法的比较:

【论文速览_01】Awesome Few Shot Segmentation论文_第10张图片

文章观察到Vision Transformer中的自注意力和交叉注意力可以在表征依赖构建过程中捕获图像的上下文信息。本文提出cross-image的语义编码进行建模,以识别具有判别性的局部区域,旨在捕获支持图像和查询图像之间的对象语义相互关系。

文章提出一种称为掩码交叉图像编码(Masked Cross-Image Encoding,MCE)的对称交叉注意力结构,旨在在多层次特征上集成双向的图像间关系。

本文的结构图:

【论文速览_01】Awesome Few Shot Segmentation论文_第11张图片

其中MAP表示Mask Average Pooling,它利用支持集图像和掩码特征生成一个类别原型 V S V_S VS A s i m A_{sim} Asim为查询集特征和支持集特征之间的平均相似度得分矩阵,维度为 H × W H \times W H×W,元素表示每个查询特征位置和支持对象位置之间的平均语义相关性。

文章的贡献:

  • 提出计算支持查询相似度得分矩阵,以反映查询特征中的像素属于前景的可能性。然后将这些矩阵与多级的cross-image特征一起加入模型中,以促进最终的分割
  • 提出了一种掩码的cross-image编码方法来发现支持和查询特征中目标对象的共享视觉表示。通过使用对称的交叉注意力结构,MCE能够在多层次特征上关注双向的图像间关系,不仅利用支持对象区域的信息丰富了查询特征,而且增强了支持查询的交互性,从而使FSS具有更好的元学习能力。

你可能感兴趣的:(论文阅读,python,少样本,few,shot,深度学习)