ICCV2021 论文略读

前言

我硕士期间主要关注的方向是少样本学习,长尾分布,噪声标签学习等。之前视野不够开阔,只关注了图像分类相关的工作,但是我意识到要真正的和实际需求相结合,就必须也也关注包括图像分割,目标检测等方向的工作,同时也应该对low level方向的工作有所了解,这些在实际中的用处也很丰富。

这篇文章主要整理自己粗略过一遍ICCV2021自己比较感兴趣的文章,主要是对摘要的阅读和自己的对摘要的理解。

另外,为了方便复现,提供开源代码的工作是我们优先关注的对象,论文list链接:ICCV2021-Papers-with-Code

一、少样本学习

1. Recurrent Mask Refinement for Few-Shot Medical Image Segmentation

  • Paper:https://arxiv.org/abs/2108.00622
  • Code:https://github.com/uci-cbcl/RP-Net
  • 摘要:在少量标注下让模型适应新类别在医疗图像分割方向看上去挺有前景的。作者提出两个模块:1)基于上下文关系的编码器CRE(Context Relation Encoder)用于捕捉前后景的局部特征;2)一个循环掩码矫正模块(Recurrent Mask Refinement Module)用于调整分割结果。
  • 总结:个人感觉主要是设计两个捕捉信息的网络模块,之前觉得是这种工作是魔改网络,现在觉得看看别人设计网络的智慧也不错。

ICCV2021 论文略读_第1张图片
2. Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer

  • Paper:https://arxiv.org/abs/2108.03032
  • Code:https://github.com/zhiheLu/CWT-for-FSS
  • 摘要:小样本语义分割工作需要训练编码器,解码器和分类器三个模块。之前的模块是利用少量样本对三个模块都进行fast adaptation。作者认为少量样本不足以支撑三个模块的训练,预训练的编解码器是足以应对新样本的,应该将精力放在分类器上。作者设计一个classifier weight transformer 用于将分类器权重快速适应query samples。
  • 感觉上这个全新设计的模块会利用transformer 的设计智慧,蛮有意思的。
    ICCV2021 论文略读_第2张图片
    ICCV2021 论文略读_第3张图片

3. Few-Shot and Continual Learning with Attentive Independent Mechanisms

  • Paper: https://arxiv.org/abs/2107.14053
  • Code: https://github.com/huang50213/AIM-Fewshot-Continual
  • 摘要:深度学习目前有两个难点:一是小样本学习,二是持续学习。作者提出Attentive Independent Mechanisms 模块用于高层语义知识学习(high order conceptual learning)来解决新任务。提出的模块对少样本和持续学习任务都有效果。
  • 没太看懂,貌似是利用transductive的方法

ICCV2021 论文略读_第4张图片
4. Mining Latent Classes for Few-shot Segmentation

  • Paper(Oral): https://arxiv.org/abs/2103.15402
  • Code: https://github.com/LiheYoung/MiningFSS
  • 摘要:现有的小样本语义分割任务受限于对未知类别特征表示不够。作者认为训练集的背景中往往有丰富的潜在语义对象,但是没有充分利用,因此想通过对背景中潜在新类别的自发现和自训练加强模型抽取特征的能力。作者在原有的episodic training的基础上,通过一个额外的分支通过聚类的方式发现背景中的新类别。这种可迁移子聚类(transferable sub-cluster)的方法还能通过利用无标记数据进一步加强新类别的特征。
  • 感受:这篇文章写的有点点乱,具体实现里面最终是对所有图片的前景特征向量进行聚类,然后对于训练无标签图片进行自动标注得到pseudo mask辅助训练encoder。等代码release后看看具体实现。

ICCV2021 论文略读_第5张图片
ICCV2021 论文略读_第6张图片
5. DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

  • Paper:https://arxiv.org/abs/2108.09017
  • Code:https://github.com/er-muyue/DeFRCN (没有release!)
  • 摘要:Faster R-CNN是目标检测中常用的基准框架,但是在少样本情况下,性能一般。我们从该框架自身分析原因主要在于两点:多阶段(RPN,RCNN)以及多任务(分类,定位)。我们将其解耦合,分别提出梯度解耦层来解耦合多阶段训练的问题,原型矫正模块用于多任务的解耦。
  • 代码没有开源,不是很想看细节。目标检测稍复杂,还是从分割上面找idea实现。

半监督

1. Semi-Supervised Active Learning with Temporal Output Discrepancy

  • Paper:https://arxiv.org/abs/2107.14153
  • Code:https://github.com/siyuhuang/TOD
  • 摘要:受限于标注成本,主动学习技术被认为在保持模型精度同时大幅降低标注量。主动学习是指在无标签数据集中主动挑选一批对模型学习更有价值——信息更丰富的样本进行标注,参与模型训练。一般认为网络训练中损失较大的样本含有信息更多,更有标注价值。我们提出一种时间输出差异(Temporal Output Discrepancy)判断标准——一个样本在模型不同阶段的输出差异。基于TOD我们提出一个无标记样本采样的半监督学习算法。实验证明该方法轻便高效且能适应多种任务。
  • 感觉除了对TOD做了一些数学证明,没有其他的亮点。测试了baseline,然后分别在上面增加了主动学习和半监督学习,提升了性能。用的数据集是cifar10,100,SVNH,Caltech101。

自监督

1. Parametric Contrastive Learning

  • Paper:https://arxiv.org/abs/2107.12028

  • Code:https://github.com/jiequancui/Parametric-Contrastive-Learning

  • 摘要:实验发现模型在长尾分布数据下用有监督对比损失训练仍然是有偏的(偏向多数类)。作者引入一组参数化类别相关的可学习中心从优化的角度纠偏。实验证明即使在无偏数据集下,该方法能够缩小类内差异,加强对难样本学习。

  • 有监督对比学习差的原因主要是memory queue中尾部类别的正例过少导致。作者除queue中的样本,人为添加了一组类别中心。通过调整超参,试图平衡损失中各个类别贡献的梯度。可以看到下图中,设置一个较小的alpha值,损失即由类别原型主导,达到平衡目的。
    ICCV2021 论文略读_第7张图片
    ICCV2021 论文略读_第8张图片
    2. Improving Contrastive Learning by Visualizing Feature Transformation

  • Paper(Oral):https://arxiv.org/abs/2108.02982

  • Code:https://github.com/DTennant/CL-Visualizing-Feature-Transformation

  • 摘要:对比学习中的一个关键点是如何设计正负例。这篇文章中作者提出了一个特征层面上的数据改动(不同于数据增广)。作者首先设计了一种合适的策略可视化正负例的相似度分布,并且观察到适当降低正例间的相似度(更有难度的正例),能够让模型学到更加稳定的图像表示 。作者通过正例外推(positive extrapolation)和负例插值(negative interpolation)两种特征变动方法提升对比学习的有效性。

其他

1. FREE: Feature Refinement for Generalized Zero-Shot Learning

  • Paper:https://arxiv.org/abs/2107.13807
  • Code:https://github.com/shiming-chen/FREE
  • 摘要:零次学习任务中的难点主要在视觉特征-语义特征的域偏差和已知-未知类别的偏差。现有的方法直接使用Imagenet上预训练的特征提取器,忽视了不同数据集之间的分布偏差,得到的视觉特征表示限制了对已知-未知类别的分类。这篇文章中利用一个特征修正模块结合视觉-语义映射在一个联合的生成器模型总修正已知类-未知类的视觉特征。作者还提出一个自适应的间隔-中心损失结合语义循环一致性约束FR模块学习类别-语义相关特征。
  • 想法:零次学习也是一个比较新的方向。在不给出示例的情形下仅通过图片描述进行学习。这应该是一个比较偏图像理解的方向,图片的描述往往是语言相关的,对我而言是一个比较陌生的方向。

你可能感兴趣的:(深度学习笔记,深度学习,pytorch,机器学习)