上海交通大学人工智能研究院杨小康、沈为团队联合华为田奇团队共同发布了非完全监督(即标签有限)下的图像分割方法最新综述“A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction”。
该工作由人工智能研究院沈为副教授主持,全文包含170余篇文献,全面总结了不同类型的监督标签在不同分割任务上的进展情况:包括无监督、弱监督、半监督、部分监督、域迁移等多种设置下的语义、实例、全景分割问题,并以统一视角--“如何缩小弱监督信号与密集预测之间的差距”进行分析,总结出用于解决这个问题的四种通用的启发式先验:① cross-label constraint (跨标签约束);② cross-pixel similarity (跨像素相似性);③ cross-view consistency (跨视图一致性);④ cross-image relation (跨图像关系)。
论文标题:
A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction
论文作者:
Wei Shen, Zelin Peng, Xuehui Wang, Huayu Wang, Jiazhong Cen, Dongsheng Jiang, Lingxi Xie, Xiaokang Yang, Qi Tian
论文链接:
https://arxiv.org/abs/2207.01223
团队介绍:
https://shenwei1231.github.io/
▲不同模态的数据会被分别经过“连续向量路径”和“离散词路径”,分别为连续向量和离散词向量作为其的特征;最终的特征为二者的向量和。
背景与问题
图像分割是计算机视觉领域最古老最广泛的研究任务之一。它的目标是对给定的图像来生成密集的预测,根据预测的类型决定具体的分割方向,例如:给每个像素分配一个预定义的类别标签为语义分割;为每个像素预测一个对象实例标签为实例分割;或前两者的预测结果的组合为全景分割。无论哪种具体分割方向,其都能使语义相似的像素组成有意义的概念,如动态对象(人、猫、球等)和静态物体(道路、天空、水等)。
在过去的近十年里,深度学习的出现极大地带动了图像分割领域的研究进展,特别是随着全卷积网络(FCN)的发展,诸如DeepLab系列,Mask RCNN系列等方法凭借卷积网络强大的密集特征表征能力以及独特的设计在图像分割领域大放异彩,取得了非常好的分割效果。然而这些方法也存在着一个共同的缺点,即往往分割效果与具有可用的密集标注的图像的数量是成正比的,对像素级的标签的需求量非常大。但是人为地给每一张图像做像素级的标注却非常地耗费时间与精力,这不仅限制了深度学习的进一步发展,而且限制了图像分割在真实工业场景中的应用。
近年来,设计基于非完全监督信号来减少对密集标签依赖的分割方法越来越受到关注,非完全监督下的图像分割方法的数量呈爆发式增长,由于缺少对这些方法进行系统地归纳总结,这给研究者学习跟进最新研究进展带来不小的挑战。然而,目前仅有个别几篇相关的调研论文,且它们仅仅关注于一个特定的分割任务,并仅包含个别类型的弱标签,无法做到全面的总结。
本文工作
本文研究人员旨在提供一个面向于非完全监督下图像分割领域的全面的综述,分析语义分割、实例分割、全景分割三类使用弱监督信号(标签)来解决分割问题的方法之间的统一性与关联性。为了达到该目的,研究人员需要想好两个问题:1)如何对这些方法建立合适分类与关联?2)如何从统一的角度总结这些方法所使用的策略?研究人员注意到,弱标签的类型是设计非完全监督图像分割方法的关键,决定了可用信息的多少,因此试图从弱标签信号差异的角度来回答上述两个问题。
针对第一个问题,本综述首先总结出层次化的非完全监督信号的分类,具体类型包括如下所示:
1. 无监督信号:即训练集中的图像没有任何标注信号(图 2a)。
2. 粗粒度监督信号:即训练集中的图像有标注信号,但这些信号不是像素级的,无法为每一个像素提供类别信息或者实例信息。(图2b)在该类型下主要包括:
图像级别的标注
检测框级别的标注
涂鸦级别的标注
3. 不完全监督信号:即训练集中的一部分图像有像素级的标注信号(图2c)。在该类型下主要包括:
半监督标签,即属于同域的另一部分图像没有任何标签
特定域的标签,即另一部分图像属于另一个域,其没有任何标注
部分密集标签,即属于同域的另一部分图像有检测框级别的弱标注
4. 带噪监督信号:即有像素级别的标注,但是这些标注并不一定全部准确(图 2d)。
根据这些分类,再结合不同的任务类型,整理出来了如图 1 所示的分类表,也标注了不同任务不同标签类型下已有的代表性工作和待开发的领域。
▲图2. 每一种弱监督信号的示意图。第一列为完全密集监督信号的例子。
针对第二个问题,本综述结合不同弱监督信号之间的关联以及对 170 余篇论文进行归纳提炼后,总结出了四种通用的启发式先验:
1. cross-label constraint,即跨标签约束:弱标签与密集标签之间具有一些约束关系,如给定图像的类别标签,我们可以知道图中必有至少一个像素属于该类别。
2. cross-pixel similarity,即跨像素相似性:具有诸如颜色,纹理,高层次特征相似性的像素点很可能是同类像素或者同对象像素。
3. cross-view consistency,即跨视图一致性:同一张图的不同的视角具有强关联性/预测一致性。
4. cross-image relation,即跨图像关系:不同图像中属于同一类别的实例具有相同的语义关系。
通过下列表 1 的代表性方法的核心做法归纳中可以看到,在各种监督信号/各种任务下,这四种先验贯穿每一种任务设定,证明了本综述总结的启发式先验具有通用性。
▲表1. 多种弱监督信号下的图像分割代表性工作。
▲表2. 统一的数学描述。
本综述几乎对各章节部分(即某种监督信号下的某个任务)都总结了一个具有概括性的流程图,便于研究人员明确当前已有工作的入手点与研究路线,如图 3 所示。
▲图3. 部分论文图示预览
总结
本综述对现有不完全监督下的图像分割方法进行了归纳总结,同时也分析了未来的潜在研究方向,包括:
1. 结合文本监督的零样本图像分割。多模态技术是未来的主流方向,也更贴近人的认知系统。从文本中获得一定的语义信息可以更好的帮助新类别的识别与分割,利于零样本任务的发展。
2. 利用 Transformer 特性的不完全监督图像分割方法。当前大部分方法还是基于卷积神经网络来实现的,爆火的 Transformer 在不完全监督下的图像分割领域目前还没有被探索,许多 Transformer 特性可能对该任务具有更有力的优势。
3. 还未开拓的利用其他不完全监督信号的方案。如图 1 所示,这里依然有很多方向还没有被探索,如带噪监督信号下的实例分割等,研究者可以发掘更多合理的任务设置,充分利用现有的具有多种标注类型的数据集。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧