同学们,你们觉得视觉经典四个任务中哪个最难?我个人觉得是实例分割。
因为它既具备语义分割的特点,需要做到像素层面上的分类,也具备目标检测的一部分特点,即需要定位出不同实例,即使它们是同一种类。
但尽管实例分割的复杂性和挑战性较高,它仍然是计算机视觉领域一个很重要的研究主题,对地理信息系统、医学影像、自动驾驶、机器人等领域有着很重要的应用技术支持作用。
为了帮助同学们学习这一重要主题,今天我就来和大家分享各大顶会中实例分割方向的12篇高分论文,包含今年最新的研究成果,希望能帮助同学们更轻松地理解并掌握实例分割。
论文原文及代码需要的同学看文末
PatchDCT:用于高质量实例分割的Patch细化
简述:PatchDCT是一种用于高质量实例分割的方法,它通过将解码自DCT向量的掩码分解为多个补丁,并使用分类器和回归器对每个补丁进行细化来提高分割质量。在实验中,PatchDCT方法比Mask-RCNN和DCT-Mask方法表现更好,也与其他最先进的方法相当。
渐进式学习的循环轮廓基础实例分割
简述:论文提出了一种名为PolySnake的新颖深度网络架构,用于轮廓基础实例分割。通过迭代和渐进式轮廓细化策略实现了卓越而稳健的分割性能。具体来说,PolySnake引入了循环更新操作符来迭代地估计物体轮廓,并逐渐将其变形朝向物体边界。在每次迭代中,PolySnake为当前轮廓构建了一个语义丰富的表示形式,并将其输入到循环操作符中进行进一步的轮廓调整。
暗光实例分割
简述:论文发现低光图像中的噪声会引入高频率干扰到神经网络的特征图中,从而降低性能。为了解决这个问题,作者提出了一种新的学习方法,通过自适应加权下采样层、平滑面向卷积块和干扰抑制学习来减少特征噪声。此外,作者还发现使用高比特深度RAW图像可以更好地保留低光场景信息。通过采集现实世界的低光实例分割数据集并利用低光RAW合成管道生成逼真的低光数据,该方法在无需任何图像预处理的情况下实现了令人满意的性能。
开放词汇表的3D实例分割
简述:论文介绍了一种名为OpenMask3D的开放词汇表的3D实例分割方法。现有的3D实例分割方法只能识别预先定义的封闭类别集合中的物体,而OpenMask3D通过学习场景中每个点的可查询特征来解决这一问题。该方法使用基于CLIP的图像嵌入的多视角融合来聚合每个掩码的特征,并通过预测的类无关3D实例掩码指导模型。实验表明,OpenMask3D优于其他开放词汇表方法,尤其是在长尾分布上。
一种具有实例感知采样和框感知动态卷积的3D点云实例分割网络
简述:该文介绍了一种新的无聚类3D实例分割方法ISBNet,它将实例表示为内核并通过动态卷积解码实例掩码。该方法采用实例感知最远点采样策略来高效地生成高召回率和有区别性的内核,并利用局部聚合层编码候选特征。此外,作者还展示了在动态卷积中预测和利用3D轴对齐边界框可以进一步提高性能。
开放词汇实例分割的联合标题基础和生成
简述:作者提出了一种名为Caption Grounding and Generation(CGG)的框架,用于开放词汇实例分割,以扩展分割模型来分类和分割新的实例级别类别。CGG通过仅关注匹配对象名词的基础损失函数提高学习效率,并引入标题生成头提供额外的监督和上下文建模。实验结果表明,基础和生成组件相互补充,显著提高了新类别的分割性能。
解耦的视频实例分割框架
简述:论文介绍了一种名为DVIS的解耦视频实例分割框架,将VIS分为三个子任务:分割、跟踪和细化。作者引入了一个新颖的引用跟踪器和时序细化器来构建DVIS框架,以解决现有方法在复杂和长视频上表现不佳的问题。DVIS在VIS和VPS上都取得了新的最先进的性能,并具有轻量级的优点,允许在单个GPU上进行高效训练和推理。
一种用于实时实例分割的简单查询模型
简述:论文提出了一种用于实时实例分割的简单查询模型框架FastInst,它可以在不使用非最大抑制(NMS)的情况下以端到端的方式执行,并在COCO测试集上达到超过40的AP和32.5 FPS的实时速度。作者提出了三个关键设计:实例激活引导查询、双路径更新策略和真实掩码引导学习,这些设计使得我们可以使用更轻量级的像素解码器和更少的Transformer解码器层,同时实现更好的性能。
一种基于端到端轮廓的高质量高速实例分割方法
简述:E2EC是一种全新的端到端轮廓基础的实例分割方法,它通过使用可学习的轮廓初始化、多方向对齐标签采样和动态匹配损失,实现了高质量的高速实例分割。在这种方法中,首先应用了一种新的可学习轮廓初始化架构来替代手动设计的轮廓初始化,该架构包括一个轮廓初始化模块用于构建更明确的学习目标,以及一个全局轮廓变形模块,可以更好地利用所有顶点的特征。其次,该方法还提出了一种名为多方向对齐的新型标签采样方案,以降低学习难度。最后,为了提高边界细节的质量,动态匹配预测的地面真实顶点对,并提出了相应的动态匹配损失函数。
基于Transformer的高质量实例分割方法
简述:Mask Transfiner是一种用于高质量实例分割的方法,它将图像区域表示为四叉树,并使用Transformer处理易出错的节点。该方法可以以低计算成本预测高度准确的实例掩码,并在三个基准测试中优于当前实例分割方法。
用于点云的三维实例分割SoftGroup
简述:作者提出了一种新的三维实例分割方法SoftGroup,它通过自底向上的软分组和自上而下的细化来解决现有方法中的问题。现有的最先进方法通常先进行语义分割,然后将每个点与单个类别相关联,但这些硬预测在执行语义分割时会产生误差,导致预测的实例与地面真实值之间的重叠度低,以及大量的误报。SoftGroup允许每个点与多个类别相关联,以减轻语义预测错误带来的问题,并通过学习将误报实例分类为背景来抑制误报实例。
基于点云刚体动力学的无监督三维物体分割
简述:论文介绍了一种名为OGC的无监督三维物体分割方法,可以从原始点云中同时识别多个三维物体。该方法利用动态运动模式作为监督信号来自动发现刚体对象,不需要大量的人工注释来进行完全监督。该方法由三个主要组件组成:对象分割网络、辅助的自我监督场景流估计器和核心的对象几何一致性组件。通过精心设计一系列损失函数,该方法有效地考虑了多对象刚体一致性和对象形状不变性在时间和空间尺度上的影响。
关注下方《学姐带你玩AI》
回复“实例分割”领取论文原文及源码
码字不易,欢迎大家点赞评论收藏!