【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(9 月 1 日论文合集)

文章目录

  • 一、分割|语义相关(10篇)
    • 1.1 PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction
    • 1.2 Coarse-to-Fine Amodal Segmentation with Shape Prior
    • 1.3 BTSeg: Barlow Twins Regularization for Domain Adaptation in Semantic Segmentation
    • 1.4 Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models
    • 1.5 Semi-Supervised SAR ATR Framework with Transductive Auxiliary Segmentation
    • 1.6 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation
    • 1.7 Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-Learning
    • 1.8 Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for Semi-Supervised Medical Image Segmentation
    • 1.9 Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites: A Federated Learning Approach with Noise-Resilient Training
    • 1.10 A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models

一、分割|语义相关(10篇)

1.1 PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction

PointOcc:基于点的三维语义占有率预测的柱面三视图

https://arxiv.org/abs/2308.16896

自动驾驶中的语义分割已经经历了从稀疏点分割到密集体素分割的演变,其中目标是预测所关注的3D空间中的每个体素的语义占用。预测空间的密集性质使得现有的基于2D投影的有效方法(例如,鸟瞰图、范围图等)这是无效的,因为它们只能描述3D场景的子空间。为了解决这个问题,我们提出了一个圆柱形的三透视图来表示点云有效和全面和PointOcc模型来有效地处理它们。考虑到LiDAR点云的距离分布,我们构建了柱坐标系中的三透视图,以更精细的建模更近的区域。我们采用空间组池在投影过程中保持结构细节,并采用2D骨干有效地处理每个TPV平面。最后,我们通过聚合每个点的投影特征来获得每个点的特征,而不需要任何后处理。在3D占用预测和LiDAR分割基准上的大量实验表明,所提出的PointOcc以更快的速度实现了最先进的性能。具体来说,尽管只使用LiDAR,PointOcc的性能明显优于所有其他方法,包括多模态方法,在OpenOccupancy基准上有很大的优势。代码:https://github.com/wzzheng/PointOcc.

1.2 Coarse-to-Fine Amodal Segmentation with Shape Prior

基于形状先验的粗细无声道分割

https://arxiv.org/abs/2308.16825

非模态对象分割是一项具有挑战性的任务,涉及分割对象的可见部分和遮挡部分。在本文中,我们提出了一种新的方法,称为粗到精分割(C2F-Seg),解决了这个问题,逐步建模的非模态分割。C2F-Seg最初将学习空间从像素级图像空间减少到矢量量化的潜在空间。这使我们能够更好地处理长距离依赖关系,并从视觉特征和可见片段中学习粗粒度的非模态片段。然而,该潜在空间缺乏关于对象的详细信息,这使得难以直接提供精确的分割。为了解决这个问题,我们提出了一个卷积细化模块注入细粒度的信息,并提供一个更精确的amodal对象分割的基础上的视觉特征和粗预测的分割。为了帮助非模态对象分割的研究,我们创建了一个合成的非模态数据集,命名为MOViD-Amodal(MOViD-A),它可以用于图像和视频非模态对象分割。我们在两个基准数据集上广泛评估了我们的模型:KINS和可可A。我们的实证结果表明C2F-Seg的优越性。此外,我们展示了我们的方法的潜力,视频amodal对象分割任务的鱼和我们提出的MOViD-A。项目页面:http://jianxgao.github.io/C2F-Seg。

1.3 BTSeg: Barlow Twins Regularization for Domain Adaptation in Semantic Segmentation

BTSeg:语义切分中领域自适应的Barlow孪生正则化算法

https://arxiv.org/abs/2308.16819

语义图像分割是许多计算机视觉系统(如自动驾驶)中的关键组成部分。在这样的应用中,不利条件(大雨、夜间、雪、极端照明)一方面提出了特定的挑战,但通常在可用的数据集中表现不足。生成更多的训练数据是繁琐且昂贵的,并且由于固有的任意不确定性,该过程本身容易出错。为了解决这个具有挑战性的问题,我们提出了BTSeg,它利用图像级的对应关系作为弱监督信号来学习一个分割模型,这是不可知的不利条件。为此,我们的方法使用了来自无监督学习领域的Barlow双胞胎损失,并将在相同位置但在不同不利条件下拍摄的图像视为相同未知基础图像的“增强”。这允许训练对由不同不利条件引入的外观变化具有鲁棒性的分割模型。我们评估我们的方法ACDC和新的具有挑战性的ACG基准,以证明其鲁棒性和泛化能力。与当前最先进的方法相比,我们的方法表现良好,同时也更易于实现和训练。代码将在接受后发布。

1.4 Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models

REF-DIFF:基于生成模型的Zero-Shot参考图像分割

https://arxiv.org/abs/2308.16777

Zero-shot参考图像分割是一项具有挑战性的任务,因为它的目的是根据给定的参考描述找到一个实例分割掩模,而无需对这种类型的配对数据进行训练。当前的zero-shot方法主要集中于使用预先训练的判别模型(例如,CLIP)。然而,我们已经观察到生成模型(例如,稳定扩散)有潜在的理解各种视觉元素和文本描述之间的关系,这是很少在这项任务中调查。在这项工作中,我们引入了一种新的参考扩散分割器(Ref-Diff),该任务利用了生成模型的细粒度多模态信息。我们证明,如果没有一个建议生成器,生成模型可以单独实现现有的SOTA弱监督模型的性能相当。当我们结合生成和判别模型时,我们的Ref-Diff显著优于这些竞争方法。这表明生成模型也有利于这项任务,可以补充判别模型,以更好地参考分割。我们的代码可在https://github.com/kodenii/Ref-Diff上公开获取。

1.5 Semi-Supervised SAR ATR Framework with Transductive Auxiliary Segmentation

基于感应式辅助分割的半监督SAR ATR框架

https://arxiv.org/abs/2308.16633

卷积神经网络(CNN)在合成孔径雷达(SAR)自动目标识别(ATR)中取得了很好的性能。然而,CNN的性能在很大程度上取决于大量的训练数据。SAR图像标记的不足限制了SAR图像的识别性能,甚至使一些ATR方法失效。此外,在很少的标记训练数据下,许多现有的CNN甚至无效。为了解决这些挑战,我们提出了一个半监督SAR ATR框架与转导辅助分割(SFAS)。该框架的重点是利用可用的未标记样本的辅助损失作为正则化的转导泛化。通过对未标记SAR样本的辅助分割和训练中的信息残差损失(IRL),该框架可以采用所提出的训练循环过程,并逐步利用识别和分割的信息编译来构建有用的归纳偏差,从而实现高性能。在MSTAR数据集上进行的实验表明,我们提出的SFAS Few-Shot学习的有效性。在每类20个训练样本的情况下,识别率可达94.18%,同时获得了准确的分割结果。对于EOCs的方差,当每类10个训练样本时,识别率大于88.00%.

1.6 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation

3D-STMN:依赖关系驱动的端到端3D指称表达式分割的超点文本匹配网络

https://arxiv.org/abs/2308.16632

在3D引用表达式分割(3D-RES),早期的方法采用两阶段范式,提取分割建议,然后匹配他们与引用表达式。然而,这种传统的范式遇到了重大的挑战,最显着的是在产生乏善可陈的初始建议和显着减速的推理速度。认识到这些局限性,我们引入了一个创新的端到端超点文本匹配网络(3D-STMN),它丰富了依赖性驱动的见解。我们的模型的关键之一是超点文本匹配(STM)机制。与传统的方法,导航通过实例建议,STM直接相关的语言指示与其各自的超点,集群语义相关的点。这种架构决策使我们的模型能够有效地利用跨模态语义关系,主要利用密集注释的超点文本对,而不是更稀疏的实例文本对。在追求增强文本在指导分割过程中的作用,我们进一步纳入依赖驱动交互(DDI)模块,以加深网络的语义理解的指称表达。使用依赖树作为信标,该模块识别主要术语和其相关描述符之间的复杂关系,从而提升我们的模型的本地化和分割能力。ScanRefer基准测试的综合实验表明,我们的模型不仅设置了新的性能标准,注册了11.7分的mIoU增益,而且实现了惊人的增强推理速度,超过了传统方法的95.7倍。代码和型号可在https://github.com/sosppxo/3D-STMN获得。

1.7 Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-Learning

自采样Meta SAM:用元学习增强Few-Shot医学图像分割

https://arxiv.org/abs/2308.16466

虽然任何分割模型(SAM)在通用图像的语义分割方面表现出色,但当应用于医学图像时,其性能显著恶化,主要归因于其训练数据集中的医学图像的表示不足。然而,由于医学图像中常见的长尾问题,收集普遍适用的全面数据集和训练模型尤其具有挑战性。为了解决这一差距,在这里,我们提出了一个自采样Meta SAM(SSM-SAM)框架的Few-Shot医学图像分割。我们的创新在于三个关键模块的设计:1)在线快速梯度下降优化器,由元学习器进一步优化,确保快速和稳健地适应新任务。2)一个自采样模块,设计用于提供良好对齐的视觉提示,以改善注意力分配;以及3)一个鲁棒的基于注意力的解码器专门设计用于医学Few-Shot学习以捕捉不同切片之间的关系。在一个流行的腹部CT数据集和MRI数据集上的广泛实验表明,所提出的方法实现了显着的改进,国家的最先进的方法在Few-Shot分割,平均改善10.21%和1.80%的DSC,分别。总之,我们提出了一种新的方法,快速在线适应交互式图像分割,适应一个新的器官在短短0.83分钟。代码在接受后在GitHub上公开可用。

1.8 Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for Semi-Supervised Medical Image Segmentation

半监督医学图像分割中基于伪标签引导数据增强的双译码一致性算法

https://arxiv.org/abs/2308.16573

医学图像分割方法通常依赖于完全监督的方法来实现优异的性能,这取决于具有大量的标记图像用于训练。然而,注释医学图像既昂贵又耗时。半监督学习通过利用大量未标记的图像以及有限的注释图像集提供了一种解决方案。在本文中,我们介绍了一种半监督的医学图像分割方法的基础上的均值-教师模型,称为双解码器一致性通过伪标签引导的数据增强(DCPA)。该方法结合了一致性正则化、伪标签和数据增强,以提高半监督分割的效率。首先,所提出的模型包括学生和教师模型与共享的编码器和两个不同的解码器,采用不同的上采样策略。最小化解码器之间的输出差异强制生成一致的表示,在学生模型训练期间用作正则化。其次,我们引入混合操作来混合未标记的数据与标记的数据,创建混合数据,从而实现数据增强。最后,由教师模型生成伪标签,并将其用作混合数据的标签以计算无监督损失。我们比较了DCPA模型的分割结果与六个国家的最先进的半监督方法在三个公开可用的医疗数据集。除了经典的10%和20%的半监督设置,我们调查的性能与较少的监督(5%的标记数据)。实验结果表明,我们的方法始终优于现有的半监督医学图像分割方法在三个半监督设置。

1.9 Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites: A Federated Learning Approach with Noise-Resilient Training

改善多发性硬化症病变跨临床部位的分割:结合抗噪训练的联合学习方法

https://arxiv.org/abs/2308.16376

用磁共振成像(MRI)准确测量多发性硬化(MS)的演变关键性地告知了解疾病进展,并有助于指导治疗策略。深度学习模型已经显示出自动分割MS病变的前景,但准确注释的数据的缺乏阻碍了该领域的进展。从单个临床研究中心获得足够的数据具有挑战性,并且无法解决对模型稳健性的异质性需求。相反,由于不同的注释标准,从多个站点收集数据引入了数据隐私问题和潜在的标签噪声。为了解决这一困境,我们探讨了联邦学习框架的使用,同时考虑标签噪声。我们的方法使多个临床站点之间的协作,而不损害数据隐私的联邦学习范式,结合了一个噪声鲁棒的训练策略的基础上的标签校正。具体而言,我们引入了一个解耦硬标签校正(DHLC)的策略,考虑到MS病变的不平衡分布和模糊边界,使错误注释的校正预测置信度的基础上。我们还引入了集中增强标签校正(CELC)策略,利用聚合的中心模型作为所有网站的校正教师,提高了校正过程的可靠性。在两个多站点数据集上进行的大量实验证明了我们提出的方法的有效性和鲁棒性,表明其在多站点协作临床应用的潜力。

1.10 A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models

基于扩散去噪模型的医学图像分割循环训练策略

https://arxiv.org/abs/2308.16355

去噪扩散模型通过生成以图像为条件的分割掩模而在图像分割中得到应用。现有的研究主要集中在调整模型结构或改善推理,如测试时的抽样策略。在这项工作中,我们专注于训练策略的改进,并提出了一种新的回收方法。在每个训练步骤期间,首先在给定图像和随机噪声的情况下预测分割掩模。这个预测的掩模,取代传统的地面真实掩模,用于训练期间的去噪任务。这种方法可以被解释为通过消除对用于生成噪声样本的地面真实掩模的依赖来将训练策略与推理对齐。我们提出的方法在多个医学成像数据集上显著优于标准扩散训练、自调节和现有的回收策略:肌肉超声、腹部CT、前列腺MR和脑部MR。这适用于两种广泛采用的采样策略:去噪扩散概率模型和去噪扩散隐式模型。重要的是,现有的扩散模型在推理过程中往往表现出下降或不稳定的性能,而我们的新回收一贯提高或保持性能。此外,我们首次表明,在与相同的网络架构和计算预算进行公平比较的情况下,所提出的基于循环的扩散模型与非基于扩散的监督训练取得了同等的性能。本文总结了这些定量结果,并讨论了它们的价值,一个完全可重复的基于JAX的实现,发布在https://github.com/mathpluscode/ImgX-DiffSeg。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,人工智能,图像分割)