【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 23 日论文合集)

文章目录

  • 一、分割|语义相关(13篇)
    • 1.1 LCCo: Lending CLIP to Co-Segmentation
    • 1.2 Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding
    • 1.3 Boundary-RL: Reinforcement Learning for Weakly-Supervised Prostate Segmentation in TRUS Images
    • 1.4 How Much Temporal Long-Term Context is Needed for Action Segmentation?
    • 1.5 Semantic RGB-D Image Synthesis
    • 1.6 BHSD: A 3D Multi-Class Brain Hemorrhage Segmentation Dataset
    • 1.7 Affordance segmentation of hand-occluded containers from exocentric images
    • 1.8 DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment
    • 1.9 Masked Cross-image Encoding for Few-shot Segmentation
    • 1.10 MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation
    • 1.11 Hierarchical Point-based Active Learning for Semi-supervised Point Cloud Semantic Segmentation
    • 1.12 Beyond Discriminative Regions: Saliency Maps as Alternatives to CAMs for Weakly Supervised Semantic Segmentation
    • 1.13 BundleSeg: A versatile, reliable and reproducible approach to white matter bundle segmentation

一、分割|语义相关(13篇)

1.1 LCCo: Lending CLIP to Co-Segmentation

LCCO:借钱给共同细分市场

https://arxiv.org/abs/2308.11506

本文研究了图像中共同语义对象的协同分割问题。现有作品要么依赖于精心设计的网络来挖掘视觉特征中的隐含语义信息,要么需要额外的数据(即,分类标签)用于培训。在本文中,我们利用对比语言图像预训练框架(CLIP)的任务。通过独立处理集合中每个图像的主干分割网络,我们将CLIP的语义引入主干特征,通过三个关键模块以粗到精的方式对其进行细化:i)图像集特征对应模块,对图像集的全局一致语义信息进行编码; ii)CLIP交互模块,使用CLIP挖掘的图像集的公共语义来细化主干特征; iii)CLIP正则化模块,将CLIP引向该共分割任务,识别最佳CLIP语义并使用它来正则化主干特征。在四个标准的联合分割基准数据集上的实验表明,我们的方法的性能优于最先进的方法。

1.2 Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding

掩蔽动量对比学习在零射语义理解中的应用

https://arxiv.org/abs/2308.11448

自监督预训练(SSP)已经成为机器学习中的一种流行技术,可以在没有标记数据的情况下提取有意义的特征表示。在计算机视觉领域,预训练的Vision Transformers(ViTs)在推进迁移学习方面发挥了关键作用。尽管如此,由于模型尺寸的爆炸性增长,微调这些大型模型的成本不断上升已经构成了挑战。本研究致力于评估纯自监督学习(SSL)技术在计算机视觉任务中的有效性,避免了微调的需要,旨在模仿人类在概括和识别看不见的物体方面的能力。为此,我们提出了一个评估协议的基础上提示补丁zero-shot分割。该算法以目标物体上的一个点为提示,计算出该点与其它点的相似度图,然后采用简单的阈值分割方法对目标进行分割。另一个评估是对象内和对象间相似性,以衡量SSP ViT的辨别能力。从SSP的提示和区分能力的zero-shot分割的见解导致了一个简单的SSP方法的设计,称为MMC。该方法结合了用于鼓励局部特征的相似性的掩蔽图像建模、用于将语义从全局转移到局部特征的基于动量的自蒸馏以及用于促进全局特征的语义的全局对比度,以增强SSP ViTs的判别表示。因此,我们提出的方法显着减少了重叠的对象内和对象间的相似性,从而促进有效的对象分割图像内。我们的实验表明,MMC提供了顶级的结果,在zero-shot语义分割在各种数据集。

1.3 Boundary-RL: Reinforcement Learning for Weakly-Supervised Prostate Segmentation in TRUS Images

边界-RL:用于TRUS图像弱监督前列腺分割的强化学习

https://arxiv.org/abs/2308.11376

我们提出了边界-RL,一种新的弱监督分割方法,只利用补丁级标签进行训练。我们设想的分割作为一个边界检测问题,而不是在以前的作品中的像素级分类。这种对分割的展望可以允许在具有挑战性的场景下进行边界描绘,诸如在感兴趣区域(ROI)边界内可能存在噪声伪影的情况下,其中传统的基于像素级分类的弱监督方法可能无法有效地分割ROI。特别感兴趣的是,其中强度值表示边界之间的声阻抗差的超声图像也可以受益于边界描绘方法。我们的方法使用强化学习来训练控制器函数,以使用来自预先训练的边界存在分类器的奖励来定位ROI的边界。当控制器在顺序马尔可夫决策过程中修改补丁位置时,分类器指示何时在补丁内遇到对象边界。分类器本身仅使用对象存在的二进制分块级标签来训练,这是在整个边界划定框架的训练期间使用的唯一标签,并且用作通知边界划定的弱信号。控制器功能的使用确保了在整个图像上的滑动窗口不是必需的。它还通过最小化传递到边界存在分类器的补丁的数量来防止可能的假阳性或阴性情况。我们评估我们提出的方法,经直肠超声图像的前列腺分割的临床相关任务。与其他测试的弱监督方法相比,我们使用相同的标签,例如,多实例学习

1.4 How Much Temporal Long-Term Context is Needed for Action Segmentation?

行动细分需要多少时间的长期背景?

https://arxiv.org/abs/2308.11358

对视频中的长期上下文建模对于包括时间动作分割在内的许多细粒度任务至关重要。一个仍然悬而未决的有趣问题是,需要多少长期的时间上下文来获得最佳性能。虽然Transformers可以对视频的长期上下文建模,但这对于长视频来说在计算上变得禁止。最近的工作时间动作分割,因此结合了时间卷积网络与自我注意,只计算一个局部时间窗口。虽然这些方法显示出良好的结果,但它们的性能受限于它们无法捕获视频的完整上下文。在这项工作中,我们试图回答多少长期的时间上下文需要时间动作分割引入一个基于变换器的模型,利用稀疏的注意力捕捉视频的完整上下文。我们比较我们的模型与目前的最新技术状态的三个数据集的时间动作分割,即50Salads,早餐,和Assembly101。我们的实验表明,建模的视频的完整上下文是必要的,以获得最佳的性能的时间动作分割。

1.5 Semantic RGB-D Image Synthesis

语义RGB-D图像合成

https://arxiv.org/abs/2308.11356

收集用于RGB-D语义图像分割的不同训练图像集并不总是可能的。特别是,当机器人需要在家庭等隐私敏感区域操作时,收集通常仅限于一小部分地点。因此,注释图像在外观上缺乏多样性,并且用于RGB-D语义图像分割的方法倾向于过拟合训练数据。因此,在本文中,我们引入语义RGB-D图像合成来解决这个问题。它需要为给定的语义标签映射合成逼真的RGB-D图像。然而,目前的方法是单模态的,不能处理多模态数据。事实上,我们表明,扩展单模态的方法,多模态的数据并不表现良好。因此,在本文中,我们提出了一个多模态数据的生成器,分离的模态独立信息的语义布局,从需要生成RGB和深度图像的模态相关信息,分别。此外,我们提出了一个鉴别器,确保标签映射和生成的图像之间的语义一致性和真实的和生成的图像之间的感知相似性。我们的综合实验表明,所提出的方法优于以前的单峰方法,由很大的幅度,RGB-D语义分割的方法的准确性可以显着提高混合的真实和生成的图像在训练过程中。

1.6 BHSD: A 3D Multi-Class Brain Hemorrhage Segmentation Dataset

BHSD:一种三维多类脑出血分割数据集

https://arxiv.org/abs/2308.11298

颅内出血(ICH)是一种以颅内或脑内出血为特征的病理状况,其可归因于多种因素。以出血依赖性方式识别、定位和定量ICH具有重要的临床意义。虽然深度学习技术广泛用于医学图像分割,并已应用于ICH分割任务,但现有的公共ICH数据集不支持多类分割问题。为了解决这个问题,我们开发了脑出血分割数据集(BHSD),它提供了一个3D多类ICH数据集,包含192卷与像素级注释和2200卷与切片级注释跨越五个类别的ICH。为了证明数据集的效用,我们制定了一系列的监督和半监督ICH分割任务。我们提供的实验结果与国家的最先进的模型作为参考基准,进一步的模型开发和评估这个数据集。

1.7 Affordance segmentation of hand-occluded containers from exocentric images

从偏心图像中分割手遮挡集装箱

https://arxiv.org/abs/2308.11233

视觉示能表示分段识别代理可以与之交互的对象的表面。可供性识别的常见挑战是这些表面的几何形状和物理特性以及遮挡的多样性。在本文中,我们专注于闭塞的对象,是手持一个人操纵它。为了解决这一挑战,我们提出了一个可供性分割模型,使用辅助分支来处理对象和手区域分别。该模型通过手和对象分割对特征图进行加权,从而学习手遮挡下的启示特征。为了训练模型,我们用第三人称(离心)图像中的手持容器的混合现实图像注释了现有数据集的视觉启示。在真实和混合现实图像上的实验表明,我们的模型比现有模型实现了更好的启示分割和概括。

1.8 DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment

DiffCloth:基于结构跨通道语义对齐的服装扩散合成与操纵

https://arxiv.org/abs/2308.11206

跨模态服装合成和操作将极大地促进服装设计师通过灵活的语言界面生成服装和修改设计,目前的方法遵循一般的文本到图像范式,通过简单的交叉注意模块挖掘跨模态关系,忽略了服装设计领域视觉和文本表征之间的结构对应。在这项工作中,我们反而引入DiffCloth,一个基于扩散的管道跨模态服装合成和操纵,它赋予扩散模型在时尚领域的灵活的组合结构上对齐的跨模态语义。具体而言,我们制定的部分级跨模态对齐的语言属性短语(AP)和视觉服装部分,通过选区解析和语义分割,分别获得的两部分匹配问题。为了减轻属性混淆的问题,我们进一步提出了一个语义捆绑的交叉注意,以保持每个AP的属性形容词和部分名词的注意地图之间的空间结构相似性。此外,DiffCloth允许通过简单地替换文本提示中的AP来操纵生成的结果。通过从AP的捆绑注意力图获得的混合掩模来识别操纵无关区域,并且保持不变。广泛的实验CM-Fashion基准测试表明,DiffCloth都产生国家的最先进的服装合成结果,利用固有的结构信息,并支持灵活的操纵与区域一致性。

1.9 Masked Cross-image Encoding for Few-shot Segmentation

用于Few-Shot分割的掩模交叉图像编码

https://arxiv.org/abs/2308.11201

Few-Shot分割(FSS)是一种密集预测任务,其目的是仅使用有限数量的注释图像来推断未见过类的像素级标签。FSS中的关键挑战是使用从几个标记的支持样本中学习的类原型对查询像素的标签进行分类。FSS的先前方法通常集中于独立于支持图像学习类描述符,从而忽略了支持查询特征之间的丰富上下文信息和相互依赖性。为了解决这一限制,我们提出了一种联合学习方法,称为掩蔽跨图像编码(MCE),它的目的是捕捉常见的视觉特性,描述对象的细节,并学习双向图像间的依赖关系,增强功能的相互作用。MCE不仅仅是一个视觉表示丰富模块;它还考虑了跨图像的相互依赖性和隐式引导。在FSS基准程序PASCAL- 5 i 5^i 5i和COCO- 2 0 i 20^i 20i上的实验证明了该方法的先进元学习能力。

1.10 MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video Segmentation

MEGA:用于电影视频分割的多模式对齐聚合和提取

https://arxiv.org/abs/2308.11185

以前的研究已经研究了将电影视频分割成场景和叙事行为的任务。然而,这些研究忽略了有效和高效地处理长格式视频(> 60分钟)的多模态对齐和融合的基本任务。在本文中,我们介绍了多模态对齐的聚集和蒸馏(MEGA)的电影长视频分割。MEGA通过利用多种媒体形式来应对挑战。该方法粗对准可变长度和不同模态的输入与对准位置编码。为了保持时间同步,同时减少计算,我们进一步引入了一个增强的瓶颈融合层,它使用时间对齐。此外,MEGA采用了一种新的对比度损失来同步和跨模态传输标签,从而能够从视频镜头上的标记概要句子中进行动作分割。我们的实验结果表明,MEGA在MovieNet数据集上的场景分割(平均精度提高+1.19%)和TRIPOD数据集上的动作分割(总一致率提高+5.51%)优于最先进的方法

1.11 Hierarchical Point-based Active Learning for Semi-supervised Point Cloud Semantic Segmentation

基于层次点的主动学习用于半监督点云语义分割

https://arxiv.org/abs/2308.11166

在点云语义分割上,具有大量标记数据的全监督方法已经取得了令人印象深刻的性能。由于获取具有逐点标签的大规模点云数据是劳动密集型的,因此已经进行了许多尝试来探索学习具有有限注释的3D点云分割。主动学习是实现这一目标的有效策略之一,但目前仍处于探索阶段。这种最新的方法测量的不确定性的每个预划分的区域进行手动标记,但他们遭受冗余的信息,并需要额外的努力,区域划分。本文旨在解决这个问题,通过开发一个分层的点为基础的主动学习策略。具体而言,我们测量的不确定性,每个点的分层最小边际不确定性模块,考虑在多个层次的上下文信息。然后,一个特征距离抑制策略的设计,以选择重要的和代表性的点手动标注。此外,为了更好地利用未标记的数据,我们建立了一个半监督分割框架的基础上,我们的主动策略。在S3DIS和ScanNetV2数据集上的大量实验表明,所提出的框架实现了96.5%和100%的全监督基线的性能,只有0.07%和0.1%的训练数据,分别优于国家的最先进的弱监督和主动学习方法。该代码将在https://github.com/SmiletoE/HPAL上获得。

1.12 Beyond Discriminative Regions: Saliency Maps as Alternatives to CAMs for Weakly Supervised Semantic Segmentation

区分区域之外:显著图作为弱监督语义分割的CAM的替代方案

https://arxiv.org/abs/2308.11052

近年来,已经提出了几种弱监督语义分割(WS3)方法,使用分类器生成的类激活映射(CAM)来产生用于训练分割模型的伪地面真值。虽然CAM擅长突出图像的判别区域(DR),但已知它们忽略对象的不有助于分类器的预测的区域,称为非判别区域(NDR)。相比之下,诸如显著性图的归因方法提供了用于基于每个像素对分类预测的贡献来将分数分配给每个像素的替代方法。本文提供了一个全面的比较显着性和CAM的WS3。我们的研究包括多个角度来理解它们的异同。此外,我们提供了新的评估指标,执行一个全面的评估WS3性能的替代方法w.r.t.摄像机我们通过对基准数据集的实证研究,证明了显着性在解决CAM的局限性方面的有效性。此外,我们提出随机裁剪作为一种随机聚合技术,提高显着性的性能,使其成为WS3 CAM的一个强有力的替代品。

1.13 BundleSeg: A versatile, reliable and reproducible approach to white matter bundle segmentation

BundleSeg:一种通用、可靠、可重复性的白质束分割方法

https://arxiv.org/abs/2308.10958

这项工作提出了BundleSeg,一种可靠的,可重复的,快速的提取白质途径的方法。所提出的方法相结合的迭代注册程序与最近开发的精确的流线搜索算法,使有效的分割流线,而不需要tractogram聚类或简化假设。我们表明,BundleSeg实现了比最先进的分割方法更好的重复性和再现性,速度显著提高。提高的精度和降低的变异性提取白质连接为神经信息学研究提供了一个有价值的工具,增加了白质通路的纤维束摄影术为基础的研究的灵敏度和特异性。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,人工智能,图像分割)