【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(9 月 13 日论文合集)

文章目录

  • 一、分割|语义相关(13篇)
    • 1.1 Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle
    • 1.2 360 ∘ ^\circ from a Single Camera: A Few-Shot Approach for LiDAR Segmentation
    • 1.3 Active Label Refinement for Semantic Segmentation of Satellite Images
    • 1.4 Real-Time Semantic Segmentation: A Brief Survey & Comparative Study in Remote Sensing
    • 1.5 FLDNet: A Foreground-Aware Network for Polyp Segmentation Leveraging Long-Distance Dependencies
    • 1.6 Medical Image Segmentation with Belief Function Theory and Deep Learning
    • 1.7 Self-Correlation and Cross-Correlation Learning for Few-Shot Remote Sensing Image Semantic Segmentation
    • 1.8 Lung Diseases Image Segmentation using Faster R-CNNs
    • 1.9 Improving Generalization Capability of Deep Learning-Based Nuclei Instance Segmentation by Non-deterministic Train Time and Deterministic Test Time Stain Normalization
    • 1.10 A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation
    • 1.11 Introducing Shape Prior Module in Diffusion Model for Medical Image Segmentation
    • 1.12 Deep evidential fusion with uncertainty quantification and contextual discounting for multimodal medical image segmentation
    • 1.13 LUNet: Deep Learning for the Segmentation of Arterioles and Venules in High Resolution Fundus Images

一、分割|语义相关(13篇)

1.1 Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle

运动车辆上的语义和铰接式行人感知

https://arxiv.org/abs/2309.06313

由于车辆的大的向前运动,难以从车载采集的视频执行3D重建。与标准基准相比,即使是对象检测和人类感知模型在板载视频上的表现也明显较差,因为与标准对象检测基准相比,对象经常出现在远离相机的地方,图像质量经常因运动模糊而降低,并且经常发生遮挡。这导致了交通数据特定基准的普及。最近,光探测和测距(LiDAR)传感器已经变得流行,以直接估计深度,而不需要执行3D重建。然而,与基于图像的方法相比,基于LiDAR的方法仍然缺乏在一定距离处的关节式人体检测。我们假设,针对LiDAR数据中的人体感知的基准可以增加对交通中人体感知和预测的研究,并可能改善行人的交通安全。

1.2 360 ∘ ^\circ from a Single Camera: A Few-Shot Approach for LiDAR Segmentation

来自单个摄像头的 360 ∘ ^\circ :LiDAR 分割的少镜头方法

https://arxiv.org/abs/2309.06197

在LiDAR数据上的深度学习应用程序在应用于不同的传感器或任务时会遇到很强的领域差距。为了使这些方法在不同的数据上获得与公共基准报告的值相比相似的准确性,大规模注释数据集是必要的。然而,在实际应用中,标记数据是昂贵和耗时的获得。这些因素引发了标签高效方法的各种研究,但与完全监督的同行仍然存在很大的差距。因此,我们提出了ImageTo 360,一种有效的和精简的Few-Shot方法,标签高效的LiDAR分割。我们的方法利用图像教师网络来生成LiDAR数据在一个单一的相机视图的语义预测。教师用于预训练LiDAR分割学生网络,然后对360 ∘ ^\circ 数据进行可选微调。我们的方法是在一个模块化的方式上的点级,因此是泛化到不同的架构。我们改进了目前最先进的标签高效方法的结果,甚至超越了一些传统的全监督分割网络。

1.3 Active Label Refinement for Semantic Segmentation of Satellite Images

主动标签细化在卫星图像语义分割中的应用

https://arxiv.org/abs/2309.06159

通过卫星图像的语义分割进行遥感有助于对地球表面的理解和利用。为此目的,语义分割网络通常在大组标记的卫星图像上进行训练。然而,获得这些图像的专家标签是昂贵的。因此,我们建议采用低成本的方法,例如:众包或预先训练的网络,以在第一步中标记图像。由于这些初始标签是部分错误的,我们使用主动学习策略,在第二步中以成本效益的方式细化标签。我们使用印度班加罗尔的卫星图像,土地覆盖和土地利用标签,评估主动学习策略。我们的实验结果表明,积极的标签细化,以提高语义分割网络的性能是有益的。

1.4 Real-Time Semantic Segmentation: A Brief Survey & Comparative Study in Remote Sensing

实时语义分割:遥感领域的简要综述与比较研究

https://arxiv.org/abs/2309.06047

遥感图像的实时语义分割是一项具有挑战性的任务,需要在有效性和效率之间进行权衡。它有许多应用,包括跟踪森林火灾,检测土地利用和土地覆盖的变化,作物健康监测等。随着高效深度学习方法的成功(即高效的深度神经网络)用于计算机视觉中的实时语义分割,研究人员已经将这些高效的深度神经网络用于遥感图像分析。本文首先总结了设计高效深度神经网络的基本压缩方法,并提供了一个简短但全面的调查,概述了遥感图像实时语义分割的最新发展。我们研究了几种开创性的高效深度学习方法,并将它们置于基于网络架构设计方法的分类中。此外,我们评估了一些现有的有效的深度神经网络的质量和效率的公开可用的遥感语义分割基准数据集,OpenEarthMap。广泛的比较研究的实验结果表明,大多数现有的高效深度神经网络具有良好的分割质量,但它们的推理速度较低(即,高延迟率),这可能限制它们在遥感图像分割的实时应用中的部署能力。本文对遥感图像实时语义分割的研究现状和未来的研究方向进行了展望。

1.5 FLDNet: A Foreground-Aware Network for Polyp Segmentation Leveraging Long-Distance Dependencies

FLDNet:一种利用远程依赖关系的前景感知的息肉分割网络

https://arxiv.org/abs/2309.05987

鉴于结直肠癌和息肉之间的密切关系,结直肠息肉的诊断和识别在结直肠癌的检测和手术干预中起着关键作用。在此背景下,从各种结肠镜图像中自动检测和分割息肉已经成为一个重要的问题,引起了广泛的关注。当前息肉分割技术面临若干挑战:首先,息肉在大小、质地、颜色和图案上变化;其次,息肉和粘膜之间的边界通常是模糊的,现有的研究集中在学习息肉的局部特征,而忽略了特征的长程依赖性,也忽略了组合特征的局部上下文和全局上下文信息。为了解决这些挑战,我们提出了FLDNet(Foreground-Long-Distance Network),这是一种基于Transformer的神经网络,可以捕获长距离依赖关系,以实现准确的息肉分割。具体而言,所提出的模型包括三个主要模块:基于金字塔的Transformer编码器、本地上下文模块和前台感知模块。具有长距离依赖信息的多级特征首先由基于金字塔的Transformer编码器捕获。在高层特征上,局部上下文模块通过构造不同的局部上下文信息来获得与息肉相关的局部特征。通过解码重建的最高级别特征获得的粗图引导高级特征的前景感知模块中的特征融合过程,以实现息肉的前景增强。我们提出的方法,FLDNet,使用七个指标对常见的数据集进行了评估,并证明了优于国家的最先进的方法,广泛使用的评估措施。

1.6 Medical Image Segmentation with Belief Function Theory and Deep Learning

基于信任函数理论和深度学习的医学图像分割

https://arxiv.org/abs/2309.05914

深度学习在医学图像分割中表现出强大的学习和特征表示能力。然而,它在推理和组合不完美(不精确,不确定和部分)信息方面有局限性。本文研究了基于信度函数理论和深度学习的医学图像分割方法,重点研究了基于不确定证据的信息建模和融合。 首先,我们回顾了现有的基于置信函数理论的医学图像分割方法,并讨论了它们的优点和挑战。其次,我们提出了一个半监督的医学图像分割框架,以减少不确定性所造成的缺乏注释的证据分割和证据融合。第三,我们比较了两种证据分类器,证据神经网络和径向基函数网络,展示了信度函数理论在不确定性量化中的有效性;我们使用具有深度神经网络的两个证据分类器来构建用于淋巴瘤分割的深度证据模型。第四,我们提出了一个多模态医学图像融合框架,考虑到每个MR图像源的可靠性,当执行不同的分割任务,使用质量函数和上下文折扣。

1.7 Self-Correlation and Cross-Correlation Learning for Few-Shot Remote Sensing Image Semantic Segmentation

基于自相关和互相关学习的Few-Shot遥感图像语义分割

https://arxiv.org/abs/2309.05840

遥感图像语义分割是遥感图像解译的一个重要问题。虽然已经取得了显着的进展,但现有的深度神经网络方法受到对大量训练数据的依赖。Few-Shot遥感图像语义分割的目的是学习从查询图像中分割目标对象,只使用目标类的少量标注支持图像。大多数现有的Few-Shot学习方法主要源于它们只专注于从支持图像中提取信息,从而无法有效地解决地理对象的外观和尺度的大变化。为了解决这些问题,我们提出了一个自相关和互相关学习网络的Few-Shot遥感图像的语义分割。我们的模型通过考虑支持和查询图像之间的自相关性和互相关性来进行分割预测,从而增强了泛化能力。为了进一步探索与查询图像的自相关性,我们建议采用经典的谱方法来产生基于图像的基本视觉信息的类不可知分割掩模。在两个遥感图像数据集上的实验表明了该模型在Few-Shot遥感图像语义分割中的有效性和优越性。代码和模型将在https://github.com/linhanwang/SCCNe上访问。

1.8 Lung Diseases Image Segmentation using Faster R-CNNs

基于快速R-CNN的肺部疾病图像分割

https://arxiv.org/abs/2309.06386

肺部疾病是发展中国家儿童死亡的主要原因,2016年印度约占全球肺炎死亡人数的一半(37万人)。及时诊断对降低死亡率至关重要。本文介绍了一种低密度神经网络结构,以缓解深度网络中的拓扑挑战。该网络将参数纳入特征金字塔,增强数据提取和最小化信息损失。软非最大抑制优化了区域建议网络生成的区域建议。该研究在胸部X射线图像上评估了模型,计算混淆矩阵以确定准确性、精确性、灵敏度和特异性。我们分析损失函数,强调其在训练过程中的趋势。区域提案损失和分类损失评估训练和分类阶段期间的模型性能。本文分析了肺部疾病检测和神经网络结构。

1.9 Improving Generalization Capability of Deep Learning-Based Nuclei Instance Segmentation by Non-deterministic Train Time and Deterministic Test Time Stain Normalization

非确定性训练时间和确定性测试时间归一化提高基于深度学习的核实例分割泛化能力

https://arxiv.org/abs/2309.06143

随着可以自动扫描和保存整个载玻片组织学图像的数字病理学和显微镜系统的出现,使用计算机化方法来分析所获取的图像的趋势日益增长。在不同的组织病理学图像分析任务中,细胞核实例分割在广泛的临床和研究应用中起着重要的作用。虽然已经提出了许多用于细胞核实例分割的半自动和全自动计算机化方法,但基于深度学习(DL)的方法已被证明具有最佳性能。然而,当在看不见的数据集上进行测试时,这种方法的性能通常会降低。 在这项工作中,我们提出了一种新的方法来提高基于DL的自动分割方法的泛化能力。除了利用一个最先进的DL为基础的模型作为基线,我们的方法结合了非确定性的训练时间和确定性的测试时间应变归一化。我们用一个单一的训练集训练模型,并在七个测试数据集上评估其分割性能。我们的研究结果表明,所提出的方法提供了高达5.77%,5.36%,和5.27%的更好的性能分割的基础上的骰子分数,聚合Jaccard指数,和全景质量分数,分别相比,基线分割模型。

1.10 A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation

A2V:一种基于两阶段训练血管到静脉血管转换的半监督域自适应脑血管分割框架

https://arxiv.org/abs/2309.06075

我们提出了一个半监督域适应框架的脑血管分割从不同的图像模态。现有的最先进的方法集中在一个单一的模态,尽管范围广泛的可用脑血管成像技术。这可能导致显著的分布偏移,其对跨模态的泛化产生负面影响。通过依赖于注释血管造影和有限数量的注释静脉造影,我们的框架实现图像到图像的翻译和语义分割,利用一个解开和语义丰富的潜在空间来表示异构数据,并执行图像级的适应从源到目标域。此外,我们降低了基于周期的架构的典型复杂性,并最大限度地减少对抗训练的使用,这使我们能够建立一个具有稳定训练的高效和直观的模型。我们评估我们的方法磁共振血管造影和静脉造影。在源域中实现最先进的性能的同时,我们的方法在目标域中获得了Dice评分系数,仅低8.9%,突出了其在不同模态中强大的脑血管图像分割的前景。

1.11 Introducing Shape Prior Module in Diffusion Model for Medical Image Segmentation

在医学图像分割扩散模型中引入形状先验模型

https://arxiv.org/abs/2309.05929

医学图像分割是诊断和治疗脊柱疾病的关键。然而,高噪声、模糊性和不确定性的存在使得这项任务极具挑战性。解剖学边界不清晰、类间相似性和不合理注释等因素导致了这一挑战。实现准确和多样化的分割模板对于在临床实践中支持放射科医生至关重要。近年来,去噪扩散概率模型(DDPM)已成为计算机视觉领域的一个突出研究课题。它在各种视觉任务中已经证明了有效性,包括图像去模糊,超分辨率,异常检测,甚至像素级的语义表示生成。尽管现有的扩散模型在视觉生成任务中的鲁棒性,但它们仍然与离散掩模及其各种效果作斗争。为了满足准确和多样化的脊柱医学图像分割模板的需求,我们提出了一个端到端的框架,称为VerseDiff-UNet,它利用了去噪扩散概率模型(DDPM)。我们的方法集成到一个标准的U形架构的扩散模型。在每一步中,我们将加噪图像与标记的掩模相结合,以准确地引导扩散方向朝向目标区域。此外,为了捕获医学图像中的特定解剖先验信息,我们结合了一个形状先验模块。该模块有效地从输入的脊柱图像中提取结构语义信息。我们评估我们的方法上的一个单一的数据集的脊柱图像通过X射线成像。我们的研究结果表明,VerseDiff-UNet显着优于其他国家的最先进的方法在精度方面,同时保留自然特征和解剖变化。

1.12 Deep evidential fusion with uncertainty quantification and contextual discounting for multimodal medical image segmentation

基于不确定性量化和上下文贴现的深度证据融合多模式医学图像分割

https://arxiv.org/abs/2309.05919

单模态医学图像通常不包含足够的信息来达到准确和可靠的诊断。出于这个原因,医师通常基于多模态医学图像来诊断疾病,例如,PET/CT。多模态信息的有效融合对于做出可靠的决策和解释决策是如何做出的至关重要。在本文中,我们提出了一个融合框架的多模态医学图像分割的基础上,深度学习和证据的Dempster-Shafer理论。在该框架中,当分割不同对象时,每个单模态图像的可靠性由上下文贴现操作考虑。然后,根据Dempster规则将来自每种模态的证据进行组合,以达到最终决定。与PET-CT数据集与淋巴瘤和多MRI数据集与脑肿瘤的实验结果表明,我们的方法优于国家的最先进的方法的准确性和可靠性。

1.13 LUNet: Deep Learning for the Segmentation of Arterioles and Venules in High Resolution Fundus Images

LUNet:用于高分辨率眼底图像中小动脉和小静脉分割的深度学习

https://arxiv.org/abs/2309.05780

视网膜是人体的唯一部分,其中可以使用诸如数字眼底图像(DFI)的成像技术非侵入性地接近血管。视网膜微血管的空间分布可随心血管疾病而改变,因此眼睛可被视为我们的心脏的窗口。视网膜小动脉和小静脉(A/V)的计算机分割对于自动化微血管分析是必不可少的。使用主动学习,我们创建了一个新的DFI数据集,其中包含240个众包手动A/V分割,由15名医学生执行,并由眼科医生审查,并开发了LUNet,这是一种用于高分辨率A/V分割的新型深度学习架构。LUNet架构包括一个双扩张卷积块,旨在增强模型的感受野并减少其参数计数。此外,LUNet具有以高分辨率操作以细化分割的长尾。自定义损失函数强调血管的连续性。LUNet显着优于两个国家的最先进的分割算法的本地测试集,以及在四个外部测试集上模拟分布变化的种族,合并症,和注释。我们使新创建的数据集开放访问(发布时)。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,人工智能,语义分割)