CellMixer:异质细胞群体的无注释语义细胞分割
https://arxiv.org/abs/2312.00671
近年来,已经提出了几种无监督的细胞分割方法,试图省略用于训练细胞分割模型的费力的像素级注释的要求。这些方法中的大多数(如果不是全部的话)通过专注于检测不同的细胞实例而忽略它们的类型来处理实例分割任务。虽然这些模型被证明适用于某些任务,如细胞计数,但其他应用需要识别每个细胞的类型。在本文中,我们提出了CellMixer,一种创新的无注释方法,用于异构细胞群体的语义分割。我们基于增强的方法能够从同质细胞群的图像级标签训练分割模型。我们的研究结果表明,CellMixer可以在多种细胞类型和成像模式中实现有竞争力的分割性能,证明了该方法的可扩展性和在医学成像,细胞生物学和诊断中更广泛应用的潜力。
基于目标提示和视觉一致性的泛化参考图像分割
https://arxiv.org/abs/2312.00452
参考图像分割(RIS)的目的是分割对象的图像条件下,免费的文本描述。尽管取得了压倒性的进展,但目前的方法仍然具有挑战性,可以很好地执行各种文本表达式或不可见的视觉实体的情况下,限制了其进一步的应用。在本文中,我们提出了一种新的RIS方法,通过解决上述两个困境,大大提高了泛化能力。特别是,处理不受约束的文本,我们建议提高一个明确的和关键的提示,这补充了表达在一个统一的背景下,促进目标捕捉存在的语言风格的变化。此外,我们引入了一个多模态融合聚合模块,该模块具有来自强大的预训练模型的视觉指导,以利用空间关系和像素相干性来处理不完整的目标掩模和经常出现在看不见的视觉实体上的假阳性不规则团块。在zero-shot交叉数据集设置中进行了广泛的实验,并且与现有技术相比,所提出的方法实现了一致的增益,例如,RefCOCO、RefCOCO+和ReferIt的mIoU分别增加了4.15%、5.45%和4.64%,证明了其有效性。此外,GraspNet-RIS上的结果表明,我们的方法也可以很好地推广到具有较大域偏移的新场景。
基于双提示学习的高效多通道语义分割
https://arxiv.org/abs/2312.00360
Multimodal (e.g., RGB-Depth/RGB-Thermal) fusion has shown great potential for improving semantic segmentation in complex scenes (e.g., indoor/low-light conditions). Existing approaches often fully fine-tune a dual-branch encoder-decoder framework with a complicated feature fusion strategy for achieving multimodal semantic segmentation, which is training-costly due to the massive parameter updates in feature extraction and fusion. To address this issue, we propose a surprisingly simple yet effective dual-prompt learning network (dubbed DPLNet) for training-efficient multimodal (e.g., RGB-D/T) semantic segmentation. The core of DPLNet is to directly adapt a frozen pre-trained RGB model to multimodal semantic segmentation, reducing parameter updates. For this purpose, we present two prompt learning modules, comprising multimodal prompt generator (MPG) and multimodal feature adapter (MFA). MPG works to fuse the features from different modalities in a compact manner and is inserted from shadow to deep stages to generate the multi-level multimodal prompts that are injected into the frozen backbone, while MPG adapts prompted multimodal features in the frozen backbone for better multimodal semantic segmentation. Since both the MPG and MFA are lightweight, only a few trainable parameters (3.88M, 4.4% of the pre-trained backbone parameters) are introduced for multimodal feature fusion and learning. Using a simple decoder (3.27M parameters), DPLNet achieves new state-of-the-art performance or is on a par with other complex approaches on four RGB-D/T semantic segmentation datasets while satisfying parameter efficiency. Moreover, we show that DPLNet is general and applicable to other multimodal tasks such as salient object detection and video semantic segmentation. Without special design, DPLNet outperforms many complicated models. Our code will be available at github.com/ShaohuaDong2021/DPLNet.
分段任意模型指导的协作学习网络用于Scribble监督的息肉分割
https://arxiv.org/abs/2312.00312
息肉分割是早期准确定位息肉的关键,对预防结直肠癌具有重要的临床意义。已经使用全监督深度学习技术开发了各种息肉分割方法。然而,医生在诊断过程中对息肉图像进行逐像素注释既耗时又昂贵。此外,诸如Segment Anything Model(SAM)之类的可视化基础模型已经显示出了卓越的性能。然而,由于医学知识的固有缺乏,直接将SAM应用于医学分割可能不会产生令人满意的结果。在本文中,我们提出了一种新的SAM引导的协作学习网络(SAM-CLNet)用于涂鸦监督息肉分割,使我们的分割网络和SAM之间的协作学习过程能够提高模型性能。具体来说,我们首先提出了一种用于弱监督息肉分割的跨级别增强和聚合网络(CEA-Net)。在CEA-Net中,我们提出了一个跨级别增强模块(CEM),它集成了相邻的功能,以提高不同分辨率的功能的表示能力。此外,采用特征聚合模块(FAM)来跨多个级别捕获更丰富的特征。此外,我们提出了一个框增强策略,结合CEA-Net生成的分割图与涂鸦注释,以创建更精确的提示。然后将这些提示输入SAM,生成分割SAM引导的掩码,该掩码可以有效地为训练CEA网络提供额外的监督。此外,我们提出了一个图像级过滤机制,过滤掉不可靠的SAM引导的面具。大量的实验结果表明,我们的SAM-CLNet优于最先进的弱监督分割方法。
基于人脸部分分割几何引导的三维人脸重建
https://arxiv.org/abs/2312.00311
三维变形模型(3DMM)在各种应用中提供了有前途的三维人脸重建。然而,现有的方法很难重建面部与极端的表情,由于缺乏监督信号,如稀疏或不准确的地标。分割信息包含了有效的几何背景,用于人脸重建。某些尝试直观地依赖于可微分渲染器来比较重建的渲染轮廓与分割,这容易出现局部最优和梯度不稳定等问题。在本文中,我们充分利用面部部分分割几何引入部分重投影距离损失(PRDL)。具体来说,PRDL将面部部分分割转换为2D点,并将重建重新投影到图像平面上。随后,通过引入网格锚点和计算不同的统计距离,从这些锚点的点集,PRDL建立几何描述符,以优化点集的分布,人脸重建。与基于渲染器的方法相比,PRDL表现出明显的梯度,并在广泛的定量和定性实验中呈现出最先进的重建性能。该项目将向公众开放。
基于双对比域自适应的多模态视频主题分割
https://arxiv.org/abs/2312.00220
视频主题分割揭示了视频底层的粗粒度语义结构,对于其他视频理解任务至关重要。鉴于最近多式联运的激增,仅仅依靠单一的运输方式是不够的。另一方面,用于类似任务(如视频场景/镜头分割)的现有解决方案迎合了具有清晰视觉偏移的短视频,但对于具有细微变化的长视频(如直播)则不稳定。在本文中,我们介绍了一个多模态的视频主题分割,利用视频成绩单和帧,支持跨模态的注意力机制。此外,我们提出了一个双对比学习框架,坚持无监督域自适应范式,提高我们的模型的适应性更长,语义更复杂的视频。短视频和长视频语料库上的实验表明,我们提出的解决方案,显着优于基线方法的准确性和可移植性,在域内和跨域设置。
DNS SLAM:密集神经语义信息SLAM
https://arxiv.org/abs/2312.00204
近年来,基于坐标的神经隐式表征在同步定位与地图构建(SLAM)任务中显示出了良好的效果。虽然这些方法在小的合成场景上实现了令人印象深刻的性能,但它们通常会遭受过度平滑的重建,特别是对于复杂的真实世界场景。在这项工作中,我们介绍了DNS SLAM,一种新的神经RGB-D语义SLAM方法,具有混合表示。仅依赖于2D语义先验,我们提出了第一个语义神经SLAM方法,该方法训练类场景表示,同时提供稳定的相机跟踪。我们的方法集成了多视图几何约束与基于图像的特征提取,以改善外观细节,并输出颜色,密度和语义类信息,使许多下游应用程序。为了进一步实现实时跟踪,我们引入了一种轻量级的粗糙场景表示,它在潜在空间中以自监督的方式进行训练。我们的实验结果在合成数据和真实世界数据跟踪方面都达到了最先进的性能,同时在现成的硬件上保持了值得称赞的操作速度。此外,我们的方法输出类分解重建更好的纹理捕捉外观和几何细节。
Swin UNEtr与统计形状建模相结合的膝关节半自动分割及关节软骨生物力学建模
https://arxiv.org/abs/2312.00169
有限元(FE)建模等模拟研究无需患者实验即可深入了解膝关节力学。通用有限元模型通过忽略群体的几何结构、载荷和材料特性的变化来表示组织的生物力学行为。另一方面,特定于受试者的模型包括这些细节,从而提高了预测精度。然而,创建这样的模型是费力且耗时的。本研究旨在通过结合半自动分割算法来增强受试者特定的膝关节FE建模。该分割是3D Swin UNETR,用于股骨和胫骨的初始分割,然后进行统计形状模型(SSM)调整,以改善表面粗糙度和连续性。骨关节炎倡议(OAI)数据库中的507个磁共振图像(MRI)被用于构建和验证分割模型。使用该半自动分割开发了半自动FE模型。另一方面,通过手动分割(即,黄金标准)。两种FE模型均承受步态载荷。手动和半自动有限元模型的预测的机械响应进行了比较。结果,我们的半自动分割实现了股骨和胫骨的Dice相似系数(DSC)超过98%。机械结果(最大主应力、最大主应变、流体压力、原纤维应变和接触面积)显示手动和半自动FE模型之间无显著差异,表明所提出的半自动分割在创建准确的膝关节FE模型方面的有效性。(https://data.mendeley.com/datasets/k5hdc9cz7w/1)中找到。
Un-EvMoSeg:无监督的基于事件的独立运动分割
https://arxiv.org/abs/2312.00114
事件摄像机是一种新型的生物视觉传感器,以其高时间分辨率,高动态范围和低功耗而闻名。由于这些特性,它们非常适合处理需要快速反应的快速运动。虽然事件相机最近在无监督光流估计方面表现出有竞争力的性能,但在检测独立移动对象(IMO)方面的性能落后,尽管基于事件的方法基于其低延迟和HDR属性适用于此任务。以前的基于事件的IMO分割方法在很大程度上依赖于标记数据。然而,生物视觉系统已经发展出在日常任务中避免移动物体的能力,而无需给予明确的标签。在这项工作中,我们提出了第一个事件框架,使用几何约束生成IMO伪标签。由于其无监督的性质,我们的方法可以处理任意数量的非预定对象,并且很容易扩展到昂贵的IMO标签不容易获得的数据集。我们在EVIMO数据集上评估了我们的方法,并表明它在定量和定性方面与监督方法具有竞争力。
卷积神经网络用于恶性胸膜间皮瘤的分割:概率图阈值分析(CALGB 30901,联盟)
https://arxiv.org/abs/2312.00223
恶性胸膜间皮瘤(MPM)是间皮瘤最常见的形式。为了评估对治疗的反应,基于患者的纵向计算机断层扫描(CT)扫描来获取和评估肿瘤测量结果。然而,肿瘤体积是评估肿瘤负荷和反应的更准确指标。可以采用使用深度学习的自动分割方法来获取体积,否则这是手动执行的繁琐任务。然后可以将基于深度学习的肿瘤体积和轮廓与标准参考进行比较,以评估自动分割的鲁棒性。本研究的目的是评价概率图阈值对使用卷积神经网络(CNN)生成的MPM肿瘤描绘的影响。采用VGG 16/U-Net CNN对21例MPM患者的88个CT扫描图像进行分割。放射科医师修改了以0.5概率阈值生成的轮廓。在放射科医师提供的标准参考和CNN输出之间比较肿瘤体积的百分比差异和使用Dice相似系数(DSC)的重叠,阈值范围为0.001至0.9。CNN注释始终产生比放射科医师轮廓更小的肿瘤体积。将概率阈值从0.5降低到0.1,绝对体积差异百分比平均从43.96%降低到24.18%。中位和平均DSC范围为0.58 - 0.60,峰值阈值为0.5;未发现体积差异百分比的明显阈值。在CNN概率图中,没有一个输出阈值对于肿瘤体积和DSC都是最佳的。这项工作强调了在评估CNN性能时评估肿瘤体积和空间重叠的必要性。虽然自动分割可以产生与参考标准相当的肿瘤体积,但是由CNN在特定阈值处描绘的空间区域同样重要。