有监督图像分割的两种方法
https://arxiv.org/abs/2307.10123
尽管人类几乎毫不费力地执行,但是根据其感兴趣的组成区域(例如~)来分割2D灰度或彩色图像。背景、对象或对象的部分)构成了科学和技术中最大的挑战之一,这是由于所涉及的降维(3D到2D)、噪声、反射、阴影和遮挡以及许多其它可能的影响。虽然在过去的几十年中,已经分别提出了大量有趣的方法,但主要是随着深度学习的最近发展,获得了更有效和通用的解决方案,目前构成了这类操作的基本比较参考。最近还开发了一种基于多重集的方法,已经描述了能够鼓励性能,结合了空间精度,稳定性和鲁棒性,同时需要最少的计算资源(硬件和/或训练和识别时间)。后一种方法的有趣功能主要是从增强的选择性和灵敏度,以及良好的鲁棒性数据扰动和离群值,允许的重合相似性指数上的多集方法监督图像分割的基础上。在描述了深度学习和多集方法之后,本工作开发了它们之间的两个比较实验,主要目的是说明当应用于所采用的特定类型的数据和参数配置时,它们各自的主要有趣特征。虽然深度学习方法证实了其执行图像分割的潜力,但替代的多集方法允许鼓励准确性,同时需要很少的计算资源。
边界细化原型生成:一种半监督语义分割的通用端到端范型
https://arxiv.org/abs/2307.10097
基于原型的分类方法是机器学习中的经典方法,近年来在半监督语义分割中取得了显著的成功。然而,当前的方法将原型初始化过程与主训练框架隔离,这似乎是不必要的。此外,虽然直接使用K-Means算法生成原型已经考虑了丰富的类内方差,但它可能不是分类任务的最佳解决方案。为了解决这些问题,我们提出了一种新的边界细化原型生成(BRPG)方法,这是纳入到整个训练框架。具体来说,我们的方法样本和集群的高和低置信度的功能分别基于一个置信度阈值,旨在生成更接近类边界的原型。此外,一个自适应的原型优化策略,使原型扩充的类别与分散的特征分布。在PASCAL VOC 2012和Cityscapes数据集上的大量实验证明了该方法的优越性和可扩展性,优于目前最先进的方法。代码可在xxxxxxxxxxxx获得。
基于班级均衡的无源域自适应眼底图像分割
https://arxiv.org/abs/2307.09973
本文研究了无源域自适应眼底图像分割,其目的是使预先训练的眼底分割模型适应目标域使用未标记图像。这是一项具有挑战性的任务,因为仅使用未标记数据调整模型是非常危险的。大多数现有的方法主要通过设计技术来从模型的预测小心地生成伪标签并使用伪标签来训练模型来解决这个任务。虽然经常获得积极的适应效果,这些方法遭受两个主要问题。首先,它们往往是相当不稳定的-不正确的伪标签突然出现可能会对模型造成灾难性的影响。其次,它们没有考虑眼底图像的严重类别不平衡,其中前景(例如,杯子)的面积通常很小。本文旨在解决这两个问题,提出班级平衡平均教师(CBMT)模型。CBMT通过提出弱-强增强均值教师学习方案来解决不稳定的问题,其中只有教师模型从弱增强图像生成伪标签来训练学生模型,以强增强图像作为输入。教师被更新为即时训练的学生的移动平均值,这可能是嘈杂的。这防止教师模型突然受到不正确的伪标签的影响。针对类不平衡问题,CBMT提出了一种新的损失校正方法,根据全局统计来突出前景类。实验表明,CBMT很好地解决了这两个问题,并优于现有的方法在多个基准测试。
U-CE:语义切分的不确定性感知交叉熵
https://arxiv.org/abs/2307.09947
深度神经网络在各种任务中表现出出色的性能,但它们缺乏稳健性、可靠性和过度自信的倾向,给它们在自动驾驶等安全关键应用中的部署带来了挑战。在这方面,量化模型的预测固有的不确定性是解决这些缺点的一个有希望的努力。在这项工作中,我们提出了一种新的不确定性感知交叉熵损失(U-CE),将动态预测的不确定性纳入训练过程中的众所周知的交叉熵损失(CE)的像素加权。通过大量的实验,我们证明了U-CE优于常规CE训练的两个基准数据集,Cityscapes和ACDC,使用两个常见的骨干架构,ResNet-18和ResNet-101。使用U-CE,我们设法训练模型,不仅提高其分割性能,而且在训练后提供有意义的不确定性。因此,我们致力于开发更强大、更可靠的分段模型,最终推动安全关键应用及其他领域的最新技术。
层次化语义知觉听者头部视频生成:一种高性能的流水线
https://arxiv.org/abs/2307.09821
在双向的说者-听者互动中,听者的头部反应与说者的头部动作共同构成了重要的非言语语义表达。听者头部生成任务旨在基于说话者的音频和听者的参考图像来合成响应性听者的头部视频。相对于说话人,从说话人的声音和视觉信息中捕捉相关线索更具挑战性。根据ViCo基线方案,我们提出了一种高性能的解决方案,通过增强音频编码器模块的分层语义提取能力,并改进解码器部分,渲染器和后处理模块。我们的解决方案在官方排行榜上获得了第一名的听头生成轨道。本文是ACM Multimedia 2023会议ViCo@2023 Conversational Head Generation Challenge的技术报告。
基于原型锚定特征对齐和对比学习的无源域自适应医学图像分割
https://arxiv.org/abs/2307.09769
无监督域自适应(UDA)技术能够将从标记源域学习到的知识转移到未标记目标域,因此受到越来越多的关注。然而,典型的UDA方法需要同时访问源和目标域数据,这在很大程度上限制了其在医疗场景中的应用,其中源数据由于隐私问题而通常不可用。为了解决源数据缺失的问题,我们提出了一个新的两阶段无源域自适应(SFDA)的医学图像分割框架,其中只有一个训练有素的源分割模型和未标记的目标数据是可用的领域自适应。具体来说,在原型锚定特征对齐阶段,我们首先利用预先训练的像素分类器的权重作为源原型,其保留了源特征的信息。然后,我们引入了双向传输,通过最小化其预期成本,将目标功能与类原型对齐。最重要的是,还设计了对比学习阶段,以利用具有不可靠预测的那些像素来获得更紧凑的目标特征分布。在跨模态医学分割任务上的大量实验表明,与最先进的SFDA方法甚至一些UDA方法相比,我们的方法在大域差异设置中具有优越性。代码可在https://github.com/CSCYQJ/MICCAI23-ProtoContra-SFDA上获得。
纵向数据与胸片报告生成的语义相似性奖励
https://arxiv.org/abs/2307.09758
胸部X射线(CXR)报告生成是提高CXR解释效率的有前途的方法。然而,在实现这一目标之前,需要显著提高诊断准确性。基于此,我们提出了一个框架,更内联放射科医生的工作流程,考虑纵向数据。这里,解码器另外经由提示以来自对象的先前成像研究的报告为条件。我们还提出了一个新的奖励强化学习的基础上CXR-BERT,它计算报告之间的相似性。我们在MIMIC-CXR数据集上进行实验。结果表明,纵向数据改进了CXR报告的生成。CXR-BERT也被证明是基于RadGraph的当前最先进的奖励的有前途的替代品。这项调查表明,纵向CXR报告生成可以提供诊断准确性的大幅提高。我们的拥抱脸模型可在以下网站获得:https://huggingface.co/aehrc/cxrmate和代码可在:https://github.com/aehrc/cxrmate。
Space Engage:基于对比的半监督语义切分的协同空间监督
https://arxiv.org/abs/2307.09755
半监督语义分割(S4)旨在训练具有有限的标记图像和大量未标记图像的分割模型。为了提高表示的鲁棒性,强大的方法在潜在空间中引入逐像素对比学习方法(即,表示空间),其以完全监督的方式将表示聚合到它们的原型。然而,以前的基于对比的S4方法仅仅依赖于监督从模型的输出(logits)在logit空间在未标记的训练。相比之下,我们利用logit空间和表示空间的输出,以获得合作的方式监督。来自两个空间的监督起着两个作用:1)借助于表示降低了过度拟合逻辑中不正确语义信息的风险; 2)加强两个空间之间的知识交流。此外,与以前的方法不同,我们使用表征和原型之间的相似性作为一个新的指标倾斜训练那些表现不佳的表征和实现一个更有效的对比学习过程。两个公共基准的结果表明,我们的方法相比,国家的最先进的方法的竞争性能。
ClickSeg:带点击级弱标注的3D实例分割
https://arxiv.org/abs/2307.09732
3D实例分割方法通常需要完全注释的密集标签用于训练,这是昂贵的获得。在本文中,我们提出了ClickSeg,一种新的点击级弱监督3D实例分割方法,只需要一个点,每个实例注释。由于标签极其有限,这一问题非常具有挑战性,以前很少解决。我们首先开发了一种基线弱监督训练方法,该方法通过模型本身为未标记的数据生成伪标签。为了利用点击级注释设置的属性,我们进一步提出了一个新的训练框架。代替直接使用模型推理的方式,即均值移位聚类,为了生成伪标签,我们建议使用具有固定初始种子的k均值:注释的要点。新的相似性度量进一步设计用于聚类。在ScanNetV 2和S3 DIS数据集上的实验表明,所提出的ClickSeg算法比先前的最佳弱监督实例分割结果有很大的差距(例如,ScanNetV 2上的+9.4% mAP)。仅使用0.02%的监督信号,ClickSeg实现了完全监督对应物的$\sim$90%的准确性。同时,它还实现了最先进的语义分割结果之间的弱监督方法,使用相同的注释设置。
DenseMP:用于Few-Shot医学图像分割的无监督密集预训练
https://arxiv.org/abs/2307.09604
Few-Shot医学图像的语义分割是医学图像分析领域中的一个重要问题。然而,现有的方法在训练阶段难以应对数据稀缺的挑战,导致过度拟合。为了缓解这个问题,我们引入了一种新的无监督密集Few-Shot医学图像分割模型训练管道(DenseMP),它利用了无监督密集预训练。DenseMP由两个不同的阶段组成:(1)分割感知的密集对比预训练,以及(2)Few-Shot感知的超像素引导的密集预训练。这些阶段协同产生专门为Few-Shot医学图像分割设计的预训练的初始模型,其随后可以在目标数据集上进行微调。我们提出的流水线显着提高了广泛认可的Few-Shot分割模型PA-Net的性能,在Abd-CT和Abd-MRI数据集上实现了最先进的结果。代码将在验收后发布。
SAM-PATH:一种用于数字病理语义分割的任意分段模型
https://arxiv.org/abs/2307.09570
病理实体的语义分割在计算病理学工作流程中具有重要的临床价值。基础模型,诸如分段任意模型(SAM),最近已经提出用于分段任务中的普遍使用。SAM在自然图像的实例分割方面表现出显著的前景。然而,SAM对计算病理学任务的适用性由于以下因素而受到限制:(1)缺乏SAM训练中使用的全面病理学数据集,和(2)SAM的设计不是针对语义分割任务固有地优化的。在这项工作中,我们适应SAM的语义分割引入可训练类提示,然后通过纳入病理编码器,特别是病理学基础模型进一步增强。我们的框架,SAM-Path增强SAM的能力,进行语义分割的数字病理学没有人类输入提示。通过两个公共病理数据集,BCSS和CRAC数据集的实验,我们证明,微调与可训练类提示和后处理香草SAM与手动提示27.52%的Dice得分和71.63%的IOU。在这两个数据集上,所提出的额外病理学基础模型进一步实现了Dice评分的相对改善5.07%至5.12%,IOU的相对改善4.50%至8.48%。