基于相关感知互学习的半监督医学图像分割
https://arxiv.org/abs/2307.06312
半监督学习在医学图像分割中越来越受欢迎,因为它能够利用大量未标记的数据来提取额外的信息。然而,大多数现有的半监督分割方法只专注于从未标记数据中提取信息,而忽略了标记数据进一步提高模型性能的潜力。在本文中,我们提出了一个新的相关感知相互学习(CAML)框架,利用标记的数据来指导从未标记的数据中提取信息。我们的方法是基于一个相互学习的策略,其中包括两个模块:交叉样本相互注意模块(CMA)和全相关一致性模块(OCC)。CMA模块在一组样本之间建立密集的交叉样本相关性,使得标签先验知识能够转移到未标记的数据。OCC模块构造未标记数据集和标记数据集之间的全相关性,并通过约束每个子模型的全相关矩阵一致来正则化对偶模型。心房分割挑战数据集的实验表明,我们提出的方法优于国家的最先进的方法,突出了我们的框架在医学图像分割任务的有效性。代码、预先训练的权重和数据是公开可用的。
RFENet:面向玻璃分割的互易特征进化
https://arxiv.org/abs/2307.06099
类玻璃物体广泛存在于日常生活中,但对于大多数现有方法来说,仍然难以分割。透明性使其很难从背景中区分出来,而微小的分离边界进一步阻碍了它们精确轮廓的获取。在本文中,通过揭示语义和边界学习的关键协同进化需求,我们提出了一个选择性相互进化(SME)模块,使他们之间的互惠特征学习。然后,利用全球形状上下文,我们提出了一个结构注意细化(SAR)模块进行细粒度的特征细化边界周围的那些模糊点。最后,为了进一步利用多尺度表示,我们将上述两个模块集成到一个级联结构中,然后引入一个互惠特征进化网络(RFENet)进行有效的玻璃状物体分割。大量的实验表明,我们的RFENet达到国家的最先进的性能在三个流行的公共数据集。
基于文本的图像风格转换语义CLIPStyler
https://arxiv.org/abs/2307.05934
CLIPStyler演示了仅使用样式文本描述(而不需要参考样式图像)与真实纹理的图像样式转换。然而,由于在突出对象和背景对象上的样式溢出(内容不匹配)或过度样式化,样式传递输出中的对象的基础语义丢失。为了解决这个问题,我们提出了语义CLIPStyler(Sem-CS),执行语义风格转移。Sem-CS首先将内容图像分割成显著对象和非显著对象,然后基于给定的风格文本描述来传递艺术风格。使用全局前景损失(对于显著对象)和全局背景损失(对于非显著对象)来实现语义风格转移。我们的实证结果,包括DISTS,NIMA和用户研究分数,表明我们提出的框架产生了优异的定性和定量性能。我们的代码可在www.example.com上获得github.com/chandagrover/sem-cs。
基于序贯先验的噪声标签校正:多尺度时间特征亲和性学习用于视频分割
https://arxiv.org/abs/2307.05898
医学图像分割中不可避免地存在噪声标记问题,导致严重的性能下降。以前的分割方法的噪声标签的问题,只利用一个单一的图像,而利用图像之间的相关性的潜力被忽视。特别是对于视频分割,相邻帧包含丰富的上下文信息,有利于认知噪声标签。基于这两个见解,我们提出了一个多尺度时间特征亲和学习(MS-TFAL)框架来解决噪声标记的医疗视频分割问题。首先,我们认为视频的顺序先验是有效的参考,即,来自相邻帧的像素级特征对于同一类在距离上接近,否则在距离上远。因此,时间特征亲和学习(TFAL)被设计为通过评估两个相邻帧中的像素之间的亲和度来指示可能的噪声标签。我们还注意到,噪声分布在视频、图像和像素级别上表现出相当大的变化。通过这种方式,我们引入了多尺度监督(MSS),通过重新加权和细化样本,从三个不同的角度来监督网络。这种设计使网络能够以从粗到细的方式集中于干净的样本。合成和现实世界的标签噪声的实验表明,我们的方法优于最近的国家的最先进的强大的分割方法。代码可在www.example.com获得https://github.com/BeileiCui/MS-TFAL。
OG:为视觉占有率配备实例分割和视觉基础
https://arxiv.org/abs/2307.05873
占用预测任务集中在每个体素的几何和语义标签的推断,这是一个重要的感知任务。然而,它仍然是一个语义分割任务,没有区分各种实例。此外,虽然一些现有的作品,如开放词汇占用(OVO),已经解决了开放词汇检测的问题,视觉接地在占用还没有得到解决,以我们的知识。为了解决上述两个限制,本文提出了占用接地(OG),一种新的方法,配备香草占用实例分割能力,并可以操作视觉接地体素的方式与接地SAM的帮助下。我们的方法的关键是(1)用于实例聚类的亲和场预测和(2)用于对齐2D实例掩码和3D占用实例的关联策略。已经进行了大量的实验,其可视化结果和分析如下所示。我们的代码将很快公开发布。
SITTA:一种面向图像字幕的语义图文对齐方法
https://arxiv.org/abs/2307.05591
对图像的文本和语义理解对于生成正确的字幕至关重要。的理解需要检测的对象,它们之间的关系建模,评估的语义场景,最后,在语言空间中表示提取的知识。为了实现丰富的语言能力,同时确保良好的图像语言映射,预训练的语言模型(LM)的条件下,预训练的多模态(图像-文本)模型,允许图像输入。这需要将多模态模型的图像表示与生成LM的语言表示对齐。然而,不清楚如何最好地将由多模态模型的视觉编码器检测到的语义传递到LM。我们引入了两种新的方法来构建一个线性映射,成功地传递两个预训练模型的嵌入空间之间的语义。第一种方法将多模态语言编码器的嵌入空间与预训练LM的嵌入空间对齐,通过令牌对应关系。后者利用由图像-文本对组成的额外数据来构建直接从视觉到语言空间的映射。使用我们的语义映射,我们解锁图像字幕LM没有访问梯度信息。通过使用不同的数据源,我们在MS-COCO和Flickr 30 k数据集上实现了强大的字幕性能。即使在有限的数据面前,我们的方法部分超过了其他zero-shot甚至微调竞争对手的性能。我们的消融研究表明,即使在规模仅为250 M参数的LM可以生成体面的字幕,采用我们的语义映射。我们的方法使图像字幕更容易获得的机构与有限的计算资源。
基于多尺度MPU网络的三维医学图像分割
https://arxiv.org/abs/2307.05799
癌症的高治愈率与医生诊断和治疗的准确性密不可分,因此,在医疗行业的许多应用中,能够完成高精度肿瘤分割的模型已成为必需品。它能有效降低误诊率,同时大大减轻临床医生的负担。然而,由于3D体积器官的不规则立体结构,全自动目标器官分割是有问题的。作为这类实际应用的基本模型,U-Net表现出色。它可以学习某些全局和局部特征,但仍然缺乏在多尺度上把握空间长程关系和上下文信息的能力。本文提出了一个肿瘤分割模型MPU-Net患者体积CT图像,这是受Transformer的启发与全局注意机制。通过将图像序列化与位置注意模块相结合,该模型试图理解更深层次的上下文依赖关系并实现精确定位。解码器的每一层还配备了多尺度模块和交叉注意机制。在不同层次的特征提取和集成的能力得到了增强,在这项研究中开发的混合损失函数可以更好地利用高分辨率的特征信息。此外,建议的架构在肝脏肿瘤分割挑战2017(LiTS 2017)数据集上进行了测试和评估。与基准模型U-Net相比,MPU-Net显示了良好的分割效果。最佳模型分割结果的骰子、准确度、精确度、特异性、IOU和MCC指标分别为92.17%、99.08%、91.91%、99.52%、85.91%和91.74%。各方面的突出指标说明了该框架在自动医学图像分割中的卓越性能。