视觉和更多领域中的Segment Anything模型综合调研
论文地址:
https://arxiv.org/pdf/2305.08196.pdf
这段文本总结了关于基于Segment Anything Model (SAM) 的基础模型在计算机视觉领域中的应用和影响。以下是对文本的总结:
总的来说,这段文本介绍了SAM作为基础模型在计算机视觉领域的重要性和广泛应用,以及其在分割任务方面的历史发展、优点和局限性。这篇综述提供了对SAM及其相关领域的研究的全面了解,为未来研究和发展提供了指导。
SAM增强的伪标签用于弱监督语义分割
论文地址:
https://arxiv.org/pdf/2305.05803.pdf
该段文本主要介绍了一种基于弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS)的方法,并利用Segment Anything Model (SAM) 生成更高质量的伪标签来解决现有方法中存在的问题。
弱监督语义分割只使用图像级别的监督信息,相比像素级别标注具有更低的注释成本,因此备受关注。大多数现有方法依赖于类激活图(Class Activation Maps,CAM)生成像素级伪标签进行有监督训练。然而,众所周知,CAM常常存在局部激活问题,即只激活最具有区分度的部分而非整个对象区域,并且还存在误激活问题,即在对象周围不必要地激活背景。本研究通过利用最近发布的Segment Anything Model (SAM) 来生成更高质量的伪标签来解决这些问题。
SAM是一个分割基础模型,具有将图像分割为语义有意义的区域的强大的零样本能力,但缺乏这些区域的语义标签。为了克服这个问题,研究人员利用CAM的初始种子掩码或经过后处理的特定类别的伪标签作为信号,选择最相关的掩码并标记它们以生成该类别的精炼伪标签。SAM生成的分割结果非常精确,显著改善了局部激活和误激活问题。
此外,对于生成伪标签的现有后处理模块(例如AffinityNet),通常计算量很大,训练时间显著较长。令人惊讶的是,研究人员发现使用SAM结合初始CAM可以以较低的计算成本达到与这些模块生成的经过后处理的伪标签相当的性能。
该方法非常灵活,并能无缝集成到现有的WSSS模型中,无需修改基础网络或流程。尽管方法简单,但在PASCAL VOC 2012数据集的训练集上,该方法平均提高了五种最先进WSSS方法的伪标签的平均交并比(mean Intersection over Union,mIoU)达到6.2%。代码可在https://github.com/cskyl/SAM_WSSS 上获取。
综上所述,该方法利用SAM生成更高质量的伪标签来解决弱监督语义分割中的问题,并取得了显著的性能提升。
论文地址:
https://arxiv.org/pdf/2305.03678.pdf
该段文本总结了基于提示的基础模型在自然语言处理和图像生成领域中的灵活性,并介绍了Segment Anything Model (SAM) 在图像分割领域的应用。作者指出,由于自然图像与医学图像之间存在显著差异,因此尚不清楚SAM是否适用于医学图像分割。因此,本研究总结了将SAM成功扩展到医学图像分割任务的最新努力,包括经验基准测试和方法论的调整,并讨论了SAM在医学图像分割中的潜在未来方向。作者还在https://github.com/YichiZhang98/SAM4MIS上建立了一系列文献综述,以推动该领域的研究。
总的来说,该文本强调了基于提示的基础模型在自然语言处理和图像生成领域的灵活性,并介绍了SAM在图像分割中的应用。作者对将SAM应用于医学图像分割进行了总结,包括实证基准测试和方法学的调整,并探讨了SAM在医学图像分割中的潜在未来方向。同时,作者还提供了一系列文献综述,旨在促进该领域的研究进展。
论文地址:
https://arxiv.org/pdf/2305.03048.pdf
该段文本介绍了基于大数据预训练的Segment Anything Model (SAM) 在分割模型领域的强大和可提示性,并指出SAM在特定视觉概念的自定义方面尚未得到充分探索。
作者提出了一种无需训练的个性化方法,称为PerSAM,用于自动化地在不同图像中分割特定的视觉概念,例如你的宠物狗。
PerSAM首先通过位置先验来定位目标概念,并通过三种技术在其他图像或视频中对其进行分割:目标引导的注意力、目标语义提示和级联后处理。通过这种方式,我们可以有效地将SAM适应于私人使用,无需任何训练。为了进一步减轻掩模的不确定性,作者提出了一种高效的单次微调变体,称为PerSAM-F。通过冻结整个SAM,我们引入了两个可学习的权重来生成多尺度掩模,仅在10秒内训练2个参数,以提高性能。为了证明方法的有效性,作者构建了一个新的分割数据集PerSeg,用于个性化评估,并在具有竞争性能的视频目标分割任务上进行了测试。此外,该方法还可以增强DreamBooth以个性化Stable Diffusion用于文本到图像生成,通过消除背景干扰来提高目标外观学习。
综上所述,该文本介绍了PerSAM方法,它是一种无需训练的个性化方法,可自动分割特定的视觉概念。该方法通过多种技术实现目标分割,并提出了PerSAM-F进行高效的单次微调。作者还构建了PerSeg数据集进行评估,并在视频目标分割任务上展示了竞争性能。此外,该方法还可应用于文本到图像生成任务中,通过消除背景干扰来提高目标外观学习。
Segment Anything Model (SAM)遇到玻璃:镜子和透明物体不容易被检测到
论文地址:
https://arxiv.org/pdf/2305.00278.pdf
最近,Meta AI Research发布了SAM(Segment Anything Model),它是在超过10亿个掩模的大型分割数据集上进行训练的。作为计算机视觉领域的基础模型,SAM在通用对象分割方面表现出色,引起了人们的关注。尽管SAM在广泛的零样本转移任务中具有强大的能力,但它是否能够在具有挑战性的设置中检测透明物体仍然未知。在这项工作中,我们对两种与玻璃相关的具有挑战性的情景进行了实证评估:镜子和透明物体。我们发现,在这两种情景中,SAM通常无法检测到玻璃,这引发了在各种形式的玻璃存在的安全关键情况下部署SAM的担忧。
作者使用了几个数据集来评估SAM模型对透明物体和镜子的识别和分割能力。以下是使用的数据集的简要总结:
论文地址:
https://arxiv.org/pdf/2305.00109.pdf
在医学影像中,分割是诊断、监测和治疗各种疾病和医学情况的关键组成部分。目前,医学分割领域主要由许多专门的深度学习模型主导,每个模型都经过微调,适用于特定的分割任务和图像模态。最近引入的Segment Anything Model (SAM)采用了ViT神经架构,并利用大规模的训练数据集对几乎任何对象进行分割;然而,它在医学领域的适用性尚未得到研究。在这项研究中,我们通过在四种图像模态(X射线、超声、皮肤镜和结肠镜)的六个数据集上实施八种不同的提示策略,探索了SAM在医学影像中的零样本性能。我们的研究结果显示,SAM的零样本性能不仅与当前最先进的方法相当,而且在某些情况下甚至超过了它们。基于这些结果,我们提出了实用的准则,可以在最小的交互作用下在所有评估的情境中持续产生稳健的结果。源代码以及推荐准则的演示可以在https://github.com/Malta-Lab/SAM-zero-shot-in-Medical-Imaging上获得。
论文地址:
https://arxiv.org/pdf/2305.00035.pdf
最近,Segment Anything Model (SAM)引起了研究人员的广泛关注,激发了他们探索其在零样本泛化能力方面的潜力和局限性。作为首个适用于分割任务的可提示基础模型,SAM是在一个规模庞大的数据集上进行训练的,该数据集包含了前所未有的数量的图像和注释。这个大规模数据集以及其可提示性质使该模型具有强大的零样本泛化能力。尽管SAM在几个数据集上表现出了竞争力,我们仍然想研究它在医学图像上的零样本泛化能力。众所周知,获取医学图像注释通常需要专业从业人员付出大量的努力。因此,如果存在一个基础模型,它可以仅基于少数提示点就能给出高质量的掩码预测,这个模型无疑将成为医学图像分析的游戏改变者。为了评估SAM是否具备成为医学图像分割任务的基础模型的潜力,我们收集了12个以上的公共医学图像数据集,涵盖了各种器官和模态。我们还探索了不同模态下什么样的提示能够导致最佳的零样本性能。此外,我们发现一个模式,即边界框大小的扰动会显著改变预测的准确性。最后,大量实验证明,预测的掩码质量在不同数据集之间存在很大的差异。对SAM提供适当的提示,如边界框,将显著提高其性能。
论文地址:
https://arxiv.org/pdf/2304.14660.pdf
Segment Anything Model (SAM) 是第一个通用图像分割的基础模型。它设计了一种创新的可推广的分割任务,通过预训练模型实现零样本图像分割,包括自动全部和手动提示(如点和框)。SAM在各种自然图像分割任务中取得了令人印象深刻的成果。然而,医学图像分割(MIS)由于复杂的模态、精细的解剖结构、不确定的和复杂的对象边界以及广泛的对象尺度,更具挑战性。与此同时,零样本和高效的MIS可以减少注释时间,推动医学图像分析的发展。因此,SAM似乎是一个潜在的工具,需要进一步验证其在大型医学数据集上的性能。我们收集和整理了52个开源数据集,并构建了一个包含16种模态、68个对象和553K个切片的大型医学分割数据集。我们对所谓的COSMOS 553K数据集上的不同SAM测试策略进行了全面的分析。广泛的实验证实,SAM在医学图像中使用点和框等手动提示可以更好地感知对象,相比于"everything"模式,提示模式的性能更好。此外,SAM在一些特定的对象和模态上表现出色,但在其他情况下不完善甚至完全失败。最后,我们分析了不同因素(如基于傅立叶变换的边界复杂度和分割对象的尺寸)对SAM的分割性能的影响。广泛的实验证实,SAM的零样本分割能力单独不足以确保其直接应用于MIS。
论文地址:
https://arxiv.org/ftp/arxiv/papers/2304/2304.13973.pdf
皮肤癌是一种常见且潜在致命的疾病,需要准确高效的诊断和治疗。虽然手工描绘是目前临床的标准,但自动化工具可以减少人力劳动并提高准确性。然而,由于皮肤癌的外观变异性高和背景中存在复杂的对象,开发此类工具具有挑战性。在本文中,我们介绍了SkinSAM,这是一种基于Segment Anything Model的经过精细调整的模型,展示了出色的分割性能。模型在包含10015个皮肤镜图像的HAM10000数据集上进行了验证。虽然较大的模型(ViT_L,ViT_H)表现更好,但经过调整的模型(ViT_b_finetuned)展示了最大的改进,平均像素准确率为0.945,平均Dice得分为0.8879,平均IoU得分为0.7843。在病变类型中,血管病变显示出最佳的分割结果。我们的研究证明了将SAM调整用于医学图像分割任务的巨大潜力。
论文地址:
https://arxiv.org/pdf/2304.13844.pdf
本研究探讨了眼动追踪技术和Segment Anything Model(SAM)在设计医学图像分割的协同人机交互系统方面的潜力。我们提出了GazeSAM系统,使放射科医生能够通过在图像诊断过程中简单地注视感兴趣区域来收集分割掩膜。所提出的系统跟踪放射科医生的眼动,并利用眼动数据作为SAM的输入提示,实时自动生成分割掩膜。本研究是首次利用眼动追踪技术和SAM的力量来提高日常临床实践的效率。此外,眼动数据结合图像和相应的分割标签可以轻松记录,以进行进一步的高级眼动研究。代码可在https://github.com/ukaukaaaa/GazeSAM获取。
https://arxiv.org/pdf/2304.13785.pdf
我们提出了SAMed,这是一种用于医学图像分割的通用解决方案。与先前的方法不同,SAMed是基于大规模图像分割模型Segment Anything Model (SAM) 构建的,旨在探索定制大规模模型用于医学图像分割的新研究范式。SAMed采用基于低秩(LoRA)的微调策略,对SAM图像编码器进行微调,同时在标记的医学图像分割数据集上微调提示编码器和掩膜解码器。我们还观察到热身微调策略和AdamW优化器使SAMed成功收敛并降低了损失。与SAM不同,SAMed可以在医学图像上执行语义分割。我们训练的SAMed模型在Synapse多器官分割数据集上实现了81.88的DSC和20.64的HD,与现有方法相当。我们进行了大量实验证实我们设计的有效性。由于SAMed仅更新SAM参数的一小部分,它在实际使用中的部署成本和存储成本非常小。SAMed的代码可在https://github.com/hitachinsk/SAMed获取。
最近,针对视觉任务开发了第一个专门的基础模型,名为"Segment Anything Model"(SAM)。SAM可以根据简单的输入提示(如一个或多个点、边界框或掩膜)对输入图像中的对象进行分割。作者们在大量的视觉基准任务上对SAM进行了零样本图像分割准确性的研究,发现SAM通常能够达到与或有时超过在目标任务上进行训练的视觉模型的识别准确性。SAM在分割任务中的出色泛化能力对于研究自然图像的视觉研究人员具有重要意义。在本研究中,我们研究了SAM在一组多样化且广泛研究的基准任务上的性能,并帮助指导社区对其发展的回应。我们发现SAM在遥感图像上通常能够良好地进行泛化,尽管在某些情况下会因为遥感图像和目标对象的独特特征而失败。我们报告了这些关于遥感图像的独特系统性失败案例,这可能为社区提供有用的未来研究。需要注意的是,这是一份工作论文,随着进一步分析和结果的完成,它将进行更新。
论文地址:
https://arxiv.org/pdf/2304.12637.pdf
我们对最近的Segment Anything Model (SAM)在医学图像上进行了研究,并在九个医学图像分割基准数据集上报告了定量和定性的零样本分割结果,涵盖了各种成像模态,如光学相干断层扫描 (OCT)、磁共振成像 (MRI) 和计算机断层扫描 (CT),以及不同的应用领域,包括皮肤科、眼科和放射学。我们的实验发现,虽然SAM在一般领域的图像上展示了惊人的分割性能,但对于那些分布不同的图像,例如医学图像,它的零样本分割性能仍然有限。此外,SAM在不同的未知医学领域中展示了不同的零样本分割性能。例如,在视网膜OCT的布鲁克膜下分割上,它的平均Dice分数为0.8704,而在视网膜色素上皮分割时,分割准确度降至0.0688。对于某些结构化目标,如血管,SAM的零样本分割完全失败,而简单地使用少量数据对其进行微调可以显著提高分割质量。我们的研究表明,通用视觉基础模型在解决医学图像中的特定任务方面的多功能性,并通过微调实现期望的性能,最终解决访问大规模多样化医学数据集和医学领域复杂性的挑战具有巨大潜力。
论文地址:
https://arxiv.org/pdf/2304.12620.pdf
最近,“Segment Anything Model” (SAM) 在图像分割领域引起了广泛关注。由于其在各种分割任务和基于提示的界面方面的卓越能力,SAM 在学术界引发了激烈的讨论。许多知名专家甚至称 SAM 已经完成了图像分割任务。然而,尽管医学图像分割是图像分割领域的重要分支,但似乎并未包含在"Segmenting Anything"的范围内。许多个别实验和最近的研究表明,SAM 在医学图像分割方面的性能表现不佳。一个自然的问题是如何找到这个难题的缺失部分,以将 SAM 的强大分割能力扩展到医学图像分割中。在本文中,我们提出了 Med SAM Adapter,它通过一种简单而有效的适应技术将医学特定领域知识整合到分割模型中。尽管这项工作仍然是将流行的 NLP 技术 Adapter 转移到计算机视觉领域的少数几个案例之一,但这种简单的实现在医学图像分割上表现出了令人惊讶的良好性能。经过适应的医学图像的 SAM,我们将其称为 Medical SAM Adapter (MSA),在包括 CT、MRI、超声图像、眼底图像和皮肤镜图像在内的19个医学图像分割任务中展现出卓越的性能。MSA 超越了一系列最先进的医学图像分割方法,如 nnUNet、TransUNet、UNetr、MedSegDiff,并且在性能上也超越了完全微调的 MedSAM。代码将在以下网址发布:https://github.com/WuJunde/Medical-SAM-Adapter。
论文地址:
https://arxiv.org/ftp/arxiv/papers/2304/2304.12600.pdf
本研究评估了两种深度学习模型 SAM 和 U-Net 在检测混凝土结构中的裂缝方面的性能。结果表明,每个模型在检测不同类型的裂缝方面都有其优势和局限性。使用 SAM 的独特裂缝检测方法,图像被分割为不同部分,以确定裂缝的位置,使其在检测纵向裂缝方面更为有效。另一方面,U-Net 模型可以识别正标签像素,准确检测剥落裂缝的大小和位置。通过结合这两个模型,可以实现更准确、全面的裂缝检测结果。在确保混凝土结构的安全性和寿命方面,使用先进技术进行裂缝检测的重要性不可忽视。这项研究对土木工程具有重要意义,因为 SAM 和 U-Net 模型可用于各种混凝土结构,包括桥梁、建筑物和道路,提高了裂缝检测的准确性和效率,并节省了维护和修复方面的时间和资源。总而言之,本研究中提出的 SAM 和 U-Net 模型为混凝土结构中的裂缝检测提供了有希望的解决方案,并利用了两个模型的优势,可以产生更准确、全面的结果。
该研究还对数据集中的数百张图像进行了裁剪,以生成较原始图像更小的版本。由于很难再现完美的条件并不断调整无人机上安装的相机的位置、角度和照明方向,这种技术无法解决现场中各种缺陷的广泛问题。由于大多数基于图像的技术都是基于一个实验的数据,它们无法应用于其他数据集。许多研究项目已经对单一缺陷的语义分割进行了研究。还从未研究过预训练的语义分割算法是否能够识别多类混凝土缺陷。
因此,本研究的目的是提出一种基于这些差距的卷积神经网络,可以对包含裂缝、剥离和各种土木基础设施中的背景的图像进行语义分割。在第一步中,训练了一个神经网络,能够进行各种现场检查,无论图像的质量如何。根据Savino等人的研究,收集了1250张图像用于构建神经网络。该图像集展示了真实的环境条件,包括各种背景和各种噪声来源。第二个目标是找到最适合发现土木工程缺陷的预训练神经网络。除了腐蚀、白华、污渍湿度和空洞外,进一步的研究可能还可以识别其他形式的结构退化。还进行了形态分析,以证明语义分割优于其他方法在发现土木基础设施缺陷方面的表现。
论文地址:
https://arxiv.org/pdf/2304.12306.pdf
Segment Anything Model (SAM)已经在自然图像分割方面取得了革命性的进展,但它在医学图像上的表现有限。本研究提出了MedSAM,这是将SAM的成功扩展到医学图像的首次尝试,旨在创建一个用于各种医学目标分割的通用工具。具体而言,我们首先整理了一个大规模的医学图像数据集,包括11种不同模态下的200,000多个掩膜。然后,我们开发了一种简单的微调方法,将SAM调整适应一般的医学图像分割任务。对21个3D分割任务和9个2D分割任务进行的全面实验表明,MedSAM的平均Dice相似系数(DSC)分别为22.5%和17.6%,优于默认的SAM模型。代码和训练模型可在https://github.com/bowang-lab/MedSAM 上公开获取。
论文地址:
https://arxiv.org/pdf/2304.11968.pdf
最近,由于Segment Anything Model (SAM)在图像分割方面的令人印象深刻的性能,它迅速引起了广泛关注。然而,在对视频进行连续分割时,我们发现SAM的表现较差。因此,在本报告中,我们提出了Track Anything Model (TAM),它在视频中实现了高性能的交互式跟踪和分割。具体而言,给定一个视频序列,只需要极少的人工干预,即几次点击,人们就可以跟踪他们感兴趣的任何目标,并在一次推断中获得令人满意的结果。在没有额外训练的情况下,这种交互式设计在视频目标跟踪和分割方面表现出色。所有资源都可以在https://github.com/gaomingqi/Track-Anything 上找到。我们希望这项工作能促进相关研究的进行。
论文地址:
https://arxiv.org/pdf/2304.11332.pdf
Segment Anything Model (SAM) 是最近针对计算机视觉任务的通用分割任务开发的大型模型。SAM是使用1100万张图像和超过10亿个掩码进行训练的,可以在自然场景图像中对各种对象进行分割。SAM可以被视为分割的通用感知模型,用于将图像划分为语义上有意义的区域。因此,如何利用这样一个大型基础模型进行医学图像分割是一个新兴的研究目标。本文展示了尽管SAM并不能立即给出高质量的医学图像分割结果,但它生成的掩码、特征和稳定性评分对于构建和训练更好的医学图像分割模型是有用的。特别是,我们展示了如何使用SAM来增强常用的医学图像分割模型(例如U-Net)的图像输入。在两个数据集上的实验表明了我们提出的方法的有效性。
论文地址:
https://arxiv.org/pdf/2304.10817.pdf
最近,Meta AI发布了Segment Anything模型(SAM),由于其在无类别分割方面的卓越性能,引起了广泛关注。在这项研究中,我们探索了SAM在少样本目标计数这一具有挑战性的任务中的应用,该任务涉及通过提供少量示例的边界框来计数未见类别的对象。我们将SAM的性能与其他少样本计数方法进行了比较,并发现SAM在没有进一步微调的情况下目前仍然不令人满意,特别是对于小型和拥挤的对象。代码可以在https://github.com/Vision-Intelligence-and-Robots-Group/count-anything 找到。
数据集介绍一下:
论文地址:
https://arxiv.org/pdf/2304.09324.pdf
SAM(Segment Anything Model)是一种在计算机视觉领域的基准模型,被用于各种自然图像的分割任务。本研究旨在测试SAM在不同医学图像分割任务中的准确性,并探究可能影响SAM在医学图像中准确性的因素。
方法:我们使用SAM在包含7,451个受试者的12个公共医学图像分割数据集上进行了测试。我们使用Dice系数来衡量算法分割结果与真值掩膜之间的重叠程度。我们将SAM的表现与五种专门设计用于医学图像分割任务的最先进算法进行了比较。我们计算了SAM准确性与六个因素(分割能力评分、U-Net Dice重叠、图像尺寸、目标区域大小、图像模态和对比度)的独立和联合关联。
结果:SAM在所有12个医学图像分割数据集中的Dice重叠都显著低于其他五种医学图像算法,差距范围为0.1-0.5,甚至0.6-0.7 Dice。SAM-Semantic与医学图像分割困难度和图像模态显著相关,而SAM-Point和SAM-Box与图像分割困难度、图像尺寸、目标区域大小和目标与背景对比度显著相关。这三种SAM的变体在2D医学图像、较大目标区域尺寸、更容易的情况(具有较高的分割能力评分和U-Net Dice)以及较高的前景-背景对比度下更准确。
结论:直接应用SAM于医学图像分割时,其准确性不及专门设计用于医学图像分割任务的算法。SAM在医学图像分割中的准确性受到多个因素的影响,包括分割难度、图像维度、图像模态、目标区域大小和对比度。这项研究强调了进一步改进SAM在医学图像分割中准确性的需求。
关键结果:
总结:与当前的深度学习算法相比,SAM在医学图像分割中表现不佳,特别是在复杂、3D医学图像以及小型或低对比度区域的分割中。