继在自然语言任务上取得前所未有的成功之后,Transformers 已经成功地应用于几个计算机视觉问题,取得了最先进的结果,并促使研究人员重新考虑卷积神经网络(cnn)作为事实上的算子的霸主地位。利用计算机视觉的这些进步,医学成像领域也见证了与具有局部接受域的cnn相比,能够捕获全局上下文的Transformers的兴趣越来越大。受这种转变的启发,在本调查中,我们试图全面回顾Transformers 在医学成像中的应用,涵盖各个方面,从最近提出的建筑设计到未解决的问题。具体来说,我们研究了transformer在医学图像分割、检测、分类、重建、合成、配准、临床报告生成等任务中的应用。特别是,对于这些应用程序中的每一个,我们都开发了分类,确定了特定于应用程序的挑战,并提供了解决这些挑战的见解,并强调了最近的趋势。此外,我们对该领域的整体现状进行了批判性的讨论,包括确定关键挑战,开放问题,并概述了有希望的未来方向。我们希望这项调查将进一步点燃社区的兴趣,并为研究人员提供有关Transformer模型在医学成像中的应用的最新参考。
代码地址
解决医学成像任务的传统算法是基于由现场专家利用领域知识设计的手工制作的数学模型。针对一系列医学成像问题,开发这些专注于精炼判别特征和高效优化算法的手工模型一直是过去的中心研究课题。医学成像中成功的手工制作模型包括全变分、非局部自相似性、稀疏性/结构化稀疏性、小波系数上的马尔可夫树模型和未经训练的神经网络。这些模型在医学领域被广泛用于图像分割、重建、疾病分类、增强和异常检测,因为它们具有坚实的数学基础和鲁棒性、恢复性和复杂性方面的理论支持。此外,与基于深度学习的方法不同,它们不需要大型带注释的医学成像数据集进行训练。
然而,由于无法充分利用大型医学影像数据集的表达能力,这些手工制作的模型往往具有较差的判别能力。因此,这些模型往往不能代表高维复杂医学成像数据的细微差别,从而影响医学成像诊断系统的性能。为了避免差的判别性和泛化问题,人们提出了学习手工模型来更好地利用数据。代表性的方法包括最优方向、K-SVD、数据驱动的紧框架、低秩模型和分段平滑图像模型。接下来,我们将解释文献中探讨的流行的数据驱动方法。
cnn能够有效地从大规模医疗数据集中学习判别特征和提取可泛化先验,从而在医学成像任务中提供出色的性能,使其成为现代基于人工智能的医学成像系统的重要组成部分。cnn的进步主要得益于新颖的架构设计、更好的优化程序、特殊硬件(如gpu)的可用性和专门构建的开源软件库。
分割方法分为纯变压器(仅ViT层)和混合架构(包括cnn和ViT层)。
基于混合体系结构的方法结合了transformer和cnn的互补优势,有效地建模全局上下文并捕获局部特征以进行准确分割。我们进一步将这些混合模型分为单尺度和多尺度方法
这些方法仅在一个尺度上处理输入的图像信息,与多尺度体系结构相比,由于计算复杂度低,在医学图像分割中得到了广泛的应用。我们可以根据模型中Transformer层的位置对单尺度体系结构进行分类。这些子类别包括编码器中的变压器,编码器和解码器之间的变压器,编码器和解码器中的变压器以及解码器中的变压器
Transformer层位于u形架构的编码器和解码器之间
第一项工作是TransAttUNet:注意力和多尺度跳跃连接来增强传统UNet的灵活性,同时利用全局空间注意和变形自注意的表达能力
轴向融合变压器UNet (AFTerUNet):在编码器和解码器之间包含一个计算效率高的轴向融合层,可以有效地融合片间和片内信息,用于3D医学图像分割。
UTNet,它有效地将自关注机制的复杂性从二次型降低到线性
nnFormer:基于交错编解码器的架构,其中卷积层编码精确的空间信息,变压器层编码全局上下文
DS-TransUNet:将Swin变压器在u型架构中的优势结合起来用于医学图像分割
SegTran:用于二维和三维医学图像分割的SE Transformer,还提出了一种可学习的正弦位置编码,帮助模型对空间关系进行编码
PMTrans:利用多分辨率注意力来捕获不同图像尺度上的相关性,使用金字塔结构。PMTrans在不改变自注意计算的总体复杂度的情况下,通过自适应的小块分割方案来访问不同的接受域。
Multi-Compound transformer (MCTrans):不仅学习相同语义类别的特征一致性,还捕获不同语义类别之间的相关性
UNETR由一个纯变压器作为编码器来学习输入量的序列表示。编码器通过跳过连接连接到基于cnn的解码器,以计算最终的分割输出
UNETR的缺点之一是在处理大型3D输入量时计算复杂性大
图中关注可变形注意力模块
在多个层次提取特征的高计算成本阻碍了多尺度架构在医学分割任务中的适用性。这些多尺度架构利用了对输入图像信息的多层次处理,并取得了比单尺度架构更好的性能。因此,为多尺度处理设计高效的变压器结构是一个值得关注的问题。
大多数提出的基于vit的模型都是在ImageNet数据集上进行预训练的,用于医学图像的下游任务分割。这种方法是次优的,因为在自然和医学图像模式之间有很大的领域差距。目前,研究医学影像数据集的自监督预训练对ViTs分割性能影响的研究很少。然而,这些工作表明,当直接应用于其他医学成像模式(MRI)时,在一种模式(CT)上预训练的ViT表现不理想,因为大的域间隙使其成为一个令人兴奋的探索途径。
目前基于视觉视觉的方法主要集中在二维医学图像分割上。通过结合时间信息来设计定制的建筑组件以实现高效的高分辨率和高维分割的体图像尚未得到广泛的研究。最近,已经做出了一些努力,例如,UNETR使用基于Swin Transformer的架构来避免二次计算复杂性;然而,这需要社会各界的进一步关注。
除了关注数据集的规模之外,随着vit的出现,我们注意到需要收集更多样化和更具挑战性的医学成像数据集。尽管各种具有挑战性的数据集对于衡量vit在其他医学成像应用中的性能也至关重要,但由于该领域大量涌入了基于vit的模型,因此它们与医学图像分割特别相关。我们相信这些数据集将在探索ViTs在医学图像分割中的局限性方面发挥决定性作用。