Transformers 在医疗图像中的应用综述

Transformers 在医疗图像中的应用综述

Transformers in Medical Image Analysis: A Review

Abstract

Transformers在自然语言处理领域占据主导地位,最近影响了计算机视觉领域。在医学图像分析领域,Transformers还成功应用于全堆栈临床应用,包括图像合成/重建、配准、分割、检测和诊断。我们的论文介绍了一份立场文件和一本初级读物,以提高人们对Transformers在医学图像分析领域的认识和应用。具体来说,我们首先概述了Transformers和其他基本组件中内置的注意力机制的核心概念。其次,我们给出了为医学图像应用定制的各种Transformers架构的新分类,并讨论了它们的局限性。在这篇综述中,我们研究了围绕Transformers在不同学习范式中的使用、提高模型效率以及它们与其他技术的耦合等关键挑战。我们希望这篇综述能给医学图像分析领域的读者提供一个全面的Transformers图片。

**关键词:**Transformers、医学图像分析、深度学习、诊断、配准、分割、图像合成、多任务学习、多模式学习、弱监督学习。

1 INTRODUCTION

Transformers[1]主导了自然语言处理(NLP)领域,包括语音识别[2]、合成[3]、文本到语音翻译[4]和自然语言生成[5]。作为深度学习体系结构的一个引人注目的例子,Transformer首次被引入NLP中处理顺序推理任务。虽然,递归神经网络(RNN)[6](例如,长-短期记忆网络(LSTM)[7])明确地使用一系列推理过程,显著地捕获具有堆叠的自我注意层的序列数据的长期依赖性。通过这种方式,Transformers既能有效地一次性解决顺序学习问题,又能有效地叠加非常深的模型。几个在大规模体系结构上训练的Transformers体系结构在解决NLP任务时变得广泛流行,例如BERT[8]和GPT[9],[10]——仅举几个例子。

卷积神经网络(CNNs)及其变体在多个计算机视觉(CV)任务[11]中达到了最先进的水平,部分原因是它们的感受野逐渐扩大,可以将结构化图像表示的层次结构学习为语义。在图像中捕捉视觉语义通常被认为是在计算机视觉中构建成功网络的核心思想[12]。然而,在CNN中,图像内部的长期依赖性(如图像中对象的非局部相关性)被忽略。受上述NLP中Transformers成功的启发,Dosovitskiy等人[13]提出了视觉Transformers(ViT),将图像分类作为图像块(区域)序列的序列预测任务,从而捕获输入图像中的长期依赖关系。ViT及其派生实例在多个基准数据集上取得了最先进的性能。Transformer在各种计算机视觉任务中非常流行,包括图像分类[13]、检测[14]、分割[15]、生成[16]和字幕[17]。此外,Transformers在基于视频的应用中也发挥着重要作用[18]。

最近,Transformers还将医学图像分析领域用于疾病诊断[19]、[20]、[21]和其他临床目的。例如,【22】、【23】中的工作利用Transformers,利用计算机断层扫描(CT)或X射线图像将COVID19与其他类型的肺炎区分开来,满足了快速有效治疗2019冠状病毒疾病患者的迫切需要。此外,Transformers还成功地应用于图像分割[24]、检测[25]和合成[26],显著获得了最先进的结果。图1显示了Transformers对不同医学图像应用的时间适应性,将在第3节中进一步讨论。

Transformers 在医疗图像中的应用综述_第1张图片

尽管许多研究致力于为医学图像分析任务定制Transformers,但这种定制带来了尚未解决的新挑战。为了鼓励和促进基于Transformers的医学图像分析应用的发展,我们广泛审查了该领域现有的120多种基于Transformers的方法,为医学应用提供了解决方案,并展示了Transformers在各种临床环境中的应用。此外,我们还深入讨论了如何设计基于Transformer的方法来解决更复杂的现实任务,包括弱监督/多任务/多模式学习范式。本文包括Transformers和CNN之间的比较,并讨论了提高Transformers网络效率和解释的新方法。

以下各节的组织如下。第二节介绍了Transformers的基本知识及其在视觉上的发展。第3节回顾了Transformers在医学图像分析中的最新应用,第4节讨论了Transformers未来的潜在发展方向。第五部分总结全文。

2 TRANSFORMERS

介绍transformer和attention,

3 TRANSFORMERS IN MEDICAL IMAGE APPLICATIONS

Transformers已广泛应用于全堆叠临床应用。在本节中,我们首先介绍基于Transformers的医学图像分析应用,包括分类、分割、图像到图像的转换、检测、注册和基于视频的应用。我们根据学习任务对这些应用程序进行分类,如图5所示。

Transformers 在医疗图像中的应用综述_第2张图片

3.1 Classification

将Transformers用于疾病诊断和预后的方法制定为分类任务,可分为三类,包括:

1) 将ViTs直接应用于医学图像;

2) 将ViTs与卷积相结合,实现更具代表性的局部特征学习;

3) 将VIT与图形表示相结合,以更好地处理复杂数据。

本节将全面概述用于医学图像分类任务的上述三种Transformers类别(1)。

3.1.1 Applications of pure T ransformers

我们将与最初提议的类似的VIT称为纯Transformers[13]。这些方法通常不包含显著的结构变化。我们通过图像模态介绍纯Transformers的文献,例如X射线[43],[41]、计算机断层扫描[20]、[19]、磁共振成像[21]、超声[52]、OCT[58]等

**X-Ray:**X射线是一种廉价且方便的成像技术,广泛应用于多种疾病的筛查和诊断,例如乳腺癌、肺炎、骨折等。特别是在2019冠状病毒疾病大流行期间,X射线在疾病筛查中发挥了非常重要的作用,因此是人工智能研究人员在设计基于Transformers的方法时使用的一种流行模式。Liu等人[43]提出了视觉观察者(VOLO),这是一种ViT模型,用所谓的观察者注意取代了原有的注意机制。他们的模型在诊断2019冠状病毒疾病方面达到了最先进水平(SOTA),无需在ImageNet上进行预训练。Shome等人[46]提出了一种基于ViT的2019冠状病毒疾病诊断模型,方法是在自行收集的大型2019冠状病毒疾病胸部X射线图像数据集上训练该模型。他们还使用Grad-CAM(59)来显示2019冠状病毒疾病的进展。Krishnan等人【47】应用ImageNet预训练ViT-B/32网络,通过使用胸部X射线图像中的补丁作为输入来区分2019冠状病毒疾病。尽管ViT对2019冠状病毒疾病有效,但Tanzi等人【41】应用ViT模型对股骨骨折进行分类。他们的工作利用聚类方法验证了ViT提取特征的能力,并将其性能与CNN进行了比较。

**Computed T omography:**基于气体和组织的高对比度,CT通常用于胸部疾病的诊断。因此,纯Transformers在CT图像中的应用主要集中在胸部疾病上。Costa等人[22]建议使用ViT及其变体将2019冠状病毒疾病和其他肺炎与正常病例区分开来。通过比较几种模型的性能,他们发现预训练模型,如数据高效图像转换器(DeiT)[30]取得了竞争性的结果。

同时,传统的ViT以及使用Performer编码器的ViT变体即使在没有预训练的情况下也取得了良好的效果。Li等人[39]设计了一个基于ViT的2019冠状病毒疾病诊断平台。他们将CT图像转换成一系列扁平的斑块,以适应诊断所需的ViT输入。他们还采用了一个师生模型,从对自然图像进行预训练的CNN中提取知识。Gao等人【19】将ViT应用于2D和3D CT扫描,以诊断2019冠状病毒疾病。他们提出通过提取固定数量的切片来构造图像子体积,从而用不同数量的切片“规范化”成像序列。他们还证明,ViT的性能优于DenseNet,后者是一种有竞争力的CNN模型。Zhang等人[20]在CT图像上训练了流行的SwinTransformers。具体来说,该框架首先通过一个Unet对肺部进行分割,然后将肺部区域提供给特征提取程序。这种策略有助于减少Transformer框架的计算负担

Magnetic Resonance Imaging: 磁共振成像(MRI)具有更好的成像质量,尤其是对于包括血管和神经在内的细微解剖结构,但它在采集过程中非常耗时。由于MRI代表了一种强大的软组织无创成像技术,因此它通常用于神经成像研究。例如,他等人[21]提出了一个用于大脑年龄估计的双通路网络。全局路径用于从大脑MRI中捕获全局上下文信息,而局部路径负责从局部斑块中捕获细粒度信息。然后,通过一个全局-局部注意机制将局部和全局语境表征融合在一起。接下来,融合特征和局部补丁的串联被馈送到修改后的全局-局部转换器中。此外,MRI具有广泛的临床应用,例如癌症诊断,这使其成为训练VIT的有力候选方式。

**Ultrasound:**带护理点的超声波(POC)扩展了适用场景,因为获取图像不需要特定位置。Perera等人的研究[52]提出了一种基于Transformers的架构,用于基于超声片段诊断2019冠状病毒疾病。为了确保记忆和时间效率,他们提议用Linformer取代标准vit,将传统自我注意机制的时空复杂度从O(n2)降低到O(n)。此外,由于其易用性、低成本和安全性,超声波也成为乳腺癌成像的一种重要方式。Gheflati等人[53]使用ViTs对正常、恶性和良性乳腺组织进行超声图像分类。他们还比较了不同配置的VIT与CNN的性能,以证明其效率。

Others:除了上述成像方式外,还采用了其他成像技术来检查和诊断特定疾病,例如皮肤镜图像,这是皮肤病诊断中常用的一种方法。例如,Xie等人[57]的目标是利用皮肤镜图像检测黑色素瘤。他们提议将SWN Transformer无参数注意模块SimAM相结合,以便为目标分类任务学习更好的特征。考虑到输入分类器的特征包含丰富的语义信息,但缺乏详细信息,他们将前三个Swin Transformer块的输出设计为三个单独输入的SimAM块,然后将包括最终特征映射在内的所有SimAM块输出连接在一起,形成新的最终特征映射,作为最终分类层的输入。

3.1.2 Applications of hybrid Transformers

虽然纯VIT可以在不做太多修改的情况下获得有希望的结果,但人们已经投入了大量的努力,探索将VIT与其他学习组件相结合,以更好地捕获复杂的数据分布或获得更好的性能。典型情况是具有1)卷积层和2)图形表示的Transformers组合。接下来我们将介绍这两个类别。

Transformers with convolutions: Vision Transformers更关注数据中的全局关系建模,而传统CNN更关注局部纹理。这种差异促使研究人员将ViTs和CNN的优势结合起来。此外,医学图像的分析不仅涉及图像中区域的相关性,还涉及细微的纹理。因此,许多作品致力于探索这种CNN-ViT组合。

大多数应用集中于胸部疾病的诊断,尤其是2019冠状病毒疾病或其他相关疾病。得益于ViT的功能整合能力,Van等人[23]利用Transformers对未注册的医学图像进行多视图分析,对胸部X光进行分类。他们提出了一种基于变换器的方法,利用可训练的注意机制,在特征层面上考虑不同视图的空间信息。他们将转换器应用于CNN生成的中间特征图,以从一个视图检索特征,并将其转移到另一个视图。因此,在原始视图中添加了额外的上下文,而不需要像素级的对应。他们的工作也有助于降低计算复杂度,因为他们建议用较少数量的视觉标记来代替源像素。

V erenich等人[42]将VIT中的全局空间信息引入CNN,用于肺部疾病分类,同时保持空间不变性和等变性。Liang等人[37]使用CNN挖掘有效的特征,并使用转换器进行特征聚合。此外,还采用了有效的数据采样策略,以减少输入的大小,同时保留足够的诊断信息。Park等人[40]设计了一个经过预训练的CNN主干,然后是一个ViT,用于2019冠状病毒疾病诊断。在模型预训练中使用了用于CXR分类的大规模公共数据集。

除了2019冠状病毒疾病诊断,Yassine等人[38]通过将提取的特征输入ViT,将几个CNN与ViT结合。他们比较了CNN的数量及其预训练配置与混合CNN ViT模型。值得一提的是,他们在ImageNet数据集[12]生成的图像上对CNN进行了预训练,使用了在脑部CT图像上预训练的生成性对抗网络(GAN)。他们声称,在生成的图像上进一步预训练可能会导致目标计算机断层扫描数据集产生更好的诱导偏差,因为两个域的差异减小。Zhao等人[49]考虑利用CNN和Transformers的组合,使用多期对比增强磁共振成像(CEMRI)对肝细胞癌(HCC)进行多指标量化。他们提出了mrTrans网络,其中有三个并行编码器,每个编码器后面都有一个非本地Transformers,用于提取动脉相位、PV相位和延迟相位的特征。接下来,添加相位感知Transformers,以量化每个相位对于目标多相位CERMI信息融合和选择的相关性。量化不仅在相位感知Transformers之后进行,而且在非局部Transformers之后进行,以形成增强的损耗函数来约束量化任务。Jiang等人[56]通过将VIT和CNN作为基础学习者,根据B淋巴细胞前体细胞和白血病B淋巴细胞的显微图像诊断急性淋巴细胞白血病,探索了集成学习的有效性。他们提出了一个基于ViT和EfficientNet的集合模型。由于这两个基本模型是互补的,所以集合结果显示出一些改进。他们还提出了一种数据增强方法来处理每张图像中的正常/癌细胞失衡。Chen等人[51]提出了多尺度视觉变换模型,如图6所示,称为GasHis Transformer,用于处理胃组织病理学图像分类。他们设计了全局信息模块(GIM)和局部信息模块(LIM)(基于CNN)来提取特征。此外,他们借鉴了InceptionV3中的并行结构来学习多尺度局部表示。此外,他们的模型对十种不同的对抗性攻击或常规噪声具有鲁棒性,并可推广到其他癌症组织病理学图像分类任务。Gao等人[50]提出了基于Vison Transformer(iViT)的乳头状肾细胞癌分型实例。i-ViT首先从instancelevel面片中提取并选择实例特征,其中包括一个包含部分周围背景和nucleus等级的nucleus。接下来,它聚集这些特征,以进一步捕获细胞级和细胞层级特征。最后,该模型将获得的两个精细特征编码到最终的图像级表示中, 其中嵌入了等级和职位以进行子类型划分。

Transformers 在医疗图像中的应用综述_第3张图片

**Transformers with graphs:**使用图形学习是MIA的常见做法。图学习的核心概念是学习每个样本的紧凑表示(例如嵌入),同时通过数据图保留样本间的内在关系[60]。Transformer是一种基于注意的网络,适合于对图形数据进行操作,包括聚合节点特征和计算节点关系。

在网络神经科学领域,大脑网络被建模为一个图形,其中每个节点表示一个感兴趣的解剖区域(ROI),连接两个节点的边缘编码它们的交互作用(例如,神经放电)。脑图在促进我们对大脑作为健康和疾病中高度互联系统的理解方面发挥着重要作用[61],[62]。Kim等人[48]的工作利用了功能连接(FC)网络的动态特征,将动态特征整合到紧凑的脑图表示中。具体来说,他们提出了时空注意图同构网络(STAGIN),用于学习具有时空注意的大脑连接组的动态图形表示。GNN用于在每个时间步提取功能性大脑连接组的图形级表示。最后,该模型使用Transformer编码器获得动态图序列的最终表示。具体而言,他们将编码的时间戳与节点特征连接起来,以嵌入时间信息。他们声称,Transformers的使用不仅提高了分类性能,还提高了时空可解释性。

3.2 Segmentation

基于Transformers的方法也被应用于各种分割任务,包括腹部多器官分割[68]、[69]、[70]、[72]、[81]、[25]、[95]、[96]、[100]、[102]、胸部多器官分割[96]、心脏分割[68]、[70]、[74]、[81]、[95]、[100]、[102]、胰腺分割[71]、[99]、脑肿瘤/组织分割[72]、[76]、[84]、[90]、[99]、[103],[104]、息肉分割[79]、[87]、[101]、皮损分割[79]、[87]、[91]、[101]、髋部分割[79]、前列腺分割[79]、前列腺分割[79], 腺体分割[24]、[84]、[101]、[91]、细胞核分割[24]、[84]、[91]、[101]、细胞分割[87]、[105]、[106]、脾脏分割[90]、肺野/新冠肺炎病变分割[91]、高光谱病理图像分割[107]。表2列出并详细说明了几种值得注意的方法。

在大多数医学图像分割任务中,U形卷积神经网络结构(简称Unet)取得了巨大的成功。然而,由于卷积运算的内在机制,Unet在建模长期依赖性方面通常受到限制。为了克服这一限制,研究人员努力设计与Unet架构相结合的Transformers的健壮变体。这赋予了Unet在长期依赖关系中捕获上下文信息的能力。此外,还有几种方法使用纯Transformers进行分割任务。我们将在本节的下一部分介绍它们。

3.2.1 Unet-based Transformers

为了构建与流行的Unet架构相结合的Transformers,我们发现现有的研究主要关注以下三类:

1) 在Unet的不同级别插入Transformers层;

2) 使用不同的策略组合Transformers和UNET;

3) 使用多尺度特征或注意机制。

下面我们将详细介绍这三个类别。

Location of Transformer in Unet:

要将转换器与Unet结合起来,一个直观的想法是在Unet的编码器和解码器块之间插入一个转换器,从而在高级视觉概念之间建立长期依赖关系。根据这个想法,Chen等人[68]提出了Transune,如图7所示,它通过CNN提取高分辨率的空间特征,然后通过转换器对全球环境进行编码。然后对Transformers编码的自我关注特征进行上采样,并与使用跳转连接从编码路径提取的多尺度特征进行组合,以实现精确定位。在多器官和心脏分割任务中,与V-Net、AttnUNet和ViT相比,Transune取得了优异的性能。与Transune类似,Yao等人[69]将Transformers网络与 Claw Unet结构相结合,在突触多器官分割方面优于Transune。例如,Xu等人[70]提出了LeViT UNet,将LeViTTransformers集成到UNet架构中。在[71]中,Sha等人通过在Unet中添加Transformers模块设计了TransformersUnet,其性能优于TransUnet。

Transformers 在医疗图像中的应用综述_第4张图片

与上述研究不同的是,Transformer在编码器块之后滑动,李等人[72]在解码器中添加了注意上采样(AU)组件。他们还提出了窗口注意解码器(WAD)和窗口注意上采样(WAU),用于本地窗口,以减少内存和计算成本。Gao等人[74]提出了一种UTNet,它在编码器和解码器块中应用自我关注模块,以最小的开销捕获不同规模的长距离依赖关系。他们提出了一种有效的自我注意机制和相对位置编码,将自我注意操作的复杂性从O(n2)显著降低到接近O(n)

Strategies of bridging Transformer and Unet:

与上述在单一推理路径中结合Transformer和Unet架构的方法不同,其他工作探索了不同的Transformer-Unet耦合策略。Sun等人[76]使用Unet和Transformer编码器独立生成表示,然后集成它们的表示以进行后续解码。Zhang等人[79]提出了TransFuse,它还以并行方式将Transformer和Unet结合起来。与上述工作相比,本文提出了一种新的融合技术,即双融合模块,可以有效地融合两个分支的多层次特征。Zhou等人[81]声称,最近提出的大多数基于Transformer的分割方法只是将Transformer作为辅助模块,以帮助在卷积表示中编码全局上下文,而没有研究如何将自我关注与卷积最佳结合。为了解决这个问题,他们引入了一种基于自我注意和卷积经验组合的交叉结构的nnFormer

Multi-scaling:

MIA中Transformer的多尺度策略以多尺度方式使用特征,或将多尺度图像作为输入。

(1) 多分辨率图像。Zhang等人[24]提出了一种金字塔网络结构,即金字塔医疗Transformer(PMTrans),它通过处理多分辨率图像来捕获多范围关系。Valanarasu等人[84]在编码器中添加了选通轴向Transformer层,其中包含高度和宽度选通多头注意块的基本构建块。利用整体图像和补丁对应地学习全局和局部特征,并提出局部全局训练策略(LoGo),进一步提升整体性能。

(2) 多尺度特征。与Transune不同,Transune仅使用Transformer来处理从上一层学习到的低分辨率特征地图,Xie等人[25]提出了一种可变形Transformer(DeTrans)来处理多尺度和高分辨率特征地图。Ji等人[87]提出了多复合变换器(MCTrans),它将多尺度卷积特征嵌入为一系列标记,并执行尺度内和尺度间的自我注意。与这些使用CNN提取特征的作品不同,Hatamizadeh等人[90]介绍了利用纯Transformer作为编码器来学习输入体积序列表示的UNEtTransformer(UNETR)。Transformer编码器通过不同分辨率的跳过连接直接连接到解码器,以计算最终的语义分段输出。

(3) 多层次的关注。Chen等人[91]提出了TransAttUnet,其中多层次引导注意和多尺度跳跃连接被联合设计,以有效增强传统的U形结构。为了有效地学习编码特征之间的非局部交互作用,Transattune将**变换器自我注意(TSA)和全局空间注意(GSA)**结合到Transattune中。Wang等人[95]提出了混合变换模块(MTM),该模块通过精心设计的局部全局高斯加权自我注意(LGG-SA)计算自我亲和力,然后通过外部注意(EA)挖掘数据样本之间的相互联系。

(4) 多轴融合。Yan等人[96]采用轴向融合变换器对切片间和切片内信息进行融合,降低了在3D空间计算自我注意的计算复杂度

总之,上述方法都利用了使用特征融合策略学习的其他特征,以实现更有效的学习。

3.2.2 Pure Transformer

除了前面提到的将Transformer与卷积相结合的Unet achitecture变体,Karimi等人[99]尝试在相邻图像块之间使用简单的自我注意,而不进行任何卷积操作。给定一个3D图像块,他们的网络将其划分为 n 3 n^3 n3个3D面片,其中n=3或5,并学习每个面片的1D嵌入。该网络基于块嵌入之间的自我注意来预测块中心块的分割图。这种假设下的方法很容易被认为是纯Transformer。

Cao等人[100]提出了一种用于医学图像分割的类Unet纯变换器,方法是将标记化图像块馈送到类变换器的U形编码器架构中,该架构具有跳跃连接,用于局部-全局方式的语义特征学习。Lin等人[101]更进一步,提出了DS-Transune,它首先采用基于Swin-Transformer的双尺度编码器子网络来提取不同语义尺度的粗粒度和细粒度特征表示。此外,还提出了一个设计良好的Transformer交互式融合(TIF)模块,通过自我注意机制有效地建立不同尺度特征之间的全局依赖关系。为了更好地利用Transformer的自然多尺度特征层次,Huang等人[102]提出了MISSFormer,它有两个吸引人的设计:1)增强Transformer块作为前馈网络,具有更好的特征一致性、长期依赖性和局部上下文;2)增强的Transformer Context Bridge,用于对分层Transformer编码器生成的多尺度特征的长期依赖性和局部上下文进行建模。

3.3 Image-to-image translation(图像生成和恢复)

3.4 Detection

4 DISCUSSION

Transformer已成功应用于医学图像分析的几乎所有领域。然而,由于一些挑战,机器学习方法在实际临床应用中的部署可能会导致性能不佳。其中,最迫切的挑战在于标签的稀缺性,尤其是在场景理解任务中,例如分割和检测,这通常需要像素级的精确标签。从嘈杂的标签中学习是一个更大的挑战。此外,建立先进的CADx方法需要以多任务的方式使用多模态临床数据——这是一种多功能的学习方法,但在设计上很困难。

4.1 Transformers under different learning scenarios

4.1.1 Multi-task learning

建立具有多个任务的模型有助于提高其通用性,这在医学图像分析领域有着很高的要求。Sui等人[143]提出了一种新的转移学习方法,即CST,该方法具有一个基于转换器的框架,用于联合结直肠癌区域检测和肿瘤分割。对于检测,输入图像的生成区域建议以及编码器-解码器模块获得的位置特征被用作DETR网络的输入。对于分割,该模型使用图像块作为输入,这些图像块被投影成一系列嵌入,输入到转换器中进行掩模预测。

4.1.2 Multi-modal learning

使用多模态数据为诊断提供补充证据。例如,研究人员探索了光学相干断层扫描(OCT)和视野(VF)测试的结合,以帮助诊断眼部疾病。Song等人[58]提出将Transformer用于青光眼诊断。该模型利用注意机制来模拟OCT特征和VF特征之间的成对关系。然后,再次应用注意机制计算视野区域和视网膜神经纤维层象限之间的区域特征关系。利用Transformer模型将互补信息从一种模态传递到另一种模态。

Monajatipoor等人[141]提出了一种基于转换器的视觉和语言模型,该模型将高效的PixelHop++模型与BERT模型相结合。具体来说,使用领域内知识对BERT模型进行预训练。

当在小规模数据集上训练时,该模型被证明是有效的。提取的视觉特征和单词嵌入被送入Transformer进行最终诊断。虽然该模型减少了对医学图像大量注释的需求,但语言模型的预训练仍然需要大量的临床报告。

Zheng等人[139]通过考虑潜在的模态间相关性,专注于多模态信息的特征融合。他们提出了Transformer式模态触动特征融合方法(MaFF),从每个模态中提取丰富的信息,同时挖掘模态间的关系。然后,利用自适应图学习机制(AGL)基于融合特征为下游任务构造潜在鲁棒图。该方法在预测AD和自闭症方面取得了显著的进步。Dai等人[142]提出将TransMed用于腮腺肿瘤的诊断。TransMed结合了CNN和Transformer networks的优点,可以捕获低级纹理和跨模态高级关系。该模型首先将多模态图像作为序列进行处理,将其链接并发送给CNN进行特征提取。然后将特征序列输入Transformer,学习序列之间的关系,并进行特征融合。他们的工作利用Transformer从不同模式的图像中捕获相互信息,从而显示出更好的性能和效率。Nguyen等人[138]试图模拟放射科医生和全科医生在膝骨关节炎的诊断和预后方面的相互作用。他们提出了一个受临床启发的多智能体Transformer(CLIMAT)框架,该框架采用三Transformer架构。首先,使用Transformer和CNN相结合的特征提取工具来预测疾病的当前状态。然后,将非图像辅助信息输入另一个转换器,以提取上下文嵌入。最后,一个附加的基于转换器的全科医生模块根据当前状态和上下文嵌入预测疾病轨迹。

总之,Transformer被认为是连接CV和NLP任务的一种很有前途的方法[144]。在这种假设下,Radford等人[145]构建了一个多模式转换器,即CLIP,它提供了零镜头能力,可以从文本描述中识别图像,而无需图像标签。这种优势还指出了一种潜在的方法,可以为实际的临床应用构建更强大、更准确的计算机辅助诊断(CADx)方法,其中多种数据类型,例如临床、实验室和成像数据被视为不同的信息源。

4.1.3 Weakly-supervised learning

医学图像中的弱监督条件之一是,特定疾病的ROI在图像中相对较小,而只有图像级别的标签可用。为了解决这个问题,多实例学习(MIL)被作为一个合适的解决方案。在MIL中,训练样本表示一组实例,称为BAG。仅对行李进行监督,未提供行李中所含实例的单独标签[154]。

尽管许多现有的MIL方法都假设正和负实例独立于正和负分布[154]进行采样,但包中的实例是相关的,尤其是在医学图像分析中。MIL的学习场景没有遵循i.i.d假设,因为实例之间的关系没有被忽略。在这种情况下,可以利用VIT在实例之间建立关联,以获得更好的高级表示。Li等人[146]提出了基于变换器的MIL框架,其中包含一个诱导注意块,用于计算注意,同时绕过由成对点积引起的二次计算复杂性。该框架的特征聚合器也是基于多头注意的。它将前面提到的功能合并到包表示中。Yang等人[148]将患者的多个肺结节视为一个袋子,并以每个结节为例。与传统的MIL方法不同,MIL方法使用池运算来获得baglevel表示,他们建议使用3D Denset来学习体素级别的孤立结节级别表示。接下来,将生成的表示输入转换器,以了解同一患者的结节关系。为了减少计算负担,他们将注意力从分裂通道特征中提取出来,应用于群体规模的网点制作。邵等人[150]专注于不同实例之间的相关性,而不是简单地假设实例是独立的、分布相同的。为此,他们提出了一个基于Transformer的MIL框架来处理整个幻灯片图像分类问题。他们的框架使用了Transformer层为了聚集形态信息,提出了金字塔位置编码生成器(PPEG)来提取空间信息。此外,他们采用Nystrom方法来计算近似的自我注意,这可以将计算复杂度从O(n2)降低到O(n)。Rymarczyk等人[147]更加关注注意机制。他们的工作有助于修订基于注意力的MIL池(AbMILP),该池从不同数量的实例中收集信息。他们提出了基于自我注意的MILPooling(SA-AbMILP)来模拟一个包中不同实例之间的依赖关系。他们还建议通过引入不同的内核来扩展注意力的计算,这些内核与点产生的作用相同。他们评估了他们在组织学、微生物学和视网膜数据集上的工作。Yu等人[149]的研究探索了ViTs在眼底图像视网膜疾病分类中的适用性。他们提出了多实例学习增强型视觉转换器(MIL-VT),通过在ViT中添加一个即插即用多实例学习头来利用从单个补丁中提取的特征。

4.1.4 Self-supervised learning

Transformer的成功训练依赖于大规模的注释数据,而这些数据在实际的临床设施中很少可用。自我监督学习(SSL)的范例就是为了解决这个问题而创建的。自监督学习旨在通过转移相关无监督上游任务(即视觉概念学习)的知识,提高下游任务(例如分类、检测和分割)的性能,并使用未标记数据中的自包含信息预训练模型[155]。训练SLL ViTs的实践通常植根于在ImageNet上预训练模型,然后在目标医学图像数据集上进行微调。与CNN相比,这提高了VIT的性能,并实现了SOTA精度[156]。

Truong等人[152]的工作评估了医学图像中自我监督特征的可转移性。他们使用DINO(一种自我监督的ViT)对特征进行预训练。他们使用ViT作为主干,并与SimCLR和SwA V相比显示出其优越性。Park等人[40]提议使用公共的大规模CXR分类数据集对主干网进行预训练。然后将预训练主干模型提取的特征输入ViT诊断2019冠状病毒疾病。Jun等人[104]提出了一种自监督转移学习框架,该框架可以更好地表示三维体积图像中的空间关系,以方便后续任务。他们将三维体积图像转换为来自三个视图的二维图像切片序列,并将其输入到由卷积编码器和Transformer组成的预训练主干网络中。Transformer的预训练是通过屏蔽编码向量实现的,它充当SSL的代理任务。后续任务包括脑病诊断、脑年龄预测和脑肿瘤分割三维立体图像。他们还探索了3D医学图像的参数高效转移学习框架。Wang等人[151]收集了一个大型公共组织病理学图像数据集,对他们提出的混合CNNTransformer框架进行预训练。此外,他们还设计了令牌聚合和激励(TAE)模块,通过考虑所有令牌,进一步增强全球权重关注。Sriram等人【153】探索了Transformer在2019冠状病毒疾病预测中的应用。他们提出了一种多图像预测(MIP)模型,该模型将一系列图像以及相应的扫描时间作为输入。为了处理缺失的2019冠状病毒疾病图像,他们使用动量对比度学习,这是一种自我监督的方法来预训练特征提取网络。除了从X射线中提取的特征外,他们还提出了连续位置嵌入(CPE)来添加基于时间步长的信息。特征串联和连续位置嵌入被输入Transformer,以预测不良事件的可能性。

4.2 Model-improvement: quantification, acceleration and interpretation

有几项工作专注于医学成像领域内的模型效率。一个自然的想法是简化注意力机制,这在Transformer中需要最大的工作量。Gao等人[74]提出了一种有效的自我注意机制和位置编码,这显著降低了自我注意操作的复杂性,从O(n2)降低到接近O(n)。这绕过了Transformer需要大量数据才能了解视觉感应偏差这一障碍。他们的混合层设计将Transformer初始化为卷积网络,无需预训练。此外,Liu等人[43]提出的上述视觉观察者(VOLO)将标准VIT替换为执行内部自我注意机制的Linformer,从而将原来的时空复杂度O(n2)降低到更小的复杂度O(n)。我们在MIA中看到的试图解决模型效率问题的工作比在CV中看到的要少。然而,随着医学图像越来越大、越来越少,迫切需要在该领域解决这一问题。因此,我们希望在这个特定的研究方向上看到更多的作品。

4.3 Comparison with convolutional neural networks

在ViTs出现之前,卷积神经网络在CV中占主导地位,包括医学图像分析领域。为了提高基于CNN的分类器在自然图像和医学图像中的性能,人们投入了大量精力。为了研究基于CNN的方法是否仍然适用于VIT,提出了几项工作。同时,由于ViTs在多个基准测试中排名靠前,很多研究都集中在ViTs和CNN之间的性能比较上。

为了获得理想的Transformer性能,需要大规模数据集。然而,在医学图像分析领域,可用的图像和注释是有限的。为了缓解这一问题,许多方法在ViTs中采用卷积层来提高有限医学图像的性能,并利用转移学习和自监督学习的能力。Matsoukas等人[156]探讨了转移学习和自我监督学习机制是否有利于VIT。他们进行了几项实验,以比较CNN(即ResNet50)和ViT(即DEIT-S)使用不同初始化策略的性能:1)随机初始化权重,2)使用ImageNet预训练权重的转移学习,3)在目标数据集上的自我监督预训练,2)中的初始化相同。他们在APTOS 2019、ISIC 2019和CBIS-DDSM数据集上评估了这些方法。可以得出结论,标准程序,例如使用ImageNet预训练权重初始化,以及利用自我监督学习,可以弥合CNN和ViT之间的性能差距。Krishnamurthy等人[157]在CNN和ViTs中采用转移学习方案进行肺炎诊断。他们首先在ImageNet上对模型进行预训练,并在他们的私有数据集上微调分类器。然而,他们的比较是基于对冻结主干层的微调,这限制了适应目标域时特征提取的性能。Truong等人[152]评估了医疗成像任务中自我监督特征的可转移性。他们选择ResNet-50作为主干,并使用三种自我监督的方法(SimCLR、SwA V和DINO)对其进行预训练。DINO使用ViT作为主干,这一技术在很大程度上优于其他自我监督技术和监督基线。他们提出了一种模型不可知技术,即动态视觉元嵌入(DVME),将多种自监督学习方法的预训练特征与自我注意相结合。

对于多尺度细胞图像分类的任务,Liu等人[158]提出了一个实验平台来比较多种深度学习方法,包括CNN和ViTs。他们通过改变图像的内部细胞比率,验证了深度学习模型在标准和缩放数据上的性能。结果表明,包括ViTs在内的深度学习模型对宫颈细胞病理图像中内部细胞比率的变化具有鲁棒性。对于肩部植入物X射线制造商分类,Zhou等人[159]比较了各种模型的性能,包括传统的机器学习方法、基于CNN的深度学习方法和ViTs。结果表明,ViT在这些任务中表现最好,迁移学习显著提高了ViT。Altay等人[160]旨在利用MRI对AD进行早期临床前预测。他们将Transformer与基线3D CNN模型和3D反复视觉注意模型进行了比较,结果表明Transformer的准确度和F1分数最高。

总之,现有的研究并没有表明ViTs在所有情况下都优于CNN,尤其是在医学图像分析领域。因此,与CV中的方法类似,考虑到卷积的优点,最近的工作采用了构建混合模型。

5 CONCLUSION

Transformer正在改变计算机视觉领域。此外,在医学图像分析领域,使用Transformer的研究正在迅速发展。 然而,大多数Transformer-based的方法自然且简单地应用于医学成像问题,没有发生剧烈的变化。换句话说,先进的方法,例如弱监督学习、多模式学习、多任务学习和模型改进,很少被探索。此外,我们只看到少数关注模型一般问题的工作,例如并行化、可解释性、量化和安全性这些表明了医疗Transformer的未来发展方向

你可能感兴趣的:(深度学习,深度学习框架,经典论文阅读,深度学习,人工智能,计算机视觉)