目录
摘要
现有基于Transformer模型缺点
缺点改进办法
算法
现有的基于变压器的方法所面对的挑战
架构
类感知Transformer的结构图
编码器模块
类感知转换器模块
改进
结论
(1)由于原始的符号化方案,无法捕捉到图像的重要特征;
(2)模型只考虑单尺度特征表示,存在信息丢失问题;
(3)如果不考虑丰富的语义上下文和解剖纹理,模型生成的分割标签映射不够准确。
本文提出了一种新型的生成对抗变换器Castformer用于二维医学图像分割。 首先,利用金字塔结构构造多尺度表示和处理多尺度变化。 然后,设计了一个新的类感知转换器模块,以更好地学习具有语义结构的对象的判别区域。 最后,我们使用了一种对抗训练策略,提高了分割的准确性,相应地允许基于变压器的鉴别器捕获高层语义相关的内容和底层解剖特征。
(1)模型输出的是单尺度、低分辨率的特征表示;
(2)以往的工作主要采用标准的标记化方案,将图像硬拆分成16×16的图像块序列,对于下游的密集预测任务,可能无法捕捉到固有的目标结构和细粒度的空间细节;
(3)与标准卷积相比,变压器结构需要网格结构,因此缺乏对包含感兴趣对象而不是不感兴趣背景的区域进行局部化的能力;
(4)现有的方法通常不能保证性能,不能同时捕捉像素之间的全局和局部上下文关系。
给定输入图像,类似于Transunet的结构,我们提出的生成器网络G(称为Catformer)由四个关键部件组成:编码器(特征提取器)模块、类感知转换器模块、转换器编码器模块和解码器模块。 如图所示,我们的生成器有四个级,有四个并行子网络。 所有阶段共享一个类似的体系结构,其中包含一个补丁嵌入层、类感知层和LI转换器编码器层。
Castformer由一个基于变压器的发生器(即Catformer)和一个鉴别器组成。使用ResNet作为特征提取网络以得到多尺度特征图,并将多尺度特征图作为输入,以此来解决传统Transformer中单尺度的问题。这里共得到4个不同尺度的特征图,分别为
类似于Transunet架构,CATformer由四个关键组件组成:编码器模块,类感知的transformer模块,transformer编码器模块和解码器模块。所有阶段共享一个类似的体系结构,其中包含一个patch嵌入层,类感知层和 Transformer编码器层。
给定特征映射f1,我们通过将它们与最后一步估计的偏移向量相加来迭代更新其采样位置,该偏移向量可以表述如下:
其中ST和OT是第t步的采样位置和预测偏移向量。 具体地说,在规则间隔的采样网格处初始化s1。 第i取样位置SI1定义如下:
我们将采样函数设置为双线性插值,因为它对采样位置st和输入特征映射fi都是可微的。 我们对采样位置的当前位置嵌入、初始采样的令牌和最后一步的估计令牌进行元素相加,然后我们可以获得每一步的输出令牌:
其中wt∈RC×2是将St嵌入到位置嵌入St∈RC×(n×n)的可学习矩阵,(Ⅵ)是元素加法。 Transformer(·)是Transformer编码器层,我们将在下面的段落中展示。 我们可以计算估计的采样位置偏移如下:
其中θt(·)∈R2×(n×n)是估计的采样偏移向量的可学习线性映射。
采用CNN-Transformer混合模型设计,而不是使用40卷积层的纯Transformer来生成多尺度特征映射。 这样的卷积杆设置提供了两个优点:(1)使用卷积杆有助于变压器在下游视觉任务中表现得更好[62,63]; (2)它提供了高分辨率特征映射和并行的中分辨率和低分辨率特征映射,以帮助增强更好的表示。
CAT模块在很大程度上受到了最近在图像分类方面取得的成功的启发,但不同之处在于:
(1)本文删除了视觉转换器模块,以减少计算量和内存占用;
(2)本文使用了4个独立的变压器编码器模块(TEM),这将在下面介绍;
(3)本文在多尺度表示上引入M个CAT模块,以允许解剖特征的上下文信息传播到表示中。 本文的类感知转换器模块是一个迭代优化过程。 特别地,应用类感知转换模块得到了令牌序列IM,1∈RC×(N×N),其中(N×N)和M分别是每个特征映射上的样本数和总迭代数。
新颖的网络架构:本文首次尝试使用基于变压器的架构来构建一个用于二维医学图像分割任务的GAN。
更好地理解内部工作:使用类感知转换器模块逐步学习不同的上下文表示更有效,从而产生更准确和鲁棒的模型,更好地应用于各种下游医学图像分析任务。
显著的性能改进
本文介绍了Castformer,一种简单而有效的生成对抗变换器,用于二维医学图像分割。 其关键洞察是集成多尺度金字塔结构,捕捉丰富的全局空间信息和局部多尺度上下文信息。 此外,Castformer还受益于我们提出的类感知转换器模块,以渐进和有选择地学习对象的有趣部分。 最后,采用生成器-鉴别器的设计,提高了分割性能,并相应地使基于变压器的鉴别器能够捕获低级解剖特征和高级语义。 综合实验表明,我们的Castformer在三个流行的医学数据集上的性能明显优于以前的最先进的数据集。 我们进行了广泛的分析来研究我们方法的鲁棒性,并对医学领域中所需的特性(即透明度和数据效率)形成了更详细的理解。