论文解析[8] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

发表时间:2021
论文地址:https://arxiv.org/abs/2102.04306
代码地址:https://github.com/Beckschen/TransUNet

文章目录

  • 1 摘要
  • 2 相关工作
  • 3 方法
    • 3.1 Transformer作为编码器
    • 3.2 TransUNet
  • 4 实验
  • 5 结论
  • 参考资料

1 摘要

在不同的分割任务中,U-Net已经成为一个取得巨大的成功的标准结构。由于卷积操作本身的局部性,U-Net在显式建模长期依赖性时有局限。Transformer是为序列到序列的预测设计的,是具有天生的全局自我注意力机制的结构,但也会因为不充分的低水平细节导致有限的定位能力。

在此论文中,提出了TransUNet,兼具了Transformer和U-Net的优点。一方面,Transformer可以对来自CNN特征图的标记化特征图像patch进行编码,编码为用于提取全局背景的输入序列。另一方面,解码器上采样编码后融合了高分辨率CNN特征图的特征,用以确保精确的定位。

我们认为,融合了U-Net恢复定位的空间信息来增强细节之后,Transformer可以作为图像分割任务的一个强大的编码器。

2 相关工作

融合CNN和自注意力机制

Transformer

3 方法

通过transformer的使用,将自注意力引入编码器。

论文解析[8] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation_第1张图片

3.1 Transformer作为编码器

图像序列化

首先将输入的图像变形为一个2D的patch序列,每个patch的大小为 P×P,数量为 N = H W P 2 N=\frac{HW}{P^2} N=P2HW

patch 嵌入

我们使用一个可训练的线性投影,将向量化的patch x p x_p xp 映射进一个D维的嵌入空间。为了编码patch空间信息,我们学习具体的加入了patch嵌入的位置嵌入来保留位置信息

在这里插入图片描述

E表示patch嵌入映射, E p o s E_{pos} Epos表示位置嵌入

Transformer编码器包括L层多头自注意力(MSA)和多层感知机(MLP),第 l 层的输出如下:

在这里插入图片描述
LN表示层标准化, z L z_L zL 表示编码后的图像表示。

3.2 TransUNet

对于分割的目的,一个直接的方法时使用简单上采样,将编码后的特征表示 z L ∈ R H W P 2 × D z_L∈R^{\frac{HW}{P^2}×D} zLRP2HW×D 变成全分辨率用于预测输出。为了恢复空间关系,编码后的特征应该首先要从 H W P 2 \frac{HW}{P^2} P2HW 转换为 H P × H P \frac{H}{P}×\frac{H}{P} PH×PH。我们使用1×1的卷积来把变形后的特征通道数减少为类别数目。然后再直接使用双线性上采样为全分辨率 H × W H×W H×W 作为最后的分割预测输出。

尽管将Transformer和简单的上采样结合已经产生了一个可以接受的表现,但这不是最优的用法。因为 H P × H P \frac{H}{P}×\frac{H}{P} PH×PH 通常小于原始图像的 H × W H×W H×W,因此结果会有细节上的损失(例如器官的形状和边界)。为了弥补损失,TransUNet将一个 CNN-Transformer 混合结构作为编码器,并且级联上采样器可以精确的定位。

混合CNN-Transformer作为编码器

我们选择这种设计因为1)它允许我们在解码路径中利用中等高分辨率CNN特征图;2)我们发现这种编码器比简单的Transformer编码器表现更好。

级联上采样器

我们引进了一个级联上采样器(CUP),它包括不同的上采样步骤。

我们可以看到CUP和混合编码器构成了一个u型网络,可以再不同分辨率下通过跳跃路径进行特征传播。详细的CUP结构和跳跃路径可以再图1(b)中找到

4 实验

论文解析[8] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation_第2张图片

5 结论

Transformer以带有强大的自注意力机制的结构而出名。在本论文中,我们提出了第一个对于Transformer用于医学图像分割的研究。为了充分发挥Transformer的能力,提出了TransUNet,不但可以通过将图像特征处理为序列来编码全局上下文信息,也可以通过u型结构的设计来利用低水平的CNN特征。作为一个相比基于FCN方法来说更加非主流的框架,TransUNet取得了更好的表现,对比于不同的方法(包括基于CNN的自注意力方法),

参考资料

https://blog.csdn.net/weixin_40096160/article/details/114194562

你可能感兴趣的:(#,论文阅读,深度学习,计算机视觉,人工智能)