Swin-Unet医学图像分割阅读总结

Swin-Unet

(2021.5.12)慕尼黑工业大学, 复旦大学, 华为(田奇等人)

论文:https://arxiv.org/abs/2105.05537

代码:https://github.com/HuCaoFighting/Swin-Unet

解读·:https://zhuanlan.zhihu.com/p/371976183

提出了Swin-Unet,它是用于医学图像分割的类似Unet的纯Transformer。标记化的图像块通过跳跃连接被馈送到基于Transformer的U形En-Decoder架构中,以进行局部全局语义特征学习。

Swin-Unet医学图像分割阅读总结_第1张图片

Swin-UNet由Encoder、Bottleneck、Decoder和跳跃连接组成。

  • 编码器 输入图像先进行patch partition,每个patch大小为4x4,输入维度为H/4 x W/4 x 48,经过linear embedding和后特征图尺寸为H/4 x W/4 x C,送入两个连续的Swin Transformer block,其中特征维度和分辨率保持不变。在patch merging进行下采样降低分辨率,将特征维度加倍。重复三次组成了编码器。

  • Bottleneck 用了两个连续的Swin Transformer block,这里为防止网络太深不能收敛,所以只用了两个block,在Bottleneck中,特征尺寸保持H/32 x W/32 x 8C不变。

  • 解码器 Swin-UNet解码器主要由patch expanding来实现上采样,作为一个完全对称的网络结构,解码器也是每次扩大2倍进行上采样,核心模块由Swin Transformer block和patch expanding组成。

  • 跳跃连接 跳跃连接将编码器的多尺度特征与上采样特征融合。将浅层特征和深度特征连接在一起,以减少下采样造成的空间信息损失。最后是一个线性层,所连接的特征的维数与上采样特征的维数保持相同。

  • Patch merging layer

    输入的patch分为4个部分,拼接在一起。这种处理使得特征分辨率由H/4 x W/4降为H/8 x W/8,由于拼接操作导致特征维增加4倍,再利用线性层,将特征维度降为原来的2倍。(与swin中相同。)

  • Patch expanding layer

    以解码器中第一个为例,在上采样之前,在输入特征(W/32×H/32×8C)上应用线性层,将特征维度增加到2×原始尺寸(W/32×H/32×16C)。然后,利用rearrange操作,将输入特征的分辨率扩展到2倍的输入分辨率,并将特征维度降小到输入维度的四分之一(W/32×H/32×16C→W/16×H/16×4C)。(Patch merging的逆操作)

你可能感兴趣的:(transformer,计算机视觉)