TransFuse:Fusing Transformerd and CNNs for Medical Image Segmentation

TransFuse:Fusing Transformerd and CNNs for Medical Image Segmentation

Yundong Zhang, Huiye Liu, Qiang Hu
MICCAI 2021

Abstract

医学影像分割,是众多临床需求的先决条件,在卷积神经网络的最新进展下得到了显著发展。然而,它在建模显式长距离关系方面表现出了广泛的局限性。而现有的方案,依靠构建深度编码器和大量的下采操作,导致了网络冗余加深和局部细节的丢失。因此,分割任务需要一个更好的解决方案,以提高建模全局上下文的效率,同时保持对低等级细节的强大把握。在本文中,我们提出了一种新的并行分支架构TransFuse来解决这一挑战。TransFuse以并行的方式组合了transformer和cnn,其中全局依赖关系和低层空间细节都可以以一种更浅的方式有效地捕获。此外,我们提出了一种新的融合技术-BiFusion模块,可以有效地融合两个分支的多层次特征。大量实验表明,TransFuse在2D和3D医学图像集上取得了最新的最先进的成果,显著降低了参数,提高了推理速度。

Method

TransFuse:Fusing Transformerd and CNNs for Medical Image Segmentation_第1张图片

Transformer Branch

  1. 参考了DEIT
  2. 对transformer之后的结果先从图像尺寸reshape到【1,384,12,16】,再上采
  3. 这样的reshape+上采的方式肯定会损失很多细节信息,但是可能显著了目标的类别、轮廓等大体信息。

CNN Branch

  1. 使用了ResNet作为CNN的分支
  2. 把特征逐步下采样到1/32,结合transformer,既能获得全局特征,又能提取丰富的局部特征
  3. 可以替换为其他的卷积网络

BiFusion Branch

  1. 为了有效地结合CNN和transformer的编码特征
  2. Channel Attention:应用了SE- Block,为了传播从transformer分支获取的全局信息
  3. Spatial Attention:参考了CBAM block作为空间滤波器,来增强局部细节和抑制不相干的区域,例如低层次的CNN特征会存在噪声
  4. Product,矩阵点乘,对两个分支的特征之间的细粒度交互进行建模
  5. 利用attention-gate(AG)来生成最终的分割结果

Loss Function

  1. 添加了对transformer分支和第一支融合分支的深监督
  2. 训练loss算的是三个监督损失的总和

Problem

  1. 论文对模型的每个模块的意义、用法没有详细说明,或者说不够充分。
  2. 论文中针对的是单张2D医学影像进行分割,现实中,影像数据通常是一组多张的,能否向3D分割方向发展?
  3. 3D的CNN网络很多,那么组合3D的transformer后能否带来提升?
  4. 作者对transformer之后得到的特征直接reshape到【12,16】的尺寸,是否会带来大量信息丢失?

你可能感兴趣的:(transformer,深度学习,计算机视觉)