[论文阅读] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

论文地址:https://arxiv.org/abs/2102.08005
发表于:MICCAI’21

Abstract

医学图像分割,这一众多临床需求的先决条件–已经被卷积神经网络(CNN)的最新进展大大促进了。然而,它在建模明确的长距离关系方面表现出普遍的局限性,而现有的解决方法,诉诸于建立更深的编码器和积极的下采样操作,导致了冗余的深度网络和局部细节的丢失。因此,分割任务等待着一个更好的解决方案,以提高全局上下文建模的效率,同时保持对低层次细节的有力把握。在本文中,我们提出了一个新的并行分支架构TransFuse,以解决这一挑战。TransFuse将Transformer和CNN以并行的方式结合在一起,全局依赖性和低层空间细节都能以更浅显的方式被有效捕捉。此外,还创建了一种新的融合技术–BiFusion模块,以有效地融合来自两个分支的多层次特征。广泛的实验表明,TransFuse在二维和三维医学图像集上取得了SOTA,包括息肉、皮肤病变、髋关节和前列腺的分割,参数明显减少,推理速度明显提高。

I. Motivation

与其余同时使用CNN与Transformer的工作类似,本文的出发点也是去结合CNN与Transformer各自的优势。

II. Network Architecture

[论文阅读] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation_第1张图片
我们来看这张图。右下角绿色框住的就是CNN编码分支,将输入图像送入一个卷积网络,得到1/4,1/8,1/16尺度下的各级特征;而左边橘色框住的就是Transformer编码分支,将输入图像送入一个Transformer,同样能得到1/4,1/8,1/16尺度下的各级特征。然后,将CNN与Transformer对应的特征送入BiFusion模块中进行融合处理,最终逐级送入decoder进行解码。

从这个角度看,本文所"提出的"模块就只有BiFusion这一个,因此后文将分析该模块如何融合Transformer与CNN特征。

III. BiFusion Module

[论文阅读] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation_第2张图片
其中 g i g^{i} gi表示卷积层的特征, t i t^{i} ti表示transformer提取的特征。这里做了一个有意思的区分,由于卷积特征相对而言处理全局上下文能力较弱,容易包含不相关区域,因此对卷积特征进行了空间注意力处理;而transformer特征相对而言容易缺乏局部细节,因此采用了通道注意力进行处理。而至于两者的交互,是通过将两个特征图直接相乘得到的(而不是进行channel-wise concat或者element-wise multiply)。

你可能感兴趣的:(杂文,划水)