TransFuse

方法

TransFuse_第1张图片

Transformer分支

将不同尺度的特征图 t 0 、 t 1 和 t 2 t^0、t^1和t^2 t0t1t2保存起来,之后与对应的CNN分支的特征图融合。

CNN分支

以基于ResNet的模型为例,模型通常有五个块,每个块对特征图进行两倍下采样。我们获取第 4( g 0 g^0 g0) 、3( g 1 g^1 g1) 和第2个模块( g 2 g^2 g2) 的输出,来与Transformer的结果融合。

BiFusion模块

通过下面的操作获得融合的特征表征 f i f^i fi,i=0,1,2
在这里插入图片描述
其中, ⨀ \bigodot 是矩阵对应元素相乘
通道注意力用来促进Transformer分支的全局信息;采用空间滤波器用于增强局部细节并抑制不相关区域,因为CNN的低级特征可能会带噪声;点积对来自两个分支的特征之间的细粒度交互进行建模。
为了生成最后的分割,所有的f通过门控注意力和跳跃连接结合起来,如下在这里插入图片描述

损失函数

分割预测由一个简单的头生成,它直接将输入特征图调整为原始分辨率,并应用卷积层生成M个图,其中M是类数。

你可能感兴趣的:(论文笔记,深度学习,人工智能,计算机视觉)