Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

摘要

卷积神经网络因为其卷积核的固有属性,其在远程建模方面存在着较大的问题。这可能导致对可变大小的肿瘤进行分割时存在不足。另一方面,Transformer在多个领域在捕获远程依赖信息方面表现出了出色的能力。

本文提出了一个新的分割模型,称为Swin UNETR,具体来说,3D脑肿瘤语义分割被重新定义为一个序列到序列的预测问题,其中多模态输入数据被投影到一个1D嵌入序列当中,并用作分层Swin Transformer的输入作为编码器。Swin Transformer编码器利用移位窗口计算自注意力,以5种不同分辨率提取特征,并通过跳跃连接在每个分辨率上连接到基于FCNN的解码器。

在本文中提出的网络称为Swin UNETR结构。它利用一个带有Swin Transformer的U型网络作为编码器,并通过跳跃连接将其以不同分辨率连接到基于CNN的编器

Swin UNETR网络结构

网络结构如下图所示:

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images_第1张图片

编码器

模型的输入X\epsilon R^{H*W*D*S}是一个分辨率为(H',W',D')尺寸为H'*W'*D'*S的Token。首先利用一个个Patch创建一个尺寸为3D Token并将其投影到维度为C的嵌入空间中。

具体来说,利用大小为M*M*M的窗口,在Transformer编码器给定层l处,将3D Token均匀的划分为

区域。随后在l+1层中,分区的窗口域位移为体素,在随后的l层和l+1层,输出计算公式记为

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images_第2张图片

Swin UNETR的编码器有4级,每级包含两个Transformer块。因此编码器中总层数为L=8。

解码器

 在解码器使用上采样不断恢复图像的分辨率,最终通过一个1*1*1卷积层和Sigmod激活函数计算出最终的分割预测结果。

损失函数

在本文中使用Soft Dice loss,它以体素方式进行计算,公式如下:

总结

本文提出的Swin UNETR,它是一种利用多模态MRI图像的对脑肿瘤进行语义分割的新架构,其具有U型的网络结构,它使用Swin Transformer作为编码器,使用基于CNN的解码器,通过不同分辨率的跳跃连接连接到编码器。

你可能感兴趣的:(深度学习,计算机视觉,人工智能)