Swin-Unet: Unet-like Pure Transformer forMedical Image Segmentation(用于医学图像分割的纯U型transformer)

本文的翻译是参考的:[Transformer]Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation_unet-like puretransformer-CSDN博客

方便自己学习

摘要:

在过去的几年中,卷积神经网络(cnn)在医学图像分析方面取得了里程碑式的进展。特别是基于u型结构和跳跃连接的深度神经网络在各种医学图像任务中得到了广泛的应用。然而,尽管CNN取得了优异的性能,但由于卷积运算的局域性,它不能很好地学习全局和远距离的语义信息交互。在本文中,我们提出了swin - unet,这是一个类似unet的纯医学图像分割变压器。

将标记化后的图像片段输入到基于transformer的U型编码器-解码器架构中,并使用跳过连接进行局部全局语义特征学习。具体来说,我们使用带移位窗口的分层Swin Transformer作为编码器来提取上下文特征。设计了一种带补丁扩展层的对称Swin变压器解码器进行上采样操作,恢复特征图的空间分辨率。在输入输出直接下采样和上采样4倍的情况下,对多器官和心脏分割任务的实验表明,基于纯变压器的u型编码器-解码器网络优于全卷积或变压器与卷积结合的方法。

1 介绍

得益于深度学习的发展,计算机视觉技术在医学图像分析中得到了广泛的应用。图像分割是医学图像分析的重要组成部分。特别是,准确、鲁棒的医学图像分割在计算机辅助诊断和图像引导临床手术中发挥着基石作用[1,2]。

现有的医学图像分割方法主要依赖于U型结构的全卷积神经网络[3,4,5]。典型的U型网络,U-Net[3],由具有跳跃连接的对称编码器-解码器组成。在编码器中,使用一系列卷积层和连续下采样层来提取具有大感受野的深层特征。然后,解码器将提取的深度特征上采样到像素级语义预测的输入分辨率,并将来自编码器的不同尺度的高分辨率特征通过跳跃连接进行融合,以减轻下采样造成的空间信息损失。凭借如此优雅的结构设计,U-Net在各种医学成像应用中取得了巨大成功。遵循这一技术路线,已经开发了许多算法,如3D U-Net[6]、Res-UNet[7]、U-Net++[8]和UNet3+[9],用于各种医学成像模式的图像和体积分割。这些基于FCNN的方法在心脏分割、器官分割和病变分割中的优异性能证明了CNN具有较强的学习判别特征的能力。

虽然上述CNN模型已经取得了优异的性能,但仍然无法满足临床应用的精度。鉴于CNN只能较好的提取局部特征,很难同时学习到全局和长程的语义信息。在这方面,一些研究通过使用空洞卷积、自注意力机制、空间金字塔模型等来进行改善,但仍然无法有效的捕捉长程关联。受Transformer在NLP领域中的启发,目前研究人员整将Transformer迁移到计算机视觉领域。ViT被提出来执行图像识别任务和图像处理成2D Patch序列并嵌入位置信息后送入Transformer,并且在大规模数据集上预训练后迁移至其他视觉任务,取得了与CNN模型相媲美的性能。

除此之外,DeiT还验证了Transformer在中型数据集上训练后,通过知识蒸馏可以使得模型更具鲁棒性。而Swin-Transformer则是在目标检测、图像分类和图像分割任务中均达到了SOTA。以上研究均证明了Transformer应用于视觉任务的巨大潜力。
受Swin Transformer启发,本文提出了Swin-UNet.据我们所知这是第一次搭建纯Tra

你可能感兴趣的:(transformer,深度学习,人工智能,1024程序员节)