【论文复现】SwinUnet在遥感数据中的实验效果

【论文阅读】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

文章目录

  • 【论文阅读】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
    • 一、介绍及作用
    • 二、具体模型
      • 2.1 Swin-Unet的总体架构
      • 2.2 Swin Transformer block
      • 2.3 Decoder
    • 三、实验结果
      • 3.1 数据集
      • 3.2 复现结果

  Swin-Unet:最早用于医学图像分割的类Unet-Transformer ,使用相应的Swin-Unet在遥感数据集进行相应的测试

  卷积神经网络(cnn)在医学图像分析方面取得了里程碑,提出了Swin-Unet,它是一个类unet的纯Transformer

相应特点:

  • 标记化的图像patch被输入到基于transformer的Ushaped编码器-解码器架构中
  • 具有跳跃连接
  • 局部全局语义特征学习

  Swin Transformer作为编码器来提取上下文特征,设计了一种基于对称Swin Transformer 的补丁扩展层解码器

  对特征图进行上采样操作,恢复特征图的空间分辨率

  纯基于Transformer 的u型编码器-解码器网络优于全卷积或Transformer 与卷积结合的方法


一、介绍及作用

  Swin-Unet是第一个纯基于transformer的u型架构,由编码器、bottleneck、解码器和跳过连接组成,使用bottleneck 的网络结构很方便改变维度。灵活设计网络,并且减小计算量。

  编码器、bottleneck和解码器都是基于Swin Transformer区块构建的

相应操作:

  • 解码器利用斑patch扩展层对提取的上下文特征进行上采样
  • 多尺度特征进行跳跃连接融合
  • 恢复特征映射的空间分辨率

作用:

  • 跳过连接的对称编码器-解码器架构,实现了从局部到全局的自关注;在解码器中,全局特征被上采样到输入分辨率
  • 设计了一种patch扩展层,在不使用卷积和插值运算的情况下实现上采样和特征维的增加
  • 对于Transformer,跳过连接也是有效的,构造了一个纯基于Transformer的带有跳过连接的u型编码器-解码器架构



二、具体模型

2.1 Swin-Unet的总体架构

【论文复现】SwinUnet在遥感数据中的实验效果_第1张图片

相应组成部分:

  • 编码器
  • bottleneck
  • 解码器
  • 特征连接skip connections

具体操作:

  • 图像分割成不重叠的patch, patch大小为4 × 4,将输入信息转换为序列嵌入

  • patch token通过多个Swin Transformer块和patch合并层生成分层的特征表示

  • patch merge层负责降采样和增维

  • Swin Transformer块负责特征表示学习

  • patch Expanding执行上采样

  • 最后使用最后一层patch展开层进行4×上采样,将特征图的分辨率恢复到输入分辨率

跳跃式连接的目的是弥补了下采样造成的空间信息丢失

2.2 Swin Transformer block

Swin Transformer block是基于移位窗口构造的

具体组成:

  • LayerNorm (LN)层
  • W-MSA or SW-MSA
  • 残差连接
  • 2层MLP

【论文复现】SwinUnet在遥感数据中的实验效果_第2张图片

Encoder

  • 分辨率为H/4 × W/4的c维标记化输入输入到两个连续的Swin Transformer块中进行表示学习
  • patch merge层将减少token数量(2× downsampling),
  • 并将特征维数增加到原始维数的2×
  • 重复三次

  Transformer块构造瓶颈来学习深度特征表示。在Bottleneck,特征维数和分辨率保持不变

2.3 Decoder

  解码器中使用patch Expanding对提取的深层特征进行上采样。patch Expanding将相邻维度的特征图重塑为更高分辨率的特征图(2×上采样),并相应地将特征维数降低到原维数的一半

  重排操作将输入特征的分辨率扩大到输入分辨率的2倍S

【论文复现】SwinUnet在遥感数据中的实验效果_第3张图片

  但是换个问法哈,有必要加这个Swin Transformer块吗,本质上都是对其进行上采样,是为了保持结构对称吗

Skip connection的作用:

  • Skip connection用于融合编码器的多尺度特征与上采样特征
  • 浅层特征和深层特征拼接在一起
  • 减少了下采样造成的空间信息损失
  • 线性层,连接特征的维数保持与上采样特征的维数相同

  在原始的论文中,使用了ImageNet上预训练的权重用于初始化模型参数,在自己的使用中并没有进行预训练操作

  基于transformer的模型的性能受到模型预训练的严重影响。论文中,我们直接使用ImageNet上Swin Transformer]的训练权值来初始化网络编码器和解码器,这可能是一种次优方案



三、实验结果

3.1 数据集

Vaihingen Dataset

  包含33张由先进机载传感器采集的真正射影像(TOP)图像,每个TOP图像都有红外(IR)、红色®和绿色(G)通道。

相应参数:

  • 图像被标记为sic类别
  • 11张图像用于训练(图像id: 1、3、5、7、13、17、21、23、26、32和37)
  • 5张图像用于测试(图像id: 11、15、28、30和34),
  • 裁剪为256 × 256

Potsdam Dataset

  有38个相同大小的patch (6000 × 6000),都是从高分辨率TOP提取

相应参数:

  • 数据集进行了六个类别的标注,用于语义分割研究
  • 每张图像都有三种通道组合,即IR-R-G、R-G-B和R-G-B- ir
  • 使用14张带有R-G-B的图像进行测试
  • (图像id: 2_13, 2_14, 3_13, 3_14, 4_13, 4_14, 4_15, 5_13, 5_14, 5_15, 6_14, 6_15, 7_13)
  • 其余24张带有R-G-B的图像进行训练
  • 我们将这些原始图像切割为256 × 256

3.2 复现结果

【论文复现】SwinUnet在遥感数据中的实验效果_第4张图片

实验具体参数:

  • 动量项为0.9,权重衰减为1e−4
  • SGD优化器
  • 初始学习率设置为0.01
  • 批处理大小设置为8
  • 最大epoch为100

  参考论文中的精度为为best_miou为0.58,复现效果为0.56,属于在误差范围里面,这里只采用了Vaihingen Dataset,来进行相应的复现

你可能感兴趣的:(深度学习,计算机视觉,神经网络)