UTNet:一种用于医学图像分割的混合Transformer结构

目录

Title:UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation.

Abstract--摘要

Introduction

方法

自我注意力机制

高效自注意力机制

相对位置编码

网络结构

总结


Title:UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation.

Abstract--摘要

本文提出的UTNet将自注意力集成到卷积神经网络当中,用于增强医学图像的分割。UTNet在编码器和解码器模块应用自注意模块,以最小的开销捕获不同尺度下的长距离依赖性(长距离依赖性指的是在NLP领域一些文字的翻译,需要一些其他元素来补充使得意思完整,而这个需要词汇填充的位置和它们的填充物--这个填充物指的是能够推断出该词汇的语料。在空间上相距甚远。这就是所谓的长距离依赖性。)

本文提出了一种有效的自注意力机制和相对位置编码,还提出了一种新的自注意力解码器,用于从编码器中的跳跃连接中恢复丢失的细节信息。

Introduction

尽管卷积神经网络在医学图像分割领域中取得了很多的进展,但是这一固定的格式存在着两个固有的局限性。首先卷积仅从邻域像素收集信息,缺乏显式捕获长距离相关性的能力。其次,卷积核的大小和形状通常是固定的,因此它们无法适应输入内容。Transformer能够捕获长距离关联特征。它允许网络基于输入内容动态的聚合相关特征。

在本文中提出了一种U型混合变换网络:UTNet。这种方法集成了卷积强度和自关注策略。主要目标是应用卷积层来提取局部强度特征,以避免Transformer的大规模预训练,同时使用自注意力机制来捕获长距离关联信息。

网络架构遵循U-Net的标准设计,将每个分辨率(最高分辨率除外)的构建块的最后一个卷积替换为Transformer,为了提高分割质量,我们试图应用自注意力在高分辨率特征图上提取详细的长期关系。

方法

自我注意力机制

Transformer是建立在多头注意力机制的基础之上的,这个模块允许模型从不同的表示子空间联合推断注意力。来自多个头的结果被级联。然后用前馈神经网络进行变换。多头注意力的计算公式如下:

Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})V

上式中经过Softmax处理过后的变量被称为上下文聚合矩阵或者相似矩阵,将这个相似矩阵用作权重,以从中收集上下文信息。通过这种方式自注意力机制具有全局感受野,并且善于捕获长距离依赖。

高效自注意力机制

图像是高度结构化数据,高分辨率的特征图大多数像素共享相似的特征。所有像素之间的成对注意力的计算是非常低效且冗余的。提出的高效自注意力机制如下图所示:

UTNet:一种用于医学图像分割的混合Transformer结构_第1张图片

其主要想法是使用两个投影来投影低纬嵌入的键和值,此时自注意力机制的计算公式变为

 通过此操作可以有效的降低计算复杂度,对低维嵌入的投影可以是任何下采样操作,如平均/最大池化.

相对位置编码

我们通过添加相对高度和宽度信息来使用二维相对位置编码,使用像素i=(i_{x},i_{y})和像素j=(j_{x},j_{y})之间的相对位置编码的softmax之前的成对注意力成对注意力Logit

其中q_{i}是像素i的查询向量,k_{i}是像素j的key向量。r_{j_{x}-i_{x}}^{W}和分别是相对宽度和相对高度的可学习嵌入,相对高度和相对宽度可学习嵌入是在低纬投影之后计算的,包含相对位置编码的注意力机制公式

 

式子中的S_{H}^{rel},S_{W}^{rel} 是沿高度和宽度维度的相对位置矩阵,其计算公式为

网络结构

 本文提出的网络结构如下图所示:

UTNet:一种用于医学图像分割的混合Transformer结构_第2张图片

 本文结合卷积和自注意力机制的方法,混合架构可以利用卷积图像的归纳偏差来避免大规模预训练,以及Transformer捕获远程关系的能力。由于错误分割的区域通常位于感兴趣区域的边界。高分辨率的上下文信息可以在分割中发挥至关重要的作用。

我们将Transformer模块应用于编码器和解码器的每一个级别,以收集来自多个尺度的长期依赖关系

总结

本文提出了U型混合Transformer网络(UTNet)来融合卷积层和医学图像分割的自注意力机制,从而无需预训练,新颖的自我注意使我们能够在编码器解码器中扩展网络不同级别的操作,从而更好的捕获远程依赖关系。

你可能感兴趣的:(transformer,深度学习,计算机视觉)