TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记(小关键点记录)

笔者的研究方向即为低剂量CT去噪,这篇论文可以说是transformer在该领域的一次重要应用,欢迎大家在评论区一起讨论学习。


本文提出了一种基于无卷积T2T-ViT的编码器-解码器膨胀网络(TED-net),以丰富LDCT去噪算法家族。该模型没有卷积块,由一个带唯一transformer的对称编解码块组成。

PS:前置论文可以参考笔者的前两篇阅读笔记,包括:ViT、T2T-ViT。

介绍

作者在这部分并没有展示他的创新点,只是针对前人的优势和不足之处做了分析说明,在此不再赘述。

方法

        本文提出的模型如图所示,在编码部分,该模型包括Tokenization block(词语切分块)、Transformer Block(TB)、Cyclic Shift Block(循环位移块,CSB)、带膨胀的T2T块(T2TD)和不带膨胀的T2T块(T2T)。解码器部分包括T2T、T2TD、逆循环移位块(ICSB)和解码块。

TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记(小关键点记录)_第1张图片

 Tokenize block使用unfold(展开)从图像补丁中提取token,而DeToken block应用Fold将token转换回图像。TB包括一个典型的transformer块。CSB使用循环移位操作,ICSB使用逆循环移位。T2T合并了tokens到token块以增强tokenization,而T2TD在T2T tokenization过程中包括了扩展。最后的图像是通过从带噪的输入图像中减去模型残差输出得到的。

2.1噪声模型

        去噪分析论文都有的对去噪过程建立数学模型,没什么好说的,值得一提的是,本文提出的模型输出是残差图,即噪声图。

2.2 Transformer块

        在 Transformer Block (TB) 中,文中在两个 T2T 块之间的编码器和解码器阶段利用传统的转换器,其中包含多头自注意力 (MSA)、多层感知器 (MLP) 和残差连接,以提升其表达能力模块。 TB的输出与输入tokens 的大小相同。这里b是batch size,n是tokens的数量,d是token embedding维度。

2.3 Token-to-token Dilation Block

TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记(小关键点记录)_第2张图片

         作者在T2T模块中,将原本的类卷积操作用膨胀来替代,用以探索更大区域的关系并改进上下文信息融合(在笔者的理解中,transformer应该是无需考虑上下文信息的全局模型,那么这里的信息融合又该如何理解,暂时的理解是T2T分块后导致的块间内容不同的意思)。T2TD主要由reshape和soft split with dilation组成。

Reshape

        输入:上个阶段的tokens 

        转置:

        输出:

         其中 c=d和 h=w=\sqrt{n} 分别是特征图的通道c、高度h和宽度w。

Soft Split with Dilation

        输入:Reshape阶段输出的特征图I

        Soft Split:进行unfold(展开)操作retokenize(重新标记)输入I,这使得四维特征图 被转换成三维tokens 。具体来说这一操作,通过将几个相邻的tokens组合成一个unit 来减少tokens 的数量,与此同时,嵌入维度相应地增加了几个tokens连接在一起。

         Soft Split with Dilation:展开过程也可以用Dilation(膨胀)来捕获具有较长依赖性的上下文信息。 这使得四维特征图 被转换成三维tokens ,这其中,tokens总数:TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记(小关键点记录)_第3张图片(dilation, kernel, stride 是膨胀卷积的类似参数 )

 Cyclic Shift:

         在编码器网络中的重塑过程之后,文章使用循环移位来修改成形的特征图。特征图中的像素值以不同的方式组装,这将在模型中添加更多信息集成。然后,在对称解码器网络中执行逆循环移位,以避免最终去噪结果中的任何像素移位。下图展示了循环移位模块和逆循环移位模块。

TED-net: Convolution-free T2T-ViT-based Encoder-decoder Dilation network 阅读笔记(小关键点记录)_第4张图片

        循环移位和逆循环移位操作的结构通过融合不同的内核区域来丰富标记化过程。

实验结果

        实验设置:

        在编码器块中,文中的模型由三个软拆分阶段、两个变压器层和两个循环移位层组成,而在解码器块中,它包括三个benzhon具有折叠操作的反向软拆分阶段,两个变换器块和两个相应的逆循环移位操作。编码器和解码器之间还有一个额外的转换器层,以进一步结合更多的特征推断。三个展开/折叠操作的内核大小分别为 7×7、3×3、3×3,步长分别为 (2,1,1) 和膨胀 (1,2,1)。此外,编码器/解码器部分的令牌维度为256,两个循环移位层的像素数量为2。

        文中使用补丁数 4 进行训练,epoch 为 4000。采用 Adam 以最小化 MSE 损失,初始学习率为 1e-5。在评估阶段,文中将 512×512 图像分割成重叠的 64×64 块,并且只裁剪出模型输出的中心部分以聚合到最终的整体预测中,以克服边界伪影。

        此部分其他内容暂不做描述,感兴趣的读者可以自行阅读论文原文(2106.04650.pdf (arxiv.org))

你可能感兴趣的:(论文阅读,transformer,图像处理,计算机视觉)