【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation

原文:FEATURE FUSION ENCODER DECODER NETWORK FOR AUTOMATIC LIVER LESION SEGMENTATION

1.总体介绍

这篇论文主要提出了一个关于医学图像分割的新模型,用来实现肝脏病变区域的分割。目前用于医学分割的模型大多都是U-Net变体(U-Net的介绍很多这里不再赘述),利用跳接将encoder部分的高维特征用于decoder部分,能保留更多的信息,对于小数据集的任务十分有效。这里的跳接有可能是直接相加,也有可能是通道数的融合。

作者认为U-Net模型只是直接将高维特征融合到对应的decoder,没有有效使用每个级别的不一样的特征,所以他提出了一种Feature Fusion,在decoder的融合阶段不仅利用了对应encoder部分的高维特征,还利用了更深层的高维特征(看图比较好理解),而且还对这些特征做了一定的处理(注意力机制)。

2.网络模型

【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第1张图片
上图就是整个模型的一个简化结构,可以看出也是U形的,对比U-Net不同的就在于跳接时不是单纯复制裁剪融合,还要经过相应的处理。

Encoder部分比较简单,用在ImageNet上预训练后的ResNet50作为Encoder部分,把ResNet50分为了四层(0,1,2,3),提取四种级别的特征分别传入RCB部分,RCB部分见下图。
【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第2张图片
RCB是一个残差卷积结构,有两个3x3的卷积层,利用shortcut connection提取特征,这里应该是为了提取中级特征(?)来提高训练效果,但从整个网络来看两个卷积层没有改变通道数和尺度大小,代码没有开源我从RCB结构的前后部分推出来的。
【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第3张图片
上面是FF结构图,从第一张整体图可以看出,FF结构出现了三次,每一次的输入都不一样。最上面的FF结构融合了4层特征,中间的FF结构融合了当前层的输入特征及更高维的两层特征,最下面的FF结构只融合了最高维的两层特征。而FF结构从上图可看出,不同级别的特征,对应的处理也不一样。低维特征(当前对应的特征)后接一个包含跳接的SE结构,而高维特征要先经过3x3卷积和上采样再接包含跳接的SE结构。卷积和上采样是为了保持在和低维特征相加时,通道数和尺寸一样大,而SE结构不会改变通道数和尺寸,所以要添加卷积和上采样实现统一。SE结构通过学习自动获取每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

SE分为三个步骤 Squeeze、Excitation、Scale。Squeeze 操作进行特征压缩,将每个二维的特征通道变成一个实数,输出的维度和输入的特征通道数相匹配,如[c,h,w]变为[c,1,1],这个实数某种程度上具有全局的感受野。使用 global average pooling 作为 Squeeze 操作,然后使用两个全连接层和sigmoid实现Excitation,最后再利用 Scale 将归一化后的权重加权到每个通道的特征上。加全连接层是为了利用通道间的相关性来训练出真正的scale。简单来说,SE结构是用来学习特征,根据不同特征图对最终分割结果的贡献程度,对不同特征图赋予不同的权重,将有效的特征图权重提高,无效的降低。
【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第4张图片
DUC结构如上图,密集上采样块,是第一个解码块。U-Net网络的第一个解码块是通过反卷积将通道数减半,然后和编码器最后一层输出融合。这篇文章并没有采用直接融合,而是采用了Pixel Shuffle,如下图所示。
【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第5张图片
一个比较简单的理解就是将一个H × W的图像,通过牺牲通道数的方式变为rH x rW的图像。这篇论文代码没开源,我推测的是RCB结构输出仍然是16x16x2048,DUC结构里先经过一个卷积将其变为16x16x4096,然后经过PixelShuffle变为32x32x1024,正好与上一层特征经过RCB和FF结构后的尺寸一样大,可以直接相加(我推测RCB和FF层最终输出与输入保持通道数、尺寸不变)。
【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation_第6张图片
最后就是解码块,这里比较好理解,首先用1×1卷积层减少通道数,然后进行反卷积,最后用1×1卷积增加滤波器个数。当然最终的通道数仍然减半,因为反卷积那步长为2。

3.总结

整体模型其实挺复杂的,跑出来也明显感觉比较笨重,代码没开源所以很多细节也不清楚,但在跳接过程加个注意力机制这个点还挺好的,PixelShuffle我也是第一次听说,大致了解了SE结构,也算是有收获。

你可能感兴趣的:(【论文笔记】——Feature Fusion Encoder Decoder Network For Automatic Liver Lesion Segmentation)