医学图像分割其实是一个很宽泛的概念,不可否认的是,U-Net[1]对于促进医学图像分割领域的发展起着至关重要的作用。直至今天,许多公开发表的文献仍然会以U-Net作为基础网络。本文将为大家重点梳理下医学图像分割的趋势是什么?在开始之前,可以先理解这个概念:
医学图像分割 = 医学影像 + 图像分割
本文回答将重点围绕着这两点进行展开。
医学影像是临床诊断的重要辅助工具,医学影像数据占临床数据的90%,因此,充分挖掘医学影像信息将对临床智能诊断、智能决策以及疾病预防起到至关重要的作用。随着深度学习的兴起,利用卷积神经网络进行医学影像分析已渐渐成为主流。
X-ray:X射线成像
Ultrasound:超声成像
Positron emissions tomography, PET:正电子发射断层扫描成像
Computed tomography, CT:计算机断层扫描成像
Magnetic Resonance Imaging, MRI:磁共振成像
如上所示,医学成像的方式有多种。然而,受成像设备、采集时间以及环境外部光照等各种内部外环境因素的限制,在医学成像的过程中不可避免地会受到噪声、伪影等各种因素的影像。因此,为了获得相对干净的训练样本,通常需要对采集到的图像进行一些相应的操作。
基于深度学习的医学图像降噪主要应用在低剂量的CT图像当中。早期的降噪方法主要基于Auto-Encoder即自编码器,通过Encoder和Decoder从噪声图像中学习无噪图像。相对于传统的降噪方法来说,此类方法的性能得到了显著提升,但是其优化方式是以复原低剂量CT图像和正常剂量的CT图像之间的均方误差最小化为优化目标,这会导致降噪后的图像出现纹理缺失和细节模糊等问题。为了解决这一问题,有人采用了基于生成对抗网络的WGAN模型进行降噪。如早期的WGAN-VGG网络通过引入感知损失,采用WGAN进行降噪处理,最后再结合Wasserstein距离和感知损失提高降噪图像与真实图像的相似度。更进一步的,SMGAN则结合了多尺度结构损失和L1范数作为损失函数进行优化,同时利用相邻切片之间的信息降噪取得了更优异的结果。虽然SMGAN利用了gradient penalty解决了GAN网络模型训练不稳定的问题,但同时会减弱网络的表达能力。为了解决这个问题,LS-GAN通过引入结构相似度和L1范数损失来提高降噪能力,其中生成器负责学习噪声,降噪图像为生成器的网络输入与网络输出的相减结果,以此来进一步的提高降噪的效果。
可以看出,现有的大多数方法都是在利用深度学习相关技术(AE、GAN)进行图像降噪,这些方法属于监督学习算法,即需要同时到利用到有噪图像和无噪图像进行训练,学习出噪声的类型;或者通过学习两者之间的关系进而实现图像降噪。然而,以上方法仍然具有一定的局限性,因为在某些临床应用当中,我们很难获得真实的无噪图像。因此,作为改进方向的点,采用无监督或者自监督的方法,仅利用有噪图像实现医学图像的降噪将是未来的发展趋势。
高分辨率的医学图像可以为临床诊断提供更多细节,然而受采集设备的限制,实际上很难获得。因此,有许多的研究是关于利用DL技术对低分辨率的医学图像进行高分辨率的重建。与自然图像不同,医学图像的重建不仅需要在图像切片平面上进行,还需要再切片之间进行。现有的大多数方法大都是利用在自然图像上已有的技术然后再将其应用到医学图像上,这些方法大都需要样本对匹配(低分辨率和对应的高分辨率)方能通过网络进行训练,通常是采用下采样的方式来获取。然而,由于不同模态之间的医学成像其成像原理各不相同,这会导致样本对之间的对应关系也不尽相同。采用这种方式很可能与实际采集中低分辨率图像与高分辨率图像的对应关系不相符,进而导致重建出来的图像毫无意义。因此,作为改进方向的点,如何构建符合实际的高/低分辨率图像样本对是未来基于深度学习技术进行超分重建的关键。
临床上医学图像合成主要有两个目的。其一,扩充数据集,以获得大量样本图像以供模型训练,从而提高临床诊断与预测的准确度。常规的数据扩充方法主要有旋转、平移、裁剪、加噪、仿射变换等方式,然而这种无法满足数据多样性的需求。其二,模拟成像。由于不同模态的医学图像可以提供不同的信息,充分利用多模态信息有助于提高临床诊断精度。此外,利用图像合成技术还能够帮助大多数不具备先进成像设别的医院及科研机构获取获取到一些稀缺的影像数据。现有的大多数合成算法大都是基于GAN模型来实现的,如DCGAN生成了3类肝损伤(即囊肿、转移酶、血管瘤)的合成样本,提高了肝病分类的精度,不过其仅能合成分辨率较低的图像。为了提高医学图像合成的质量,有学者基于拉普拉斯金字塔的思想提出了LAPGAN,利用尺度逐渐变化来生成高分辨率的皮肤病变图像,该方法生成的图像可以有效地提高皮肤病分类的精度。此外,基于PGGAN的网络在高分辨率图像合成方面也取得了不错的效果,其能够合成分辨率为1280×1024的乳腺钼靶X光图像。因此,作为改进方向的点,可以多多关注下有哪些最先进的GAN技术,可用于生成更高质量和更高分辨率的合成图像。
医学图像分割是计算机辅助诊断的关键步骤,是进行感兴趣区域定量分析的前提。现如今大多数医学图像分割模型都是基于自然图像分割技术扩展过来的,目前比较主流的网络框架有CNN、FCN、U-Net以及GAN。
对3D的医学图像进行训练往往需要耗费极其漫长的时间,可以考虑采用2.5D CNN的方法,即分别在横断面、失状面、冠状面上分别进行投影,然后再利用2D卷积进行分割,在节约计算成本的前提下,充分利用三维空间的邻域信息来提高分割精度。
全卷积神经网络是深度学习技术应用到图像语义分割任务上的里程碑。其利用CNN进行特征提取,并利用上采样操作粗略地获得语义分割结果图。为了得到更加细化的分割结果,进一步地采用了跳跃连接的思想将底层的空间信息和高层的语义信息相结合,以提高分割精度。
基于GAN网络的医学图像分割,起初的应用是利用生成器产生分割结果,然后再利用判别器来细化分割结果。后续也有许多学者利用GAN来扩展样本数据集,以提高网络分割的精度。
U-Net自2015年赢得了ISBI 2015细胞追踪挑战赛和龋齿检测挑战赛的冠军后,从此一发不可收拾。其基于编码器-解码器结构(对应原文的收缩路径和扩张路径),并应用长距离跳跃连接结合来自底层的细节,有效的弥补了因下采样操作过程中空间信息缺失,帮助网络恢复更加精确的定位,这对于医学图像分割、遥感图像分割以及抠图这种对细节非常看重的密集型分割任务来说是至关重要的。当然U-Net也有很多可以改进的地方,下面列举一些关键的突破口:
原始的U-Net通过堆叠常规卷积来进行提取特征。现如今已经提出了许多特征提取能力更强的卷积模块。此外,我们也可根据自己的任务进行设计,考虑的要点是如何在保证时间或空间复杂度的情况,尽可能地增强特征的表示能力,其中最核心的便是感受野和信息的有效利用。
在成像过程中,受采集设备或光照等因素的影响,不可避免的会引入许多背景噪声。但网络引入长距离跳跃连接操作时便会引入许多噪声。为了解决这个问题,一方面可以从数据本身出发,进行去噪处理,通过一些CLAHE、Gamma增加等操作来增强对比度和抑制噪声,或者对于一些肉眼可见的噪声可以直接通过crop操作来去除。另一方面可以从模型角度考虑,比如借助光流的思想通过高级特征的语义信息来校准低级特征的分布,又或者通过一些类似于注意力的方式来进行背景抑制,如Attention-UNet为代表的模型使用注意力的方法可以对前景特征进行加权输出使模型更加关注,另一方面降低背景特征的权重,不失为一种良好的解决方案。
旨在融合尽可能多的信息来获得更具有判别力的特征表示。一般可分为模块内的特征融合以及模块间的特征融合。模块内部如Residual block和Dense block,形式上可以看成是将前一级的信息和后一级或多级的信息融合起来,以加强信息的传递。模块间的融合方式可以参考深监督的形式,利用到了多层级的融合,来学习更多的语义表示,获得更加精确化的分割结果。再比如UNet++,直接再编解码器之间进行多层级融合。最后,使用HRNet作为基础网络,通过将高、低分辨率特征的信息进行有效的融合,可以获得更好的效果。
除了以上所列举的常规方法进行图像分割外,建议小伙伴们可以多尝试结合最近更热门的方向。下面列举几个比较有潜力的研究方向及代表性工作:
A Survey on Contrastive Self-supervised Learning
Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
Self-supervised Learning: Generative or Contrastive
Exploring Cross-Image Pixel Contrast for Semantic Segmentation
Contrastive learning of global and local features for medical image segmentation with limited annotations
Transunet: Transformers make strong encoders for medical image segmentation
CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation
Convolution-Free Medical Image Segmentation using Transformers
Transfuse: Fusing transformers and cnns for medical image segmentation
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
先到先得。
本文从医学影像和图像分割来阐述医学图像分割领域的研究发展状况,同时也深入剖析U-Net及其变体模型的一些特性,最后再给出更有代表性的研究方向。如果此时的你在科研道路上茫然无措,可关注公众号CVHub,回顾我们的往期文章,同时也强烈推荐加入CVHuber学术交流群,与大家一起探讨磕盐之趣。
[1]
https://arxiv.org/abs/1505.04597
CVPR和Transformer资料下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看