作者简介: 大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。公众号:GoAI的学习小屋 ,免费分享书籍、简历、导图等资料,更有交流群分享AI和大数据,加群方式公众号回复“加群”或➡️点击链接。
专栏推荐: 目前在写一个CV方向专栏,后期会更新不限于目标检测、OCR、图像分类、图像分割等方向,目前活动仅19.9,虽然付费但会长期更新且价格便宜,感兴趣的小伙伴可以关注下,有擅长CV的大佬可以联系我合作一起写。➡️专栏地址
学习者福利: 强烈推荐一个优秀AI学习网站,包括机器学习、深度学习等理论与实战教程,非常适合AI学习者。➡️网站链接。
技术控福利: 程序员兼职社区招募!技术范围广,CV、NLP方向均可,要求有一定基础,最好是研究生及以上或有工作经验,也欢迎有能力本科大佬加入!群内Python、c++、Matlab等各类编程单应有尽有, 资源靠谱、费用自谈,有意向者直接访问➡️链接。
导读:本系列主要面向计算机视觉目标检测、图像分割及OCR等领域进行竞赛总结,本文为第二篇,主要介绍图像分割领域知识,分别从概述、开源框架、模型选择、常用Tricks等方面展开介绍,主要面向深度学习CV方向同学学习,希望大家能够多多交流,欢迎订阅本专栏,如有错误请大家在评论区指正,如有侵权联系删除。同时也欢迎大家加入文章最上方交流群,群内将分享更多大数据与人工智能方向知识资料,会有一些学习及其他福利!
图像分割通过给出图像中每个像素点的标签,将图像分割成若干带类别标签的区块,可以看作对每个像素进行分类。图像分割是图像处理的重要组成部分,也是难点之一。随着人工智能的发展,图像分割技术已经在交通控制、医疗影像和人脸识别等多个领域获得了广泛的应用。
图像分割是预测图像中每一个像素所属的类别或者物体。基于深度学习的图像分割算法主要分为两类:
为图像中的每个像素分配一个类别,如把画面中的所有物体都指出它们各自的类别。
与语义分割不同,实例分割只对特定物体进行类别分配,这一点与目标检测有点相似,但目标检测输出的是边界框和类别,而实例分割输出的是掩膜(mask)和类别。
飞桨的PaddleSeg图像分割套件如同一个工具箱一样,涵盖了高精度和轻量级等不同方向的大量高质量分割模型,并提供了多个损失函数和多种数据增强方法等高级功能,用户可以根据使用场景从PaddleSeg中选择出合适的图像分割方案,从而更快捷高效地完成图像分割应用。
PaddleSeg的主要特点包括4点:一是提供了50+的高质量预训练模型。二是提供了模块化的设计,支持模型的深度调优;三是高性能计算和显存优化;四是同时支持配置化驱动和API调用两种应用方式,兼顾易用性和灵活性。
PaddleSeg支持多进程异步I/O、多卡并行训练、评估等加速策略,结合飞桨核心框架的显存优化功能,可大幅度减少分割模型的训练开销,让开发者更低成本、更高效地完成图像分割训练。
PaddleSeg提供了配置化驱动和API调用两种应用方式,配置化驱动比较简单、容易上手,API调用支持更加灵活地开发。
MMSegmentation利用注册器和config(配置文件),实现了两大优点:可拓展性和易用性。dataset,pipeline(这里特指数据的预处理流程)和model在定义的过程中都使用了注册器类。若要添加新的类,只要在定义类的时候使用注册器类,就能自动将新实现的类添加到字典中,这个字典保存了已定义的模型、数据集等,字典的键为类名,值为对应的类。
用户可以只通过配置文件,来修改或添加数据集、预处理流程、网络模型和训练流程。
具体流程可参考:https://zhuanlan.zhihu.com/p/520397255
除上述提到的 Paddle系列和OpenMMlab提供的开源框架外,还有一些其他的分割框架,具体介绍如下:
地址:https://github.com/SegmentationBLWX/sssegmentation
SSSegmentation 是一个基于 PyTorch 的开源强监督语义分割工具箱。仓库地址:https://github.com/SegmentationBLWX/sssegmentation 。它为各种语义分割方法提供了一个统一的基准工具箱。将语义分割框架分解为不同的组件,通过组合不同的模块可以轻松构建个性的语义分割框架。一些比较流行的分割网络开箱即用,如 ISNet, DeepLabV3, PSPNet, MCIBI 等。
安装:
克隆 sssegmentation 存储库。
git clone https://github.com/SegmentationBLWX/sssegmentation.git
cd sssegmentation
安装依赖。
pip install -r requirements.txt
安装 mmcv-full 的 pre-build 包。
pip install mmcv-full -f https://download.openmmlab.com/mmcv/dist/{cu_version}/{torch_version}/index.html
安装对应版本的 torch 和 torchvision。
# CUDA 11.0
pip install torch1.8.0+cu111 torchvision0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
# CUDA 10.2
pip install torch1.8.0 torchvision0.9.0 torchaudio==0.8.0
构建一些 api,例如 coco 数据集的 api(如果不使用 coco,则无需此操作)。
cd ssseg/libs
sh make.sh
地址:https://github.com/ycszen/TorchSeg
该框架也使用 PyTorch 为语义分割模型提供快速、模块化的参考实现。相对于 SSSegmentation,有下面几点优势:
可以根据使用场景选择合适的模型:
如果是图像分割的初学者,则推荐使用U-Net、FCN模型。
如果希望以较快的速度完成训练和预测,则推荐使用Fast-SCNN、BiSeNetv2模型。
如果希望获得最高的精度,则推荐使用OCRNet、GSCNN或DeepLabv3+模型。
DeepLabv3+是DeepLab系列的最后一篇文章,其前作有DeepLabv1、DeepLabv2和DeepLabv3。在最新作中,作者结合编码器-解码器(encoder-decoder)结构和空间金字塔池化模块(Spatial Pyramid Pooling, SPP)的优点提出新的语义分割网络DeepLabv3+,在 PASCAL VOC 2012和Cityscapes数据集上取得新的state-of-art performance.
其整体结构如下所示,Encoder的主体是带有空洞卷积(Atrous Convolution)的骨干网络,骨干网络可采用ResNet等常用的分类网络,作者使用了改进的Xception模型作为骨干网络。紧跟其后的空洞空间金字塔池化模块(Atrous Spatial Pyramid Pooling, ASPP)则引入了多尺度信息。相比前作DeepLabv3,DeepLabv3+加入decoder模块,将浅层特征和深层特征进一步融合,优化分割效果,尤其是目标边缘的效果。此外,作者将深度可分离卷积(Depthwise Separable Convolution)应用到ASPP和Decoder模块,提高了语义分割的健壮性和运行速率。
具体原理细节请参考Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation。
U-Net [1] 起源于医疗图像分割,具有参数少、计算快、应用性强的特点,对于一般场景适应度很高。U-Net最早于2015年提出,并在ISBI 2015 Cell Tracking Challenge取得了第一。经过发展,目前有多个变形和应用。
原始U-Net的结构是标准的编码器-解码器结构。如下图所示,左侧可视为一个编码器,右侧可视为一个解码器。编码器由四个子模块组成,每个子模块包含两个卷积层,每个子模块之后又通过max pool进行下采样。编码器整体呈现逐渐缩小的结构,不断减少池化层的空间维度,缩小特征图的分辨率,以捕获上下文信息。
解码器呈现与编码器对称的扩张结构,逐步修复分割对象的细节和空间维度,实现精准的定位。解码器同样也包含四个子模块,分辨率通过上采样操作依次增大,直到与输入图像的分辨率基本一致。
该网络还使用了跳跃连接,即解码器每上采样一次,就以拼接的方式将解码器和编码器中对应相同分辨率的特征图进行特征融合,帮助解码器更好地恢复目标的细节。由于网络整体结构类似于大写的英文字母U,故得名U-Net。具体原理细节请参考U-Net:Convolutional Networks for Biomedical Image Segmentation。
基于语义分割的场景解析是计算机视觉中一个基础话题。自动驾驶、机器人感知等潜在应用领域都十分看重场景解析。场景解析的难度与场景和标签的多样性密切相关。
Pyramid Scene Parsing Network(PSPNet)起源于场景解析(Scene Parsing)领域。如图3所示,普通FCN面向复杂场景出现三种误分割现象:
图2 普通FCN误分割现象
PSPNet的出发点是在算法中引入更多的上下文信息来解决上述问题。为了融合图像中不同区域的上下文信息,PSPNet使用了特殊设计的全局均值池化操作(Global Average Pooling)和特征融合构造金字塔池化模块 (Pyramid Pooling Module)。PSPNet最终获得了2016年ImageNet场景解析挑战赛的冠军,并在PASCAL VOC 2012和Cityscapes数据集上取得了当时的最佳效果。具体原理细节请参考Pyramid Scene Parsing Network。
现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。但是HRNet(HighResolution Net)能够在整个过程中保持高分辨率表示。如图5所示,HRNet以高分辨率子网开始作为第一阶段,逐个添加高到低分辨率子网以形成更多阶段,并且并行连接多分辨率子网。在整个过程中反复交换并行多分辨率子网络中的信息来进行重复的多尺度融合。在像素级分类、区域级分类和图像级分类中,证明了这些方法的有效性。 HRNet具有两个特点:
这两个特点使HRNet网络能够学习到更丰富的语义信息和细节信息。 HRNet在人体姿态估计、语义分割和目标检测领域都取得了显著的性能提升。具体原理细节请参考Deep High-Resolution Representation Learning for Visual Recognition。
Fast-SCNN 是一个面向实时的语义分割网络。在双分支的结构基础上,大量使用了深度可分离卷积和逆残差(inverted-residual)模块,并且使用特征融合构造金字塔池化模块 (Pyramid Pooling Module)来融合上下文信息。这使得Fast-SCNN在保持高效的情况下能学习到丰富的细节信息。Fast-SCNN最大的特点是“小快灵”,即该模型在推理计算时仅需要较小的FLOPs,就可以快速推理出一个不错的结果。
具体原理细节请参考Fast-SCNN: Fast Semantic Segmentation Network
整个网络结构如下:
2020年,相关学者基于可实现实时语义分割的双向网络BiSeNet(Bilateral Segmentation Network),建设性地提出了BiSeNetv2,以期望获得更好的语义分割精度。通常来说,语义分割任务既需要低级细节,也需要高级语义。就目前的语义分割模型而言,于精度相比,更多的是追求速度,因此存在着一定缺陷。而BiSeNetv2则是两方兼顾且行之有效的语义分割模型。其整体结构如下所示:
在骨干网络部分,作者设计了两个分支——细节分支(Detail Branch)和语义分支(Semantic Branch)。细节分支用来捕捉低级细节,语义分支用来获取高级语义内容。为了让两个分支的互补作用更强,模型中加入了聚合层(Aggregation Layer),用来融合两个分支的特征表示。同时,作者还引入了增强训练策略(Booster Training Strategy),提高模型的语义分割效果。 与BiSeNet比较,它的架构更为清晰明了、简单易懂,同时,该模型的网络结构、组件设计也有了较大的提升,从而保障细节部分。总而言之,BiSeNetv2保证速度的同时,也能保证精度。具体原理细节请参考BiSeNet V2: Bilateral Network with Guided Aggregation forReal-time Semantic Segmentation。
FCN(Fully Convolutional Network for Semantic Segmentation)可以对图像进行像素级的分类,解决了语义级别的图像分割问题,因此现有的大多数语义分割方法都基于FCN。但这些方法也有一定缺陷,比如分辨率低、上下文信息缺失和边界错误等。2020年,相关学者为解决语义分割上下文信息缺失难题,建设性地提出OCRNet,即基于物体上下文特征表示(Object Contextual Representation,以下简称OCR)的网络框架。其整体结构如下所示:
实现此OCR方法需要经历三个阶段——首先形成软物体区域(Soft Object Regions),然后计算物体区域表示(Object Region Representations),最后得到物体上下文特征表示和上下文信息增强的特征表示(Augmented Representation)。 与其他语义分割方法相比,OCR方法更加高效准确。因为OCR方法解决的是物体区域分类问题,而非像素分类问题,即OCR方法可以有效地、显式地增强物体信息。从性能和复杂度来说,OCRNet也更为优秀。2020年,“HRNet + OCR + SegFix”版本在2020ECCV Cityscapes 获得了第一名。具体原理细节请参考Object-Contextual Representations for SemanticSegmentation。
色彩、形状和纹理等低级语义信息并不相同,仅用单一网络融合处理,无法突出需要识别的内容,使得识别效果较差。为解决该问题,相关学者提出了用于语义分割的双流CNN结构(Gated Shape CNNs,以下简称GSCNN)。其整体结构如下所示:
GSCNN包含了两个流——常规流(Regular Stream)和形状流(Shape Stream)。常规流可以是任意的骨干网络结构。形状流通过一系列残差块(residual block)、门控卷积层(Gated Convolutional Layers,GCL)和边界信息监督,从而保留较多的边界信息。从图可知,双流并列进行,而后共同作为融合层的输入。融合模型(Fusion Module)通过ASPP(Atrous Spatial Pyramid Pooling)模块,融合双流信息。双任务正则化(Dual Task Regularizer)的应用,能够提升边界信息的精度,从而让图像分割更准确。
该网络结构的亮点是引入了“门”概念,控制两个流的交互,使得形状流过滤掉其他杂质,只处理和边界相关信息。GSCNN在Cityspaces数据集合上表现良好,mIoU指标和F-score指标十分亮眼。与其他方法相比,GSCNN是高效的、用于语义分割的结构。具体原理细节请参考Gated-SCNN: Gated Shape CNNs for Semantic Segmentation。
U-Net++ 在于把不同尺寸的 U-Net 结构融入到了一个网络里。我们知道,在运用 CNN 的分割问题上,主要分为以 FCN 为基础的结构,和以 U-Net 为基础的结构。前者的 encoder-decoder 是非对称的,后者的 encoder-decoder 是对称的;另外两者的特征融合方式也有些差别。但本质上分割网络都是差不多的:先 encoder 再decoder。那么到底 encoder 应该多大,decoder 应该多大呢?
相对于原来的 U-Net网络,Unet++ 把 1~4 层的 U-Net 全给链接在一起了。这个结构的好处就是让网络自己去学习不同深度的特征的重要性。第二个好处是它共享了一个特征提取器,也就是你不需要训练一堆 U-Net,而是只训练一个 encoder,它的不同层次的特征由不同的 decoder 路径来还原。这个 encoder 依旧可以灵活的用各种不同的 backbone 来代替。
Unet++ 主要改进就是将原来空心的 U-Net 填满了,优势是可以抓取不同层次的特征,将它们通过特征叠加的方式整合,不同层次的特征,或者说不同大小的感受野,对于大小不一的目标对象的敏感度是不同的,比如,感受野大的特征,可以很容易的识别出大物体的,但是在实际分割中,大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢的,这个时候就可能需要感受野小的特征来帮助。
V-Net 有几个需要重点关注的地方, 基本上网络架构就是 3D conv+residual Block 版的 U-Net,池化用卷积代替,转置卷积上采样。V-Net 的论文中提出了一个新的指标函数,类似 IoU、Pa,叫做 Dice coefficient。下图是 V-Net 的网络架构。进行卷积的目的是从数据中提取特征,并在每个阶段的最后通过使用适当的步幅降低其分辨率。网络的左侧部分由编码路径组成,而右侧部分对信号进行解码,直到达到其原始大小为止。卷积全部使用适当的 padding 操作。
一种鲁棒的基于 2D UNe t和 3D UNet 的自适应框架。这个框架和目前的 STOA 方法进行了比较,且该方法不需要手动调参,nnUNet 都得到了最高的平均 dice 值。通过简单的使用U-Net一种结构,一棒子打死了近年来所有的新的网络结构。认为网络结构上的改进并没有什么用,应该更多的关注结构以外的部分,比如预处理、训练和推理策略、后处理等部分。
在语义分割上,FCN 这类卷积的编码器-解码器架构衍生出的模型在过去几年取得了实质性进展,但这类模型存在两个局限。第一,卷积仅能从邻域像素收集信息,缺乏提取明确全局依赖性特征的能力;第二,卷积核的大小和形状往往是固定的,因此它们不能灵活适应输入的图像或其他内容。相反,Transformer architecture 由于自注意力机制具有捕获全局依赖特征的能力,且允许网络根据输入内容动态收集相关特征。
Transformer 建立在多头自注意机制 (MHSA) 模块上,MHSA 是由多个 Self-Attention 组成的。下图是 Self-Attention 的结构,在计算的时候需要用到矩阵 Q(查询),K(键值),V(值)。在实际中,Self-Attention 接收的是输入(单词的表示向量 x 组成的矩阵 X) 或者上一个 Encoder block 的输出。而 Q,K,V 是通过 Self-Attention 的输入进行线性变换得到的。
得到矩阵 Q, K, V 之后就可以计算出 Self-Attention 的输出了,计算的公式如下。其中 d 是 Q,K 矩阵的列数(向量维度),公式中计算矩阵 Q 和 K 每一行向量的内积,为了防止内积过大,因此除以 d 的平方根。将 Q, K, V 展平并转置为大小为 n × d 的序列,其中 n = HW。P ∈ Rn×n 被命名为上下文聚合矩阵,用作权重以收集上下文信息。
通过这种方式,self-attention 本质上具有全局感受野,擅长捕捉全局依赖。此外,上下文聚合矩阵可以适应输入内容,以实现更好的特征聚合。关于更细节的内容,这里就不多介绍了。需要关注的是,n×d 矩阵的点乘会导致 O(n2d) 复杂度。通常,当特征图的分辨率很大时,n 远大于 d,因此序列长度 n 在自注意力计算中占主导地位,这使得高分辨率特征图中应用自注意力是不可行的,例如对于 16 × 16 特征图,n = 256,对于 128 × 128 特征图,n = 16384。
回到 TransUNet 本身,它同时具有 Transformers 和 U-Net 的优点,是医学图像分割的强大替代方案。一方面,Transformer 将来自卷积神经网络(CNN)特征图的标记化图像块编码为提取全局上下文的输入序列。另一方面,解码器对编码的特征进行上采样,然后将其与高分辨率的 CNN 特征图组合以实现精确的定位。借助 U-Net 的组合,通过恢复局部的空间信息,可以将 Transformers 用作医学图像分割任务的强大编码器。
从 Loss 上解决数据集imbalance 的方法
比如小目标图像分割任务(医疗方向),往往一幅图像中只有一个或者两个目标,而且目标的像素比例比较小,使网络训练较为困难,一般可能有三种的解决方式:
值得注意的是,通过使用设计合理的 Loss function,相比于另两种方式要更加简单易行,能够保留图像所有信息的情况下进行网络优化,达到对小目标精确分割的目的。
上采样方法
上采样的技术是图像进行超分辨率的必要步骤,上采样大致被总结成了三个类别:
其中,线性插值用的比较多的主要有三种:最近邻插值算法、双线性插值、双三次插值(BiCubic),当然还有各种其改进型。如今S这些方法仍然广泛应用。这些方法各有优劣和劣势,主要在于处理效果和计算量的差别。计算效果上:最近邻插值算法 < 双线性插值 < 双三次插值,计算速度上:最近邻插值算法 > 双线性插值 > 双三次插值。
基于深度学习的上采样,有转置卷积、PixelShuffle(亚像素卷积,CVPR2016)、DUpsampling(亚像素卷积,CVPR2019)、Meta-Upscale(任意尺度缩放,CVPR2019)和 CAPAFE(内容关注与核重组,ICCV2019)等。
超参数调节
超参数调节不只是图像分割任务的重点,下面仅列出了几种需要重点关注的策略。
关于 MRI 类型的数据。数据预处理更加重要,对噪声的处理比较关键(比赛数据则不必担心)。
如何训练。
观察训练趋势,metric 和 loss 的曲线。
根据任务和数据不同,loss 的值会有差别。
停止训练的标志:验证集上指标曲线达到高点且平稳。
使用多个而不是单一学习率。
差分学习率(Differential Learning rates)。
基于已有模型来训练深度学习网络。
大部分已有网络(如 Resnet、VGG 和 Inception 等)都是在 ImageNet 数据集训练的,因此我们要根据所用数据集与 ImageNet 图像的相似性,来适当改变网络权重。
如何找到合适的学习率。
周期性学习率。
用余弦函数来降低学习率。
带重启的 SGD 算法。
更多内置函数:Dropout 层、TTA。TTA 可以为原始图像造出多个不同版本,包括不同区域裁剪和更改缩放程度等,并将它们输入到模型中;然后对多个版本进行计算得到平均输出,作为图像的最终输出分数。
本文更新结束,更多图像分割技巧会本文章在之后继续补充!