时间:20220410
内容:语义分割研究进程总结
参考:深度卷积神经网络图像语义分割研究进展
http://www.cjig.cn/html/jig/2020/6/20200601.htm
语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。
识别图像中存在的内容;
识别图像中存在的内容和位置(通过边界框);
识别图像中存在的内容以及位置(通过查找属于它的所有像素)。
语义分割是计算机视觉领域中的问题,将一些原始数据(例如,平面图像)输入并将它们转换为具有突出明显的感兴趣区域。
分为:
(1)标准语义分割(standard semantic segmentation)
(2)实例感知语义分割(instance aware semantic segmentation)
其中,标准语义分割又称为全像素语义分割(full-pixel semantic segmentation),是它将每个像素分类为属于对象类的过程;
实例感知语义分割,是标准语义分割的子类型,它将每个像素分类为属于对象类以及该类的实体ID;
例如:
语义分割认为他们都是人;
实例分割认为他们是不同的人,不同的对象。
————————————————
https://blog.csdn.net/yql_617540298/article/details/83143182
1)PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012。PASCAL VOC是计算机视觉领域目标分类、识别和检测的挑战赛,提供检测算法和网络学习性能的标准标注数据集和评估系统。
PASCAL VOC 2012数据集中训练集、验证集、测试集分别包括1 464、1 449、1 452幅图像,共有21个类别,包括人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内物品(瓶子、椅子、餐桌、盆栽植物、沙发、电视)和背景
2)MS COCO(microsoft common objects in context)2015。MS COCO数据集是一个大型的目标检测和语义分割的标注数据集,主要用于场景解析。
MS COCO 2015数据集中训练集、验证集、测试集分别包括165 482、81 208、81 434幅图像,共有91个类别,包括人类、自行车、汽车、摩托车、飞机、公交车、火车、卡车、轮船、交通信号灯和停车标志等。MS COCO数据集中的图像主要从复杂的日常场景中截取,并对图像中的目标进行准确分割和位置标定。该数据集主要解决目标检测、目标之间的上下文关系和2维平面上目标的精确定位问题,图 1(b)是该数据集中一幅图像的标注图。
3)KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)。KITTI是移动机器人和自动驾驶领域用于车载环境下立体图像、光流、视觉测距、3D目标检测和3D跟踪等计算机视觉技术性能评测的数据集。
KITTI数据集由389对立体图像和光流图、39.2 km视觉测距序列和超过200 000幅带有3D标注目标的图像组成,11个类别,包括建筑物、树、天空、汽车、信号牌、道路、行人、围栏、杆、人行道和自行车。KITTI数据集包含了市区、乡村和高速公路等场景的真实图像数据,每幅图像中最多有15辆车和30个行人,以及各种程度的遮挡,图 1©是该数据集中图像的标注图。
4)PASCAL-Part。PASCAL-Part是PASCAL VOC 2010数据集的一组附加标注数据集,为目标的每个部位提供了分割模板。
PASCAL-Part数据集中训练集和验证集共10 103幅,测试集9 637幅。该数据集还为目标提供轮廓标注,例如,将汽车分解为车前门、后视镜、车前窗和车轮等,图 1(d)是该数据集的分段注释。
5)Cityscapes。Cityscapes是从50个不同城市的街道场景中收集的5 000幅高质量图像的像素级标注的大型数据集。
Cityscapes数据集中训练集、验证集和测试集分别由2 975、500和1 525幅图像构成,7个类别,包括地面、建筑、道路标志、自然、天空、人和车辆。该数据集还提供了20 000幅粗分割的图像,用于训练基于弱监督学习的分类网络的性能。图 1(e)是该数据集中图像的标注图。
6)CamVid(Cambridge-driving labeled video database)。CamVid是最早应用于自动驾驶领域的语义分割数据集。最初在汽车的仪表盘上拍摄了分辨率为960×720像素的5个视频序列,拍摄视角与司机视角基本一致。利用图像标注软件在视频序列中连续标注了700幅图像,包括建筑物、墙壁、树、植被、人行道、红绿灯、天空、道路、行人、骑手、摩托车、汽车、卡车和公共汽车等32个类别,图 1(f)是该数据集中一幅图像的标注图。
7)ADE20K。ADE20K数据集用于场景解析、语义分割、目标识别和语义理解等任务,包括室内和室外场景中的150个类别,训练集和验证集分别包括20 210和2 000幅图像,测试集暂未发布。该数据集通过验证集评估算法的性能,图 1(g)是该数据集中一幅图像的标注图。
8)sift flow。sift flow数据集中的训练集包括街道、公路、森林、山脉、城市、乡村、海滩和建筑等8种不同户外场景的2 688幅图像,每幅图像的分辨率为256×256像素,包括建筑、大巴车、小汽车、十字路口、草、山、人、植物、杆、河流、公路、人行道、指示牌、天空、路灯、树和窗户等33个类别。验证集和测试集暂未发布。
9)NYUD v2(New York University depth dataset v2)。NYUD v2数据集包括由微软kinect设备捕获的1 449幅室内RGB-D图像,包括3个城市的464种室内场景,分为RGB图像集、深度图像集和RGB-D图像集,共包括室内目标的40个类别。训练集、验证集、测试集分别包括795、414、654幅图像。由于该数据集包含了较多室内场景,可以用于家庭机器人的训练任务。但是,NYUD v2数据集相对于其他数据集规模较小,限制了在深度神经网络中的应用范围。图 1(h)是该数据集中一幅图像的标注图。
10)SUN-RGBD(scene understanding-RGBD)。SUN-RGBD数据集包括10 000幅RGB-D图像、146 617个多边形标注、58 657个目标边框标注和大量的空间布局信息和类别信息,共800个类别,包括墙、地板、橱柜、床、椅子、沙发、桌子、窗户、衣服、电视和人等,主要适用于场景理解任务。训练集、验证集、测试集分别包括2 666、2 619、5 050幅图像。图 1(i)是该数据集中图像的标注图。
运行时间。神经网络运行的时间包括网络模型的训练时间和测试时间。
显存占用。数据的规模对神经网络模型的训练至关重要,因此训练神经网络模型需要高性能的硬件设施和软件实现。图形处理单元(graphics processing unit, GPU)具有高度并行特性以及高内存带宽,但是相比于传统的中央处理器(central processing unit, CPU),时钟速度更慢以及处理分支运算的能力较弱。在某些情况下,对于操作系统及机器人平台,其显存资源相比高性能服务器并不具优势,即使是加速深度网络的GPU,显存资源也相对有限。因此,在运行时间相同的情况下,记录算法运行状态下显存占用的极值和均值都很有意义。
准确率。像素准确率(pixel accuracy, PA)是指分类正确的像素占总像素的比例,而当测试集出现类别不均衡(不同类别的样本数量差别很大)情况时,像素准确率并不能客观反映模型性能。因此定义平均像素准确率(mean pixel accuracy,MPA)和平均交并比(mean intersection-over-union,MIoU)两种评测指标,其中平均交并比是最重要的性能评测指标,更能反映模型的准确程度。
基于监督学习的语义分割问题是指预先标注训练图像的每一个像素,再利用标注好的数据集训练语义分割网络。因此,需要利用大量人工标注的数据来训练网络。
2015年,Long等人(2015)提出了全卷积网络(fully convolutional networks, FCN),改进了现有的分类网络,利用卷积层替换全连接层(fully-connected layer),从而获得像素级的语义标注。
在基于解码器结构的网络中,编码的过程是将图像输入一个预训练的分类网络生成低分辨率的特征图,而解码的过程是通过上采样将低分辨率的特征图映射到原图像尺寸,产生像素级的语义标签,从而获得语义分割的结果。
全卷积网络(fully convolutional networks, FCN)
Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE Computer Society: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
提出的全卷积网络使得卷积神经网络不需要全连接层就可以实现像素级的图像分割,并且可以对任意尺寸的输入图像实现端到端的预测。如图 2所示,全卷积网络将传统的卷积神经网络中最后3个全连接层替换为卷积层,输出一个类别标记矩阵,实现像素到像素的映射。
对称编码器—解码器结构的U-Net
Ronneberger O, Fischer P, Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer International Publishing: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
一种具有对称编码器—解码器结构的U-Net。编码器部分与FCN相似,通过卷积与池化操作提取特征,而在解码器部分中,U-Net将编码器每一层输出的特征图与对应的解码器生成的特征图相融合,即将深层语义特征与细粒度的浅层细节特征相结合,从而生成更准确的分割图像。
DeconvNet(deconvolution network)
Noh H, Hong S and Han B. 2015. Learning deconvolution network for semantic segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society: 1520-1528[DOI: 10.1109/ICCV.2015.178]
编码器部分采用VGG16(visual geometry group 16-layer net)网络,解码器部分由多层转置卷积网络代替简单的上采样操作,生成比全卷积网络更准确的分割图。
Badrinarayanan等人(2017)提出的SegNet是一种旨在应用于智能驾驶和机器人领域的语义分割模型,主要以道路场景理解为动机,具有对外观(道路、建筑物)和形状(汽车、行人)建模的能力,能够学习不同类别(如道路和人行道)之间的上下文关系。
编码器部分采用VGG16网络的前13层卷积网络,解码器部分由上采样层和卷积层组合形成,每一个编码器层都对应一个解码器层。
Chaurasia和Culurciello(2017)提出了一种实时的语义分割网络LinkNet。Deconvnet和SegNet利用池化索引来恢复下采样时丢失的空间信息,而LinkNet将空间信息从编码器直接传递到对应的解码器中,最大程度地保留了图像的空间信息。
基于特征图的方法主要结合了特征图的上下文信息,包括特征图的空间上下文(位置)和尺度上下文(尺寸),有助于对图像的分割与解析。这类方法通过增大感受域和融合多尺度可以获得空间上下文和尺度上下文,能够有效提升网络的分割性能。
以FCN和SegNet为代表的语义分割模型都利用卷积结合池化操作提取特征。池化的目的是缩小图像尺寸、降低计算量和避免过拟合。
由于语义分割需要得到像素级的预测,所以需要进行上采样**(反卷积)**操作,使输出图像的尺寸与输入图像的尺寸保持一致。经过了下采样和上采样操作,图像丢失了大部分信息,使得语义分割的精度下降。
Yu和Koltun(2016)提出使用膨胀卷积**(dilated convolution)**来代替池化层和上采样层。膨胀卷积是通过在卷积核之间填充固定数量的0元素,达到在不增加卷积核参数数量的情况下使卷积核的感受域增大,并结合了图像的空间上下文。但由于膨胀卷积使得卷积核不连续,损失了图像连续性信息,因此不利于小目标的分割。
为了解决上述问题并结合空间上下文,DeepLab v3(Chen等,2017)改进了空洞空间金字塔池化**(atrous spatial pyramid pooling,ASPP)**模型,使用不同扩张率的多个并行的空洞卷积层实现多尺度处理。
在常见的分类网络中,网络深层提取低分辨率的全局信息,浅层提取高分辨率的细节信息。
Lin等人(2017)提出的RefineNet不仅利用了深层和浅层提取的信息,还利用了中间层的信息。
RefineNet模块由残差卷积单元(residual convolution unit)、多分辨率融合(multi-resolution fusion)和链式残差池化(chained residual pooling)组成,该模块的作用是融合不同分辨率的特征图。
多尺度信息对于提高语义分割的精度也非常重要,结合图像的尺度上下文,多尺度的感受域可以学习不同尺寸目标的信息。
Zhao等人(2017)提出了一种能够获取全局场景信息的空间金字塔池化网络(pyramid scene parsing network, PSPNet)。
利用卷积神经网络(convolutional neural network,CNN)模型提取输入图像的特征,将特征图送入金字塔池化模型。为了提取图像的多尺度信息,使任意尺寸的特征图转换成固定长度的特征向量,该模型融合了4种并行的不同尺度的池化特征。为了提取全局特征,在每个尺度的池化操作后使用1×1的卷积将对应级别的通道降为原来的1/4,再通过双线性插值还原到未池化之前的尺寸,与池化前的特征图相连接。最后通过一个卷积层生成最终预测结果。
DenseASPP(Yang等,2018)将DeepLab v3(Chen等,2017)提出的ASPP与DenseNet(Huang等,2017)中的稠密连接相结合,构成了一个稠密的特征金字塔。
超像素是由图像中一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域基本保留了进一步进行图像分割的有效信息,并且一般不会破坏目标的边界信息。Mostajabi等人(2014)**采用VGG16网络(Simonyan和Zisserman,2015)以超像素为基本单元提取图像特征,**然后将特征输入CNN分类器,分类器的输出是每一个超像素的类别。对每一个超像素生成4种不同空间级别的特征,即局部特征、近邻特征、远邻特征和全局特征,将4种特征相连接得到该超像素最终的特征向量,然后将其送入CNN分类器,从而对每一个超像素进行分类,分类器的输出是各个超像素的类别。该方法将像素级的语义分割问题转化为基于超像素的分类问题,结合了超像素的空间上下文信息,提取的图像特征同时兼顾了局部信息和全局信息。但是当一个超像素处在目标边界时,该超像素可能包含多种类别的像素,会影响网络的分类结果,并且由于该方法生成的超像素尺寸近似相等且形状规则,因此对目标边缘的分割仍较为粗糙。