论文阅读——基于卷积神经网络的语义分割研究

-----博客动机:这类论文阅读博客是我阅读论文过程中作的笔记,主要是论文的作法和一些基础知识

#摘要

¥背景:语义分割的目的是对图像中的每一个像素分类,从而分割出目标的具体轮廓。语义分割为每个像素点生成足够的空间语义信息用于复杂场景内容的理解,分割模型的设计通常围绕着降低语义信息损失和增强细节信息展开。

¥要解决的问题是不断提升分割精度,在这个问题上,论文基于卷积神经网络进行语义分割研究,从多尺度特征整合的角度入手,实现了两种不同结构的语义分割模型。

¥论文主要干了:概括和总结了语义分割问题的通用框架,基于全卷积网络,实现了DeepLab语义分割算法;提出新的语义分割模型MsNet,基于多尺度特征融合,MsNet能够优化分割效果,平滑目标的边缘轮廓;提出一种基于编解码结构的场景语义分割模型AugNet。

#第一章 绪论

¥研究背景及意义

卷积神经网络运用局部连接和权值共享降低参数规模,在大规模数据上训练,自适应地学习得到抽象的高层特征,逐渐成为视觉任务研究的核心方法。视觉研究一般包括图像分类问题、目标检测问题、语义分割问题和实例分割问题。图像分割问题,是更加细粒度的像素分割,同时提供精细的边缘轮廓和类别信息,一般分为语义分割和实例分割,语义分割的结果是得到不同的类别,而实例分割的结果是不同对象(即使是相同类别,也会有不同对象,也叫实例)。语义分割目前面临的挑战:逐像素分类计算量太大;训练需要标注大量数据;实际场景复杂,光照、遮挡、复杂背景等。将分类网络应用于分割时,分类网络的平移不变性使得网络对空间位置信息不敏感,并且卷积和池化堆叠得到的特征难以在上采样阶段恢复。

¥国内外研究现状

%传统图像分割研究现状

传统的图像分割方法根据纹理、颜色、空间结构等特性的相似性度量将图像划分为不同的区域,一般只运用图像的低阶视觉信息(颜色、直方图、梯度),过度依赖于具体的分割任务,一般分为基于阈值的分割方法(最大熵法、最大类间方差法)、基于区域的分割方法(区域生长、区域分裂合并)、基于边缘的分割方法以及结合特定理论的分割方法等四类。

%基于卷积神经网络的语义分割研究现状

在语义分割问题转化为像素分类问题的过渡阶段,通常的作法是将块区域如超像素(超像素的概念)、候选框等的特征送入分类器,来预测中心像素所属的类别。分类特征通常可以人为设计,也可由卷积神经网络进行提取。存在的问题是,存储开销大,计算效率低,邻近像素块内容重复等。

之后语义分割方法进入了以卷积神经网络为核心的像素分类阶段。2015年提出的基于全卷积网络的分割算法FCN,可以直接输入不同尺度的图像,为每个像素生成多维特征以完成逐像素分类。FCN结构中解码器完成输出特征图像的上采样,将其与编码后的特征图跳跃连接,产生下一个解码阶段的输入,对精度和速度有很大的提升。之后又提出了用于道路、车辆分类的SegNet,SegNet的池化层能记录池化最大值的空间位置,能保证在恢复图像分辨率时精确的位置关系映射,解码时对未被记录的位置进行反卷积填充。CRFasRNN将条件随机声与RNN结合,能细致地描述像素与像素之间的关系。DeepLab是谷歌提出的语义分割模型,使用条件随机场、空洞卷积、ASPP和深度可分离卷积等,很经典。空洞卷积能减少下采样过程中的语义信息损失,在维持感受野大小的同时确保了训练阶段能够学习得到多尺度目标的信息。

#第二章 语义分割相关内容研究

¥卷积神经网络概述

%卷积神经网络组成结构

传统的机器学习解决问题采用分治策略,而深度学习引入了一种“端到端”的方式。端到端是什么意思?与端到端相对应的是多步解决问题。端到端思路是指由输入端数据直接得到输出端结果,也就是讲,是将原始数据直接扔进系统,得到结果。传统的机器学习流程往往由多个独立的步骤组成,每个步骤是一个独立的任务,其结果的好坏会影响到下一个步骤,最终会影响整个系统的结果。卷积网络一般由卷积层、池化层、非线性层、全连接层构成。卷积层使用卷积操作,能充分利用图像内存的拓扑关系和平移不变性,一般使用滑动步长stride和输入补零的宽度padding来控制输出特征大小。池化层能有效降低特征维度和抽象输入信息,减少后续网络的参数和计算量,使输出特征具有平移不变性,如最大值池化和平均值池化。激活函数又称作非线性映射层,是用来增加网络的非线性表达猜能力的,如sigmoid、relu和Tanh函数。全连接层通常伴随着分类器,全连接层将学习得到的特征重新映射回样本空间,不再关注特征的空间信息,在语义分割中需要去除。之后对特征使用分类器进行分类。

%卷积神经网络模型

卷积网络语义分割算法的基础是分类卷积神经网络,通常使用如VGGNet、GoogLeNet或ResNet作为语义分割的骨干卷积网络提取语义特征。VGGNet(Visual  Geometry Group),有效证明利用小卷积核增加网络的深度可以显著提升网络的性能。GoogLe网络加入了Inception模块,采用不同的卷积池化操作获得多尺度特征,类似于图像多尺度处理之后将结果聚集以便下一个阶段能够提取不同尺度的特征,卷积网络的结构不只局限于卷积池化层的堆叠,还可在宽度上横向拓展,完成数据间的融合。理论上网络深度是和网络性能成正比的,但训练过程中由于有梯度弥散问题,深度与性能之间的关系变得极为矛盾。ResNet采用额外的shortcut连接,有效避免梯度消失问题,使得网络性能能够随着深度的增长而获得提升。

%卷积神经网络的训练优化算法

批量归一化(Batch Normalization)是减少深度网络训练过拟合的有效方法之一。通常数据预处理的第一个阶段就是进行数据的归一化,保证数据均值、方差等统计特性一致,深层网络在学习过程不断拟合数据分布,BN是常用的处理层,网络训练时对一个mini-batch的数据做规范化操作,保持均值为1、方差为0,并学习gama和beta参数,以保证训练网络能够恢复出原始网络所需要的特征分布。BN通过归一化手段避免了训练阶段落入饱和区所造成的梯度消失问题,不再过度依赖于初始化权重和网络规模的大小。

Dropout(网络剪枝)在不改变输入输出神经元的前提下随机删除网络内部的神经元,训练阶段保持被删除的神经元权重不变,参数的更新只在修改后的网络上进行,一次训练完成后,会恢复删除的神经元,如此重复。训练过程中,剪枝操作使得网络结构能随机发生改变,最终的网络相当于多个网络的融合,从而有效降低过拟合的产生。

¥基于卷积神经网络的语义分割算法概述

%典型的语义分割算法

FCN网络去除分类网络的全连接层,从而保留像素的空间信息,并且它可以接收任意大小的图像输入(不要求所有训练图像和测试图像具有相同的尺寸,这是一个很好的性质,需要看一下是怎么实现的,借鉴),采用反卷积层对最后的输出特征图进行上采样,维持与原始图像大小相同的分辨率,从而为每个像素产生一个向量预测。FCN存在的问题是,对图像的细节边缘不够敏感,未充分考虑到像素与像素之间的关系,缺乏空间一致性。SegNet,采用编解码结构构建分割模型,编码端采用分类网络提取语义特征,与解码端对应的层级之间跳跃连接,解码端采用上池化完成上采样。

%语义分割模型概述

语义分割模型可分为下采样阶段、上采样阶段以及像素分类阶段:下采样阶段是一个特征图分辨率收缩、通道数增加的卷积神经网络,用来提取的抽象的语义特征,上采样阶段与之相反,分类阶段为每个像素点赋予相应的语义类别。语义分割算法可概括为以下三个方向:提升采样阶段的连通性(下采样阶段结合新的卷积方式或者迁移学习提取语义特征,上采样阶段恢复特特征分辨率)、保留更多的上下文信息(结合不同的空间尺度信息)和采用概率图模型(充分考虑像素与像素之间的关系,能保证输出结果一致性、细化尖锐的边界)。

%语义分割关键技术分析

主要包括迁移学习与微调、转置卷积和条件随机场。迁移学习是把已经训练好的模型参数迁移到新模型代替随机初始化权重,可以加速模型的训练,一般选择网络的高层部分,较低的倾向于学习更多的泛型特征,学习速率选择较小的值开始会尽可能地保留预训练网络的核心内容,并且微调能增强分割网络的拟合能力,弥补数据量不足的局限(微调就是网络初始化的一种方式,但要求新网络和原始网络对应参数具有相同的感受野)。转置卷积也称分数步长卷积或者反卷积,实质是前向卷积的逆过程,相当于转置操作,是可以训练学习的。条件随机场是一种概率分布模型,可以用于不同的预测问题,是分割领域的常用经典算法。

#第三章 基于多尺度特征融合的语义分割模型

这一章主要是结合SharpMask算法和FPN算法两者的特点,提出一种基于多尺度特征融合的语义分割算法MsNet,其包含语义特征提取、语义特征融合两个部分。语义特征通过Aligned-Inception-ResNet网络实现的DeepLab算法完成提取,融合阶段采用改进的细化模块恢复语义信息。不同于采用最后的输出特征完成预测的做法,特征融合将多个支路的细化特征采样相加,得到增强的语义特征。

¥DeepLab模型

针对下采样阶段分辨率下降问题,空洞卷积可以有效的扩大感受野,维持特征图分辨率。通常迁移应用分类网络时,特征图输出与原始输入之间存在一定区域的对应关系,大幅更改后的网络难以保留预训练网络的核心内容,空洞卷积可以维持感受野大小与特征图分辨率之间的均衡。

%以下介绍空洞卷积

空洞卷积主要向卷积层引入参数——扩张率,而普通卷积方式相当于扩张率为1的空洞总面积,它不是在像素之间填充空白的像素点,而是忽略某些已有的像素或者保持输入不变在卷积核权重之间插入一些0值,达到一次卷积增大感受野范围的目。的。设置扩张率与padding值相等就能维持特征图的分辨率不变。

¥ShaprMask:实例分割模型

SharpMask是一种实例分割框架,通常包含掩膜提取和目标分类两个过程,掩膜提取过程分为自底向上和自顶而下两个阶段,第一阶段主要生成粗糙的边界,第二阶段整合浅层中重要的空间位置信息。

¥FPN:特征金字塔模型

FPN利用卷积神经网络不同阶段的输出,结合金字塔层次的结构特性构建具有高级语义的特征金字塔模型。FPN网络采用自上而下的路径,为具有相同分辨率的阶段定义了金字塔级别,选择每个阶段的最后一层的特征图输出作为金字塔的对象。

¥基于多尺度特征融合的分割模型设计

卷积阶段在不同层级的特征都或多或少地包含了提升分割精度的有用信息,不同层之间的有效融合能够带来高保真度的语义特征,分割结果会更加平滑。但是,特征融合阶段所面临的问题往往来自于不同层级的特征表达的差异性,简单的叠加和连接操作不会带来精度的提升,论文结合SharpMask的细化模块和FPN多支路预测的手段降低这种差异性,以充分融合中层特征所含有的内容。

论文阅读——基于卷积神经网络的语义分割研究_第1张图片

特征提取阶段由残差网络实现DeepLab算法完成。特征分辨率的提升主要采用双线性插值完成,多支路预测过程综合了细化模块的输出特征,形式上是直接对多个支路输出结果上采相加融合,以获得增强的特征输出。

¥实验及结果分析

实验采用增强的PASCAL VOC2012数据集完成训练。数据增广能够均衡样本的数据分布,提高算法模型的泛化能力,有效防止过拟合的产生,论文对输入数据和对应的标签进行随机翻转和随机裁剪处理(尺度变换),采用平均IoU进行精度度量。

#第四章 基于编解码结构的场景语义分割模型

语义分割需要对像素类别图谱进行精确的位置调整,因此特别需要重新得到池化层中所舍弃的位置信息。一般的解决办法有两种:一是采用空洞卷积或移除池化层;二是采用基于编解码的结构。

¥相关网络模型介绍

%PSPNet:金字塔场景解析网络

分割面临的三个常见问题:关系不匹配、易混淆的类别和不显眼的类别(尺寸较小的类别)。PSPNet通过整合不同区域的语义来获取全局的场景信息。PSPNet网络分为两个部分:前者是在预训练的ResNet网络的基础之上,加入空洞卷积提取语义特征;后者由金字塔模块构成。

%DRN:空洞残差网络

去除下采样层是获得高分辨率特征图输出的最直接方法,但是缺点是降低了后续层的感受野大小,特征大量的上下文信息损失。DRN网络采用特定方式设定的空洞卷积维持感受野与特征分辨率之间的平衡。

¥基于编解码结构的场景分割模型设计

论文采用PSPNet的金字塔化模块整合局部和全局信息,重新引入底层与高层特征含有的语义信息,提升场景解析精度,由此提出了基于编解码结构的场景语义分割算法AugNet。AugNet分为两个过程:编码过程结合空洞卷积与残差网络,保证特征分辨率大小的同时维持感受野不变;解码过程采用PSPNet的金字塔池化模块整合局部信息与全局信息。实验采用面向城市街道主义理解的大规模数据集CityScapes。另外一种场景数据集为ADE20K数据集。

你可能感兴趣的:(论文阅读——专业前沿积累)