【论文阅读笔记】图像语义分割深度学习模型综述(张新明等)

【论文阅读笔记】图像语义分割深度学习模型综述(张新明等)

文章主要内容:全面综述了图像语义分割算法的常用分类及最新成果,详尽比较了图像语义分割深度学习模型在PASCAL VOC 2012数据集上的四个参数的实际表现性能,对此领域的未来进行展望并提出了相关问题。

文章部分摘要
0 引言
图像语义分割是像素级别的密集分类问题,其目标是对图像中的每个像素进行语义信息标注。语义分割广泛应用于自动驾驶、肝癌检测等方面。
语义分割的难点主要来自以下三个方面:物体层次、类别层次和背景层次。**意味着语义分割任务要在复杂多变的背景下正确标记出语义信息,并区分具有高度相似外观的不同类别物体。**大型深度学习模型参数优化过程会消耗大量资源,为避免维度灾难,减小内存需求,神经网络常采用池化、主成分分析等方式降低维度、减小计算量,但导致含有重要语义信息的小尺度区域被漏检。另外,模型的泛能力不高是目前语义分割领域普遍存在的问题,深度学习模型很难找到一个通用的高性能算法,大部分模型只对一个或者两个数据进行优化。**在模型迁移时,算法不能达到预期效果,使得模型不能大范围地使用。

1 相关工作
图像语义分割方法分为传统图像语义分割方法和基于神经网络得图像语义分割方法。传统得语义分割方法具体可分为以大量得专业知识为基础的显式特征方法、基于概率图模型的方法、不含语义信息的五监督学习方法。相比于传统分割方法,基于神经网络的语义分割方法隐式地建立了像素到语义的映射,不需要后期人工的参与依然能完成整个分割过程。
1.1 传统图像语义分割方法
传统的语义分割很依赖特征的选择。基于概率图模型的分割方法,其主要思想是为每个特征和像素分配一个随机向量,通过计算每个像素数以每个类的概率确定该像素的分类。
1.2 基于深度学习的图像语义分割方法
深度学习模型需要进行训练才能达到预期效果。**训练过程:原始图像和标签不断地送入模型进行参数优化,在图像输入模型之前,通常会使用数据增强技术对图像进行处理,如反转、遮挡、变形等。模型输出预测标签后,可选择性使用概率图模型算法微调以得到更好的结果。**一般地,概率图模型运算复杂度较高,耗时较长,通常作为一种可选方案。

2 深度学习模型
语义分割FCN的核心是建立全卷积网络,输入任意尺寸,经过有效推理和学习产生相应尺寸的输出,学习像素到像素的映射。FCN是语义分割深度学习模型的开山之作。确立了一种用于图像语义分割通用模型框架。FCN提出了像素正确率、平均像素正确率、平均交叠率、平均加权交叠率四项参数计算方法,用于衡量模型的性能表现。PNPNet通过空间池模块以及空间场景解析网络,利用不同区域的上下文聚合全局上下文信息的能力。PNPNet为像素级预测任务提供了优越的框架。

3 实验数据
(略)

4 结论
作者提出的现存问题:

  1. 训练数据集匮乏。语义分割需要的标注需要精准到像素级别,数据集的标注十分昂贵,未来可能会通过弱监督训练得到缓解,但是不能从根本上解决问题。
  2. 参数优化困难。模型参数需要经过大量的运算获得,更优秀的优化算法将成为重要的研究方向。
  3. 模型结构单一。深度学习模型结构解释性差,通过理论指导创造更有效的模型变得十分困难,结构创新发展缓慢,迁移学习成本增高。

你可能感兴趣的:(论文阅读笔记,神经网络,算法)