摘 要:本文介绍了图像分割领域的研究现状,对图像分割方法进行了系统性梳理。首先,介绍了五类传统的图像分割方法及其基本原理;然后,介绍了经典的基于深度学习的图像分割方法;最后,总结了传统图像分割方法和深度学习方法存在的优势和不足,分析了传统方法如何有益于深度学习方法,以及深度学习如何促进传统方法。
关键词:计算机视觉;图像分割;深度学习;
在计算机视觉领域,图像分割作为一项十分重要的基础性工作,是图像理解和分析的前提[1]。图像分割是指将图像中拥有相似特性的像素划分为一个类别,进而使得每个类别具有不同的语义。图像分割方法大致可以分为两类:传统的无监督方法和有监督的深度学习方法。
传统的图像分割方法主要分为五类[2]:(1)基于阈值的方法,(2)基于边缘的方法,(3)基于图的方法,(4)基于聚类的方法,(5)基于区域的方法。
作为最经典的分割方法,基于阈值的方法通过设定阈值,对图像的灰度直方图进行分类。其本质是利用区域内部灰度的一致性和区域间灰度的多样性[3],实现类内距离最小和类间距离最大。这种方法实现起来较为简单,但对于较复杂的图像分割任务,往往表现出较差的效果。
基于边缘的方法通过检测图像的边缘来分割图像[4]。其通常采用微分算子在图像上进行卷积操作,得到图像的边缘点,然后将它们连接起来形成闭合曲线,从而形成分割区域。然而,它们有一个常见的不足:生成的未闭合边界可能导致不充分的分割结果。
基于图的方法将图像的切分问题转换为图的划分问题。其具体思路是将图像映射到加权无向图,然后通过最小化给定的代价函数,将图划分为多个分量[5]。虽然基于图的方法拥有较好的分割效果,但是其计算量大且算法复杂。
基于聚类的方法是目前比较流行的分割方法之一[6]。其基本思想是将相似的像素点聚集为一个类别,反复迭代直至结果收敛。基于聚类的方法有一个局限性:需要预先设定聚类的簇数。
基于区域的方法包括区域生长法[7]和区域分裂合并法[8]。区域生长法选择一组种子点作为生长起点,根据生长准则将种子点附近与其相似的像素点归并到种子点所在的像素区域内,实现区域的生长扩张;区域分裂合并法通过相似性准则,将图像分裂为特性不同的区域,再将特性相同的区域进行合并,重复操作直至没有分裂和合并发生。
传统图像分割方法大多仅利用图像的表层信息,在拥有复杂语义信息的图像上则表现不佳。随着深度学习的发展,计算机视觉领域的研究者逐渐将卷积神经网络作为图像处理的主要手段。卷积神经网络(Convolutional Neural Network, CNN)模型可以充分学习并理解图像的语义信息,实现图像的语义级分割。于是,一系列基于深度学习的图像语义分割方法被提出,实现了更加精准且高效的分割,使得图像分割的应用范围得到了进一步的推广。本节将重点介绍基于深度学习的经典分割方法,全卷积网络[9](Fully Convolutional Networks,FCN),以及目前较为流行的基于深度学习的分割方法,Deep Lab。
FCN是深度学习用于语义分割的开创之作,确立了图像语义分割的通用网络模型架构。不同与普通的 CNN,FCN只由卷积层构成。因此,其允许输入任意尺寸的图像,使用反卷积层对最终的特征图(feature map)进行上采样,从而将feature map还原至原始尺寸,最终实现端到端的图像分割。在FCN模型中,由于经过多次卷积操作,feature map的尺寸远小于原始图像,且丢失了很多底层信息。如果直接对其进行分类,会导致图像分割精度较低。为此,FCN融合了多次卷积、池化过程中的输出,兼顾局部与全局信息。
Deep Lab系列模型[10][11][12]是Chen等人提出的深度卷积神经网络(Deep Convolutional Neural Network, DCNN)模型,其核心是使用atrous[10]对图像进行卷积,即采用在卷积核里插孔的方式。其不仅能在计算特征响应时明确地控制响应的分辨率,而且还能扩大卷积核的感受野,在不增加参数量和计算量的同时,能够整合更多的特征信息。
输入图像经过带有多孔卷积层的DCNN处理后,得到粗略的评分图。接着,在双线性内插值上采样后,引入全连接条件随机场[10](Conditional Random Fields,CRF)作为后处理,充分考虑全局信息,对目标边缘像素点进行更准确地分类,排除噪声干扰,从而提升分割精度。
传统的图像分割方法通过人为设定的某种规则来实现图像的分割,对同一张图像的多次分割结果通常是确定的。其规则的确定通常有两个步骤,即先在理论上论证该规则的合理性,再通过分割结果进一步验证其有效性。然而,实际的分割场景往往比验证环节更加复杂,预设的分割规则在一些细节处不能灵活地根据图像特征进行变通和调整,这导致传统的无监督分割方法的效果并不十分理想。基于深度学习的图像分割方法首先需要人为地对图像进行标注,再让模型在有标注的图像数据集上进行训练,使模型理解人的标注思想。这就存在三个问题:需要花费较多的人力对图像进行标注,模型需要海量的数据以提高表现,而海量的图像会带来庞大的标注工作;人为的标注结果会影响最终模型的标注性能,如果人为标注的数据集有偏差,可能会降低模型的表现;深度学习的不可解释性,不同于传统图像分割方法预设的规则,深度学习模型中对图像分割的规则的模型自己学习出来的,无法表示并让人理解。
实际上,基于深度学习的图像分割方法由于其有监督的特性,它的最大困境在于数据集的建立。理论上,只要数据集的规模足够的大,数据集中的图像标注质量足够的好,模型的分割效果就会特别好。另一方面,由于预训练阶段的引入,现有的深度学习模型通常在海量的数据集上进行预训练,再在下游任务中进行微调,以匹配实际需求。因此,传统方法对深度学习方法的提升可能更多地落在数据集方面:即使用传统的图像分割方法分割海量的图像,构建数据集供模型进行预训练,最后在下游的分割任务中进行微调。其次,除了海量数据集和海量参数可以提升模型的表现,图像数据本身的理解也是一条出路:在数据集不变的情况下,如何构建模型,使得其可以更好地理解数据;对图像进行预处理,保留有利于分割的特征,抑制无效特征,不直接将原始的图像数据输入模型。传统方法由于其可解释性,可以很好地与深度学习模型的构建进行结合,使模型更侧重于有利特征。此外,也可以使用传统方法对图像进行预处理,如使用传统方法对图像进行边缘增强,再输入深度学习模型进行训练,便于模型更好更快地捕获边缘信息。
传统分割方法的参数通常不能根据图像进行自适应,导致其鲁棒性较差。深度学习的出现可以很好地解决这个问题,即使用深度学习模型来根据图像确定最优的分割参数,使传统的分割方法可以在多样的图像数据集中拥有稳定的表现。
[1] Yulong Cai, Siheng Mi, Jiahao Yan, Hong Peng, Xiaohui Luo, Qian Yang, Jun Wang. An unsupervised segmentation method based on dynamic threshold neural P systems for color images. Information Sciences. 2022.
[2] Peng Huang, Qi Zheng, Chao Liang. Overview of image segmentation methods. Journal of Wuhan University (SCIENCE EDITION), 2020. (in Chinese) 黄鹏, 郑淇, 梁超. 图像分割方法综述. 武汉大学学报(理学版). 2020.
[3] Eliza Yingzi Du, Chein-I Chang. Unsupervised approach to color video thresholding. International Conference on Acoustics, Speech, and Signal Processing. 2003.
[4] N. Senthilkumaran, R. Rajesh. Edge detection techniques for image segmentation – a survey of soft computing approaches. International Journal of Recent Trends in Engineering. 2009.
[5] Pedro F. Felzenszwalb, Daniel P. Huttenlocher. Efficient graph-based image segmentation. Int. J. Comput. Vision. 2004.
[6] Tao Lei, Xiaohong Jia, Yanning Zhang, Lifeng He, Hongying Meng, Asoke K. Nandi. Significantly fast and robust fuzzy c-means clustering algorithm based on morphological reconstruction and membership filtering. IEEE Trans. Fuzzy Syst. 2018.
[7] Yining Deng, B. S. Manjunath. Unsupervised segmentation of color-texture regions in images and video. IEEE Trans. Pattern Anal. Mach. Intell. 2001.
[8] Haifeng Sima, Ping Guo, Youfeng Zou, Zhiheng Wang, Mingliang Xu. Bottom-up merging segmentation for color images with complex areas. IEEE Trans. Syst. Man Cybern. Syst. 2018.
[9] Jonathan Long, Evan Shelhamer, Trevor Darrell. Fully convolutional networks for semantic segmentation. Conference on Computer Vision and Pattern Recognition. 2015.
[10] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected CRFs. Conference on Learning Representations. 2015.
[11] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Trans. Pattern Anal. Mach. Intell. 2018.
[12] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam. Encoder-Decoder with atrous separable convolution for semantic image segmentation. Computer Vision – ECCV. 2018