从图像中将某个特定区域与其他部分进行分离并提取出来的处理就是图像分割。因为图像分割处理实际上就是区分图像中的“前景目标”和“背景”,所以通常又称之为图像的二值化处理。图像分割在图像分析、图像识别、图像检测等方面占有非常重要的低位。
在计算机视觉领域,图像分割(Segmentation)指的是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。图像分割通常用于定位图像中的物体和边界(线,曲线等)
更精确的,图像分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。图像分割的结果是图像上子区域的集合(这些子区域的全体覆盖了整个图像),或是从图像中提取的轮廓线的集合(例如边缘检测)。一个子区域中的每个像素在某种特性的度量下或是由计算得出的特性都是相似的,例如颜色、亮度、纹理。邻接区域在某种特性的度量下有很大的不同。
在图像分割的处理中,其实可以将图像视作是由像素组成的有序集合,而图像分割就是将此集合按照某种规则划分出若干子集的过程。
在图像分割的处理中,其实可以将图像视作是由像素组成的有序集合,而图像分割就是将此集合按照某种规则划分出若干子集的过程。
图像分割的方法依照分割时所依据的图像特征不同,大致可以分为三大类:
1)阈值方法:这种方法是根据图像的灰度值分布特性来确定某个阈值来进行图像分割;
2)边界分割法:这种方法是通过检测出封闭某个区域的边界来进行图像分割的。通俗的讲,这类方法实际上就是沿着闭合的边缘线将其包围的区域剪切出来;
3)区域提取方法:这类方法的特点是根据特定区域与其他背景区域特性上的不同来进行图像分割。
通常我们总是习惯在相应的起点和终点之间用直线段相连, 并求取相应的直线距离, 即欧氏距离。
但是, 这种方法并非对所有的情况都有效, 当两点间的直线段有一部分不落在所考虑的区域之内时(如小船在湖泊中航行的例子), 欧氏距离对所讨论的问题实际上是没有意义的, 这就是欧距离在 空间分析过程中的局限性。其原因在于定义区域中两点间的距离时, 没有考虑到区域的连通性, 只考虑了起点和终点间的抽象距离。
测地距离是数学形态学中的一个重要概念,主要用于流域分割(流域又称集水区域,是指流经其中的水流和其它物质从一个公共的出水口排出从而形 成一个集中的排水区域)。
如下图一连通图形所示,A、B是其中两点,按通常欧式距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离)的定义,A、B间的距离应为直线段AB的长度,但是有时线段AB的一部分可能会不包括在连通图形X内,如在下图中线段AB就有一段没有包含在连通的图形中,因此这种距离有其不合理的一面。现用如下方法重新定义A、B之间的距离:由于下图是连通的,故在所给图一的连通图形中至少有一条线路可以连接A、B两点,如下图一所示,所有这些线中最短的一条称为A、B间的测地弧。测地弧的长度称为A、B间的测地距离,记为D(A-B)。
SIFT(Scale-invariant feature transform):尺度不变特征变换,是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。
SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。
SIFT特征虽然也能描述一幅图像,但是每个SIFT矢量都是128维的,而且一幅图像通常都包含成百上千个SIFT矢量,在进行相似度计算时,这个计算量是非常大的,通行的做法是用聚类算法(如K-means)对这些矢量数据进行聚类,然后用聚类中的一个簇代表BOW中的一个视觉词,将同一幅图像的SIFT矢量映射到视觉词序列生成码本,这样每一幅图像只用一个码本矢量来描述,这样计算相似度时效率就大大提高了。
DPM(Deformable Part Model):可变部件模型
DPM是一个非常成功的目标检测算法,连续获得VOC(Visual Object Class)07,08,09年的检测冠军。目前已成为众多分类器、分割、人体姿态和行为分类的重要部分。2010年Pedro Felzenszwalb被VOC授予"终身成就奖"。DPM可以看做是HOG(Histogrrams of Oriented Gradients)的扩展,大体思路与HOG一致。先计算梯度方向直方图,然后用SVM(Surpport Vector Machine )训练得到物体的梯度模型(Model)。有了这样的模板就可以直接用来分类了,简单理解就是模型和目标匹配。DPM只是在模型上做了很多改进工作。
计算机视觉的三个基本任务:
1)对象检测(object detection)
2)对象跟踪(object tracking)
3)对象分割(object segmentation)
对象检测的目标:检测并定位图像或视频中的各类对象。对象类别:如人脸、行人、小汽车等。
算法主要有:Haar-like、HOG、LBP、DPM
HOG: 不能检测人的各种变化(人的关节会动)。
DPM:需要离线训练且训练样本成本高。在实际使用时,不能处理大的变化。
Video可比静态图像提供额外的信息:optical flow和motion constraints,这些信息可以辅助对象检测。运动特征计算量大。
对于图像或视频,收集完整的训练数据成本很高。所以基本一个基本模型,进行在线学习,从而获得分类的经验。
所有相关的方法其计算量很大
1)Markov-Chain Monte-Carlo Data Association (MCMCDA)
把人从背景中扣出来。
1)Superpixels