在图像处理的过程中,我们经常需要将前景对象从图像中提取出来。例如,在视频监控中,观测到的是固定背景下的视频内容,而我们对背景本身并无兴趣,感兴趣的是背景中出现的车辆、行人或者其他对象。我们希望将这些对象从视频中提取出来,而忽略那些没有对象进入背景的视频内容。
图像分割是图像处理过程中一种非常重要的操作。分水岭算法将图像形象地比喻为地理学上的地形表面,实现图像分割,该算法非常有效。
任何一幅灰度图像,都可以被看作是地理学上的地形表面,灰度值高的区域可以被看成是山峰,灰度值低的区域可以被看成是山谷。如下图所示,其中左图是原始图像,右图是其对应的“地形表面”。
如果我们向每一个山谷中“灌注”不同颜色的水(这里采用了OpenCV官网的表述,冈萨雷斯将灌注表述为在山谷中打洞,然后让水穿过洞以均匀的速率上升)。那么,随着水位不断地升高,不同山谷的水就会汇集到一起。在这个过程中,为了防止不同山谷的水交汇,我们需要在水流可能汇合的地方构建堤坝。该过程将图像分成两个不同的集合:集水盆地和分水岭线。我们构建的堤坝就是分水岭线,也即对原始图像的分割。这就是分水岭算法。
下图中左图是原始图像,右图是使用分水岭算法得到的图像分割结果。在CMM的网站上不仅提供了该示例图像,还提供了动画演示效果,有兴趣的读者可以去网站上看看。
但是由于噪声等因素的影响,采用上述基础分水岭算法经常会得到过度分割的结果。过度分割会将图像划分为一个个稠密的独立小块,让分割失去了意义。下图展示了过度分割的图像。其中左图是电泳现象的图像,右图是过度分割的结果图像,可以看到过度分割现象非常严重。
为了改善图像分割效果,人们提出了基于掩模的改进的分水岭算法。改进的分水岭算法允许用户将他认为是同一个分割区域的部分标注出来(被标注的部分就称为掩模)。这样,分水岭算法在处理时,就会将标注的部分处理为同一个分割区域。
在下图中,左图是原始图像,我们对其做了标注处理,其中被标注为深色的三个小色块表示:在使用掩模分水岭算法时,这些部分所包含的颜色都会被分割在同一个区域内。使用掩模分水岭算法得到的分割结果如图中的右图所示。
采用改进的分水岭算法对图中左侧的电泳图像进行掩模处理,得到右侧的分割结果。可以看出,分割结果得到明显的改进。
在OpenCV中,可以使用函数cv2.watershed()实现分水岭算法。在具体的实现过程中,还需要借助于形态学函数、距离变换函数 cv2.distanceTransform()、cv2.connectedComponents()来完成图像分割。下面对分水岭算法中用到的函数进行简单的说明。
在使用分水岭算法对图像进行分割前,需要对图像进行简单的形态学处理。先回顾一下形态学里的基本操作。
开运算: 开运算是先腐蚀、后膨胀的操作,开运算能够去除图像内的噪声。例如,在下图中,先对左图进行腐蚀操作,会得到中间的图像,再对中间的图像进行膨胀操作,会得到右侧的图像。对图像进行开运算,能够去除图像内的噪声。在用分水岭算法处理图像前,要先使用开运算去除图像内的噪声,以避免噪声对图像分割可能造成的干扰。
获取图像边界: 通过形态学操作和减法运算能够获取图像的边界。例如,在下图中,左图是原始图像,中间的图是对其进行腐蚀而得到的图像,对二者进行减法运算,就会得到右侧的图像。通过观察可知,右图是左图的边界。
通过以上分析可知,使用形态学操作和减法运算能够获取图像的边界信息。但是,形态学操作仅适用于比较简单的图像。如果图像内的前景对象存在连接的情况,使用形态学操作就无法准确获取各个子图像的边界了。
当图像内的各个子图没有连接时,可以直接使用形态学的腐蚀操作确定前景对象,但是如果图像内的子图连接在一起时,就很难确定前景对象了。此时,借助于距离变换函数cv2.distanceTransform()可以方便地将前景对象提取出来。
距离变换函数cv2.distanceTransform()计算二值图像内所有点到最近背景点的距离(即图像内非零值像素点到最近的零值像素点的距离)。当然,如果像素点本身的值为0,则这个距离也为0。
距离变换函数cv2.distanceTransform()的计算结果反映了图像内各个像素与背景(值为0的像素点)的距离关系。通常情况下:
如果对上述计算结果进行阈值化,就可以得到图像内前景对象的中心、骨架等信息。距离变换函数cv2.distanceTransform()可以用于计算对象的中心,还能细化轮廓、获取图像前景等,有多种功能。
距离变换函数cv2.distanceTransform()的语法格式为:
dst=cv2.distanceTransform(src,distanceType,maskSize[,dstType]])
示例:用距离变换函数 cv2.distanceTransform(),计算一幅图像的确定前景,并观察效果
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('img.jpg')
# img = cv2.imread('../sugar.tiff')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 阈值处理
rst, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
# 开运算
kernel = np.ones((3, 3), np.uint8)
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
# 图像距离计算
dist_transform = cv2.distanceTransform(opening, cv2.DIST_L2, 5)
# 获取前景对象的中心
rst, front = cv2.threshold(dist_transform, 0.7 * dist_transform.max(), 255, 0)
plt.subplot(161)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(162)
plt.imshow(gray_img, cmap='gray')
plt.title('gray_img')
plt.axis('off')
plt.subplot(163)
plt.imshow(thresh, cmap='gray')
plt.title('thresh')
plt.axis('off')
plt.subplot(164)
plt.imshow(opening, cmap='gray')
plt.title('opening')
plt.axis('off')
plt.subplot(165)
plt.imshow(dist_transform, cmap='gray')
plt.title('dist_transform')
plt.axis('off')
plt.subplot(166)
plt.imshow(front, cmap='gray')
plt.title('front')
plt.axis('off')
plt.show()
使用形态学的膨胀操作能够将图像内的前景“膨胀放大”。当图像内的前景被放大后,背景就会被“压缩”,所以此时得到的背景信息一定小于实际背景的,不包含前景的“确定背景”。以下为了方便说明将确定背景称为B。
距离变换函数cv2.distanceTransform()能够获取图像的“中心”,得到“确定前景”。为了方便说明,将确定前景称为F。
图像中有了确定前景F和确定背景B,剩下区域的就是未知区域UN了。这部分区域正是分水岭算法要进一步明确的区域
针对一幅图像O,通过以下关系能够得到未知区域UN:
对上述表达式进行整理,可以得到:
上式中的“图像O-确定背景B”,可以通过对图像进行形态学的膨胀操作得到。前景对象膨胀 = 图像o - 确定背景B
示例:标注一幅图像的确定前景确定背景及未知区域
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('img.jpg')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 阈值分割
rst, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
kernel = np.ones((3, 3), dtype=np.uint8)
# 开运算
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
# 膨胀
bg = cv2.dilate(opening, kernel, iterations=3)
# 距离计算
dist_tansform = cv2.distanceTransform(opening, cv2.DIST_L2, 5)
rst, fore = cv2.threshold(dist_tansform, 0.7 * dist_tansform.max(), 255, 0)
fore = np.uint8(fore)
un = cv2.subtract(bg, fore)
plt.subplot(221)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(222)
plt.imshow(bg)
plt.title('bg')
plt.axis('off')
plt.subplot(223)
plt.imshow(fore)
plt.title('fore')
plt.axis('off')
plt.subplot(224)
plt.imshow(un)
plt.title('un')
plt.axis('off')
plt.show()
注意的是,在图右上角的图像bg中:
明确了确定前景后,就可以对确定前景图像进行标注了。在 OpenCV 中,可以使用函数cv2.connectedComponents()进行标注。该函数会将背景标注为0,将其他的对象使用从1开始的正整数标注。
函数cv2.connectedComponents()的语法格式为:
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('img.jpg')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
rst, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
kernel = np.ones((3, 3), dtype=np.uint8)
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
sure_bg = cv2.dilate(opening, kernel, iterations=3)
dist_transform = cv2.distanceTransform(opening, cv2.DIST_L2, 5)
ret, fore = cv2.threshold(dist_transform, 0.7*dist_transform.max(), 255, 0)
fore = np.uint8(fore)
# 标注前景对象
rst, markers = cv2.connectedComponents(fore)
print(markers)
plt.subplot(131)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(132)
plt.imshow(fore)
plt.title('fore')
plt.axis('off')
plt.subplot(133)
plt.imshow(markers)
plt.title('markers')
plt.axis('off')
plt.show()
可以看到,前景图像的中心点被做了不同的标注
函数 cv2.connectedComponents()在标注图像时,会将背景标注为0,将其他的对象用从1开始的正整数标注。具体的对应关系为:
在分水岭算法中,标注值0代表未知区域。所以,我们要对函数cv2.connectedComponents()标注的结果进行调整:将标注的结果都加上数值1。经过上述处理后,在标注结果中:
为了能够使用分水岭算法,还需要对原始图像内的未知区域进行标注,将已经计算出来的未知区域标注为0即可。
ret,markers=cv2.connectedComponents(fore)
markers=markers+1
markers[未知区域]=0
示例:对cv2.connectedComponents()标注结果进行修正
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('img.jpg')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
rst, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
kernel = np.ones((3, 3), dtype=np.uint8)
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
sure_bg = cv2.dilate(opening, kernel, iterations=3)
dist_transform = cv2.distanceTransform(opening, cv2.DIST_L2, 5)
ret, fore = cv2.threshold(dist_transform, 0.7 * dist_transform.max(), 255, 0)
fore = np.uint8(fore)
rst, markers = cv2.connectedComponents(fore)
# 修正标注的前景对象
fore_adv = fore.copy()
unknown = cv2.subtract(sure_bg, fore_adv)
ret2, markers2 = cv2.connectedComponents(fore_adv)
markers2 += 1
markers2[unknown == 255] = 0
plt.subplot(141)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(142)
plt.imshow(fore)
plt.title('fore')
plt.axis('off')
plt.subplot(143)
plt.imshow(markers)
plt.title('markers')
plt.axis('off')
plt.subplot(144)
plt.imshow(markers2)
plt.title('markers2')
plt.axis('off')
plt.show()
对比左右图可以看出,右图在前景图像的边缘(未知区域)进行了标注,使得每一个确定前景都有一个黑色的边缘,这个边缘是被标注的未知区域。
OpenCV中的watershed函数实现的分水岭算法是基于“标记”的分割算法,用于解决传统的分水岭算法过度分割的问题。
完成上述图像预处理后,就可以使用分水岭算法对预处理结果图像进行分割了。在 OpenCV 中,实现分水岭算法的函数是cv2.watershed(),其语法格式为:
markers=cv2.watershed(image,markers)
image:是输入图像,必须是8位三通道的图像。
markers:是32位单通道的标注结果,它应该和image具有相等大小。
在对图像使用cv2.watershed()函数处理之前,必须先对图像进行预处理,用正数大致勾画出图像中的期望分割区域。每一个分割的区域会被标注为1、2、3等。对于尚未确定的区域,需要将它们标注为0。我们可以将标注区域理解为进行分水岭算法分割的“种子”区域。
在markers中,每一个像素要么被设置为初期的“种子值”,要么被设置为“-1”表示边界。
算法会根据markers传入的轮廓作为种子(也就是所谓的注水点),对图像上其他的像素点根据分水岭算法规则进行判断,并对每个像素点的区域归属进行划定,直到处理完图像上所有像素点。而区域与区域之间的分界处的值被置为“-1”,以做区分。
使用分水岭算法进行图像分割时,基本的步骤为:
1-6是图像预处理,只要是将图像中的未知区域标记为0,已知区域标注为1、2、3…,也就是标记种子区域。第7步是根据标注使用分水岭算法对图像进行分割。
示例:
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('img.jpg')
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
new_img = rgb_img.copy()
rst, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
kernel = np.ones((3, 3), np.uint8)
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
sure_bg = cv2.dilate(opening, kernel, iterations=3)
dist_transform = cv2.distanceTransform(opening, cv2.DIST_L2, 5)
ret, sure_fg = cv2.threshold(dist_transform, 0.7 * dist_transform.max(), 255, 0)
sure_fg = np.uint8(sure_fg)
unknown = cv2.subtract(sure_bg, sure_fg)
ret, markers = cv2.connectedComponents(sure_fg)
markers += 1
markers[unknown == 255] = 0
markers = cv2.watershed(new_img, markers)
new_img[markers == -1] = [0, 255, 0]
plt.subplot(121)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(122)
plt.imshow(new_img)
plt.title('rst')
plt.axis('off')
plt.show()
经典的前景提取技术主要使用纹理(颜色)信息,如魔术棒工具,或根据边缘(对比度)信息,如智能剪刀等完成。2004年,微软研究院(剑桥)的Rother等人在论文GrabCut:Interactive Foreground Extraction Using Iterated Graph Cuts中提出了交互式前景提取技术。他们提出的算法,仅需要做很少的交互操作,就能够准确地提取出前景图像。
在开始提取前景时,先用一个矩形框指定前景区域所在的大致位置范围,然后不断迭代地分割,直到达到最好的效果。 经过上述处理后,提取前景的效果可能并不理想,存在前景没有提取出来,或者将背景提取为前景的情况,此时需要用户干预提取过程。用户在原始图像的副本中(也可以是与原始图像大小相等的任意一幅图像),用白色标注要提取为前景的区域,用黑色标注要作为背景的区域。然后,将标注后的图像作为掩模,让算法继续迭代提取前景从而得到最终结果。
例如,对于下图的左图,先用矩形框将要提取的前景 Lena 框出来,再分别用白色和黑色对前景图像、背景图像进行标注。完成标注后,使用交互式前景提取算法,就会得到右图所示的结果图像。
下面我们来看GrabCut算法的具体实施过程。
将前景所在的大致位置使用矩形框标注出来。值得注意的是,此时矩形框框出的仅仅是前景的大致位置,其中既包含前景又包含背景,所以该区域实际上是未确定区域。但是,该区域以外的区域被认为是“确定背景”。
根据矩形框外部的“确定背景”数据来区分矩形框区域内的前景和背景。
用高斯混合模型(Gaussians Mixture Model,GMM)对前景和背景建模。GMM会根据用户的输入学习并创建新的像素分布。对未分类的像素(可能是背景也可能是前景),根据其与已知分类像素(前景和背景)的关系进行分类。
根据像素分布情况生成一幅图,图中的节点就是各个像素点。除了像素点之外,还有两个节点:前景节点和背景节点。所有的前景像素都和前景节点相连,所有的背景像素都和背景节点相连。每个像素连接到前景节点或背景节点的边的权重由像素是前景或背景的概率来决定。
图中的每个像素除了与前景节点或背景节点相连外,彼此之间还存在着连接。两个像素连接的边的权重值由它们的相似性决定,两个像素的颜色越接近,边的权重值越大。
完成节点连接后,需要解决的问题变成了一幅连通的图。在该图上根据各自边的权重关系进行切割,将不同的点划分为前景节点和背景节点。
不断重复上述过程,直至分类收敛为止。
OpenCV 的官网上有更详细的资料(http://www.cs.ru.ac.za/research/g02m1682/),读者有兴趣的话可以进一步学习。
在OpenCV中,实现交互式前景提取的函数是cv2.grabCut(),其语法格式为:
mask,bgdModel,fgdModel=cv2.grabCut(img,mask,rect,bgdModel,fgdModel,iterCount[,mode])
img:为输入图像,要求是8位3通道的。
mask:为掩模图像,要求是8位单通道的。该参数用于确定前景区域、背景区域和不确定区域,可以设置为4种形式。
注意,mask不仅是做为参数的使用的掩膜图像,同时也是同时也是grabCut函数处理完后的结果掩膜图像,我们会根据这个结果掩膜图像提取前景对象。
在最后使用模板提取前景时,会将参数值0和2合并为背景(均当作0处理),将参数值1和3合并为前景(均当作1处理)。在通常情况下,我们可以使用白色笔刷和黑色笔刷在掩模图像上做标记,再通过转换将其中的白色像素设置为0,黑色像素设置为1。
rect:指包含前景对象的区域,该区域外的部分被认为是“确定背景”。因此,在选取时务必确保让前景包含在rect指定的范围内;否则,rect外的前景部分是不会被提取出来的。只有当参数mode的值被设置为矩形模式cv2.GC_INIT_WITH_RECT时,参数rect才有意义。其格式为(x,y,w,h),分别表示区域左上角像素的x轴和y轴坐标以及区域的宽度和高度。如果前景位于右下方,又不想判断原始图像的大小,对于w 和h可以直接用一个很大的值。使用掩模模式时,将该值设置为none即可。
bgdModel:为算法内部使用的数组,只需要创建大小为(1,65)的numpy.float64数组。
fgdModel:为算法内部使用的数组,只需要创建大小为(1,65)的numpy.float64数组。
iterCount:表示迭代的次数。
mode:表示迭代模式。其可能的值与含义如表所示。
函数的返回值为mask,bgdModel,fgdModel
示例1:使用GrabCut 算法提取图像的前景,并观察提取效果。
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('../lena512color.tiff')
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
mask = np.zeros(img.shape[:2], dtype=np.uint8)
bgd_model = np.zeros((1, 65), dtype=np.float64)
fgd_model = np.zeros((1, 65), dtype=np.float64)
rect = (50, 50, 500, 500)
# 函数的返回值为mask,bgdModel,fgdModel
cv2.grabCut(img, mask, rect, bgd_model, fgd_model, 5, cv2.GC_INIT_WITH_RECT)
print(mask)
mask2 = np.where((mask == 2) | (mask == 0), 0, 1).astype('uint8')
rst = img * mask2[:, :, np.newaxis]
rst = cv2.cvtColor(rst, cv2.COLOR_BGR2RGB)
plt.subplot(121)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(122)
plt.imshow(rst)
plt.title('rst')
plt.axis('off')
plt.show()
可以看到,在不使用掩模(掩模值都设置为默认值0时),函数 cv2.grabCut()的处理效果并不太好:提取左图的前景时,人物的帽子没有提取完整。对于有些图像,也有可能将背景错误地提取出来。
为了得到完整的前景对象,需要做一些改进。这里对原始图像进行标注,**将需要保留的部分设置为白色,将需要删除的背景设置为黑色。**以标记好的图像作为模板,使用函数cv2.grabCut()完成前景的提取。
这个过程主要包含以下步骤:
需要注意,在上述步骤中,使用画笔标记的模板图像m0不能直接作为模板(即参数mask)使用。函数cv2.grabCut()要求,参数mask的值必须是cv2.GC_BGD(确定背景)、cv2.GC_FGD(确定前景)、cv2.GC_PR_BGD(可能的背景)、cv2.GC_PR_FGD(可能的前景),或者是0、1、2、3之中的值。 此时的模板图像 m0中,存在着[0,255]内的值,所以它的值不满足函数cv2.grabCut()的要求,无法作为参数mask直接使用。必须先将模板图像m0中的白色值和黑色值映射到模板m上,再将模板图像m作为函数cv2.grabCut()的模板参数。
import cv2
import numpy as np
import matplotlib.pyplot as plt
img = cv2.imread('lena512color.tiff')
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 对前景对象进行初步提取,获取初步mask
mask = np.zeros(img.shape[:2], dtype=np.uint8)
bgd = np.zeros((1, 65), dtype=np.float64)
fgd = np.zeros((1, 65), dtype=np.float64)
rect = (50, 50, 500, 500)
cv2.grabCut(img, mask, rect, bgd, fgd, 5, cv2.GC_INIT_WITH_RECT)
# 读取模板,根据模板设置得到的初始mask
mask2 = cv2.imread('m.tiff')
rgb_mask2 = cv2.cvtColor(mask2, cv2.COLOR_BGR2RGB)
gray_mask2 = cv2.cvtColor(mask2, cv2.COLOR_BGR2GRAY)
mask[gray_mask2 == 0] = 0
mask[gray_mask2 == 255] = 1
# 根据修改后的mask再次进行前景对象提取
cv2.grabCut(img, mask, None, bgd, fgd, 5, cv2.GC_INIT_WITH_MASK)
mask = np.where((mask == 2) | (mask == 0), 0, 1).astype('uint8')
# 根据得到的mask提取前景对象
new_img = rgb_img.copy()
rst = new_img * mask[:, :, np.newaxis]
plt.subplot(131)
plt.imshow(rgb_img)
plt.title('img')
plt.axis('off')
plt.subplot(132)
plt.imshow(rgb_mask2)
plt.title('m')
plt.axis('off')
plt.subplot(133)
plt.imshow(rst)
plt.title('rst')
plt.axis('off')
plt.show()