图像分割(简称图割),是将一个有向图分割成两个互不相交的集合,可以用来解决很多计算机视觉方面的问题,诸如立体深度重建、图像拼接和图像分割等。从图像像素和像素的近邻创建一个图并引入一个能量或“代价”函数,我们便可以利用图割方法将图像分割成两个或多个区域。图割的基本思想是,相似且彼此相近的像素应该划分到同一个区域。
Graph cut是一种十分有用和流行的能量优化算法,在计算机视觉领域普遍应用于前背景分割、立体视觉、抠图等。
Graph cut算法仅需要在前景和背景处各画几笔作为输入,算法将建立各个像素点与前景背景相似度的赋权图,并通过求解最小切割区分前景和背景。
普通的图由顶点和边构成,如果边有方向,这样的图为有向图,否则为无向图,且边是有权值的,不同的边可以有不同的权值。
Graph cut是在普通图的基础上多了2个顶点,这2个顶点分别用符号“S”和“T”表示,统称为终端顶点。其它所有的顶点都必须和这2个顶点相连形成边集合中的一部分。(如下图所示)
如上图所示,将图中的像素点作为图中的点集,相邻像素通过边相连,另外多出的两个点S,T分别代表的是归于前景的点和归于背景的点。对每个边设置相应的权重,图割的目的就在于利用最小割的方法将边缘部分进行分割,此时的能量值(损失值)最小,由此得到对应的S,T集合,达到分割的目的。过程如下图所示(其中B,O代表事先设置的种子点,由此知道分割出来的部分哪个代表背景,哪个代表目标;B代表该点属于背景点,O代表该点属于目标点):
from pygraph.classes.digraph import digraph
from pygraph.algorithms.minmax import maximum_flow
gr = digraph()
gr.add_nodes([0,1,2,3])
gr.add_edge((0,1), wt=4)
gr.add_edge((1,2), wt=3)
gr.add_edge((2,3), wt=5)
gr.add_edge((0,2), wt=3)
gr.add_edge((1,3), wt=4)
flows,cuts = maximum_flow(gr, 0, 3)
print ('flow is:' , flows)
print ('cut is:' , cuts)
from scipy.misc import imresize
from PCV.tools import graphcut
from PIL import Image
from numpy import *
from pylab import *
im = array(Image.open("empire.jpg"))
im = imresize(im, 0.07)
size = im.shape[:2]
print ("OK!!")
# add two rectangular training regions
labels = zeros(size)
labels[3:18, 3:18] = -1
labels[-18:-3, -18:-3] = 1
print ("OK!!")
# create graph
g = graphcut.build_bayes_graph(im, labels, kappa=1)
# cut the graph
res = graphcut.cut_graph(g, size)
print ("OK!!")
figure()
graphcut.show_labeling(im, labels)
figure()
imshow(res)
gray()
axis('off')
show()
利用贝叶斯模型进行图割(图像降采样到54×38大小),设置变量kappa(决定近邻像素间边的相对权重)值为1
用于模型训练的标记图像:
分割的结果(kappa=1):
当变量kappa调整为2时:
分割后的图像为:
可以发现,kappa的值增大时,图像分割后的边界变得比较平滑。