Title:A closed Form Solution to Natural Image Matting.
(备注 : 2006 cvpr, pdf链接: https://pan.baidu.com/s/1i6HlQ09 ;提取密码: f4d7 )
最近由于项目需求,读了一些关于image matting的paper,觉得其中有些分析、假设非常有趣,故作此总结,方便日后查阅。
为方便叙述,这里先假设输入图片image是gray的,后面再扩展为BGR的。
Remark 1. compositing equation
首先,对于一张 input image(包含前景信息、背景信息,关于一个物体在image是是属于前景还是背景,我的理解是要看它是否在景深Depth of Field范围之内,如果在景深范围内,则属于前景;反之,则属于背景),那么我们完全可以将该图片看成是前景图和背景图的合成图,于是便有了上述的合成公式。值得注意的是:公式中的alpha_i的取值是介于0-1之间的,当它取值为0时,表示image中,该pixel完全由背景图Bi贡献;如果它取值为1,则表示该pixel完全由前景图Fi贡献;其它情形则表示前后背景图的线性组合。
其次,如果I是gray的,则对于确定的pixel I_i,(1)包含3个未知数;相应地,如果是BGR,则(1)包含三个方程共7个未知数,显然这样的问题是一个欠约束问题,因此,为了求解该问题,必须加入一些constraint。
Remark 2.F、B local smoothness
这个特性应该是绝大多数图像都具有的特性,也就是在局部的windows内,pixel的取值几乎为同一个常数。需要指出的是,这里的假设是F和B具有局部光滑性,而不是针对原始的image I 的假设。而且,F和B局部光滑未必意味着I也是局部光滑,这是因为alpha的取值如果不连续,往往会造成I的不光滑。基于这样的假设,可以将(1)重写为
基于假设,在局部的window内,F和B具有光滑性,因此F_i - B_i在该窗口内为常数,从而得到(2).
Remark 3. 关于Cost function
对于论文中给出的这个Cost function,熟悉机器学习的同学对于这种形态的loss function应该熟烂于心了吧。它合理吗?首先来看第二个求和符号内的误差项,极小化它意味着想要在window_j内要尽可能地照顾到每一个alpha_i,这就要求该窗口参数a_j和b_j学得准确。至于为什么是平方损失而不是其他诸如绝对值之类的损失呢,主要是考虑到平方损失方便求解;其次,第二项则想要表达线性参数a_j要具有smooth的特性,不能让它的值在相邻窗口变化得太剧烈。综合来看,这个Cost function的设置是合理的。
Remark 4. Theorem1
个人觉得定理1是论文中神来之笔的地方。作者对(3)关于a、b进行min操作,得到(4),而(4)是一个关于线性系数alpha的二次型,而且L是正定矩阵,这就意味着基于之前的假设可以得到全局唯一解,而且是全局最优解。
下面简要论述最优解的求解过程,对于(4)描述的优化问题,显然是一个没有最小只有更小的的问题(不要问为什么),因此需要对alpha加一些约束,例如:
然后利用Lagrange乘子法,到目标函数关于alpha求导置0,可以求得(5)中最优的alpha即为matting矩阵L最小的特征值所对应的特征向量,而L完全由输入的image决定!
Remark 5.Color line model
如何理解论文中所谓的color line model呢?首先来看在Remark 2中我们关于F、B局部光滑性的假设,对于gray iamge,我们假设F、B是局部光滑的,意味着在局部的window内,F_j和B_j是一个常数。对于BGR image,Color line model则放松了这个假设,在局部的window内,它允许F_j和B_j为某个颜色的线性组合,意味着在window内,F_j和B_j可以在一定范围内变化,即: 。
Remark 6.Constraints and User Interface
前面已经说指出(1)是一个欠约束问题,实际场景中,我们往往可以很确信地指出那一部分肯定是前景或者背景,利用scribble-based GUI,我们可以得到一个初始化的alpha matte S,从而将优化问题(4)转化为如下的形式:
上图(b)、(d)展示了论文中给出的matting得到的alpha_map,相应的alpha matte为(a)、(c)。定理3从理论上保证了,如果在每个窗口中F和B都满足color line model,且alpha matte不存在错误的话,便可得到最优解alpha_start.