图像语义分割(二) —— denseCRF模型用于图像语义分割

斯坦福的2011年NIPS论文《Efficient Inference in Fully Connected CRFs with
Gaussian Edge Potentials》,阐述了如何使用高效的全连接条件随机场模型进行图像语义分割任务的应用。

一、CRF和denseCRF

基本的CRF模型是由一阶势函数和相邻元素构成的势函数所组成的图模型,很显然,在图像任务上,basic CRF模型一个劣势就是它只考虑了相邻的邻域元素,没有对整体进行考虑。
一个进一步的想法就是,将每一个像素点,对其他所有像素点都构成一个edge,达到稠密的全连接模型,此时面临的一个问题就是图像像素数目非常大,会有上万个点和数十亿的边,其计算复杂度导致模型几乎无法实施。
在Fully connected CRF中,随机场的吉布斯分布可以写作: P ( X ∣ I ) = 1 Z ( I ) e x p ( − ∑ c ϕ c ( X c ∣ I ) ) P(X|I)= \frac{1}{Z(I)}exp(-\sum_{c} \phi_c(X_c|I) ) P(XI)=Z(I)1exp(cϕc(XcI)),相应的吉布斯能量可以写作: E ( x ) = ∑ i ϕ u ( x i ) + ∑ i < j ϕ p ( x i , x j ) E(x)=\sum_{i}\phi_u(x_i)+\sum_{i<j}\phi_p(x_i,x_j) E(x)=iϕu(xi)+i<jϕp(xi,xj)
ϕ p ( x i , x j ) = μ ( x i , x j ) ∑ m = 1 K w ( m ) k ( m ) ( f i , f j ) \phi_p(x_i,x_j)=\mu(x_i,x_j)\sum_{m=1}^{K}w^{(m)}k^{(m)}(f_i,f_j) ϕp(xi,xj)=μ(xi,xj)m=1Kw(m)k(m)(fi,fj)
其中 k ( m ) k^{(m)} k(m)为高斯核,写作: k ( f i , f j ) = w ( 1 ) e x p ( − ∣ p i − p j ∣ 2 2 θ α 2 + w ( 2 ) e x p ( − ∣ p i − p j 2 ∣ 2 θ γ 2 ) ) k(f_i,f_j)=w^{(1)}exp(-\frac{|p_i-p_j|^2}{2\theta^2_\alpha}+w^{(2)}exp(-\frac{|p_i-p_j^2|}{2\theta_\gamma^2})) k(fi,fj)=w(1)exp(2θα2pipj2+w(2)exp(2θγ2pipj2))
该模型的一元势能包含了图像的形状、纹理、位置和颜色,二元势能使用了对比度敏感的的双核势能,CRF的二元势函数一般是描述像素点与像素点之间的关系,鼓励相似像素分配相同的标签,而相差较大的像素分配不同标签,而这个“距离”的定义与颜色值和实际相对距离有关,这样CRF能够使图像尽量在边界处分割。全连接CRF模型的不同就在于其二元势函数描述的是每一个像素与其他所有像素的关系,使用该模型在图像中的所有像素对上建立点对势能从而实现极大地细化和分割。

二、高效算法

平均近似场
基于KL散度,用 Q Q Q拟合分布 P P P,作者给出如下公式:
在这里插入图片描述
图像语义分割(二) —— denseCRF模型用于图像语义分割_第1张图片
此时的计算复杂度主要集中在Message Passing,其复杂度为 O ( N 2 ) O(N^2) O(N2)

高维滤波器卷积
将上面式子中的i != j转换成完全求和再减去一项,凑成离散卷积的形式,则有:
在这里插入图片描述
通过上下采样实现高效算法:
图像语义分割(二) —— denseCRF模型用于图像语义分割_第2张图片
此时的计算复杂度为 O ( N ) O(N) O(N)

三、参数学习

利用分段训练来学习模型参数。首先,使用Textonboost训练一元势能;然后,通过EM和高维滤波学习外观核参数,使用网格搜索内核参数;使用L-BFGS学习兼容性参数,使模型的对数似然最大化;使用平均场近似估计划分函数Z的梯度。

你可能感兴趣的:(深度学习与计算机视觉,语义分割)