论文阅读---“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts

论文阅读—“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts

摘要:

高效、交互式的静态图像前景/背景分割问题在图像编辑中具有重要的现实意义。经典的图像分割工具使用纹理(颜色)信息,例如:Magic Wand、或边缘(对比度)信息如 Intelligent Scissors。最近,一种基于图切割的优化方法成功地结合了这两种信息。本文从三个方面对graph-cut方法进行扩展。第一:我们开发了一个更强大的迭代优化版本;第二:迭代算法的强大功能大大简化了给定质量结果所需的用户交互;第三:提出了一种稳健的border matting算法,可以同时估计物体边缘的alpha-matte和前景像素的颜色。我们证明,对于中等难度的例子,提出的方法优于竞争工具。

Keywords:

Interactive Image Segmentation, Graph Cuts, Image Editing, Foreground extraction, Alpha Matting

1 Introduction

\qquad 本文讨论了在复杂环境中,在背景不能被简单去除的情况下,高效、交互式地提取前景对象的问题。得到的前景对象是一个alpha-matter,它反映了前景和背景的比例。目的是以用户的交互为代价实现高性能。在这个任务中高性能包括:正确的从背景中分割出目标物;主观上令人信服的alpha值,以反应模糊、混合像素和透明度;清晰地前景色,没有背景色溢出。一般来说,交互工作的程度从编辑单个像素(极度劳动密集型)到仅仅在几个位置触摸前景和/或背景。

1.1 Previous approaches to interactive matting

1.2 Proposed system: GrabCut

\qquad 理想情况下,一个matting工具在没有硬约束的情况下,能够在trimap的Tu区域产生连续的alpha值,alpha值只能是0或1。这样,涉及烟雾、毛发、树木等的问题,可以以自动方式适当处理。然而,在我们的经验中,然而,在我们的经验中,当前景和背景的颜色分布有足够的分离时,解决一般的matting问题而设计的技术[Ru-zon and Tomasi 2000; Chuang et al. 2001]是有效的,但在伪目标中时无效的,事实上,在伪装情况下,一般的matting问题是无法解决的,从某种意义上说,人类会很难察觉到完整的遮光。
\qquad 首先我们使用迭代图割得到硬分割(在第二节和第三节)。然后 通过border matting(第四节)在硬分割边缘计算alpha的值。最后实现边缘以外的背景透明。然而,使用[Chuang et al. 2001]的 matting brush就可以做到这一点,根据我们的经验,这在完全没有伪装的区域效果很好。
\qquad 我们方法的新颖之处首先在于对分割的处理。我们对GraphCut方法做了两个增强:迭代估计和不完全标记,它们一起允许在给定的结果下大大减少用户交互的程度 (fig. 2f)。这允许GrabCut给用户施加一个轻量级的负载,用户的交互只是简单地在想要的对象周围拖动一个矩形。这样做,用户指示背景区域,而不需要标记前景区域。其次,我们开发了一种新的Alpha计算机制,用于border matting,通过阿尔法值的正则化来减少可见的人工痕迹。
论文阅读---“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts_第1张图片

2 Image segmentation by graph cut

首先,详细描述了Boykov和Jolly的分割方法,这是构建GrabCut的基础。

2.1 Image segmentation

2.2 Segmentation by energy minimization

3 The GrabCut segmentation algorithm

这一部分描述了GrabCut硬分割算法的新部分:迭代估计和不完全标注。

3.1 Color data modelling

\qquad 图像现在被认为是由RGB颜色空间中的像素 z n z_n zn组成的。由于构建足够的颜色空间直方图是不切实际的,我们遵循已经用于软分割的实践[Ru-zon and Tomasi 2000; Chuang et al. 2001]和 G M M S GMM_S GMMS,每个GMM,一个用于背景,一个用于前景,被认为是具有K个分量(通常K=5)的全协方差高斯混合。为了便于处理GMM,在优化框架中,引入附加向量 k = { k 1 , . . . , k n , . . . , k N } k=\left \{ k_1,...,k_n,...,k_N \right \} k={k1,...,kn,...,kN},其中 k n ∈ { 1 , . . . , K } k_n\in \left \{ 1,...,K \right \} kn{1,...,K} ,向每个像素分配唯一的高斯混合模型分量,根据 α n = 0   o r   1 \alpha _n=0\:or\:1 αn=0or1,来判断是背景模型的GMM分量还是前景模型的GMM分量。
\qquad 那么分割的Gibbs能量变为: E ( α ‾ , k , θ ‾ , z ) = U ( α ‾ , k , θ ‾ , z ) + V ( α ‾ , z ) ( 7 ) \mathbf{E}(\underline{\alpha}, \mathbf{k}, \underline{\theta}, \mathbf{z})=U(\underline{\alpha}, \mathbf{k}, \underline{\theta}, \mathbf{z})+V(\underline{\alpha}, \mathbf{z})\qquad(7) E(α,k,θ,z)=U(α,k,θ,z)+V(α,z)(7)也取决于GMM分量变量k。现在定义数据项U,考虑到颜色GMM模型,如下: U ( α ‾ , k , θ ‾ , z ) = ∑ n D ( α n , k n , θ ‾ , z n ) ( 8 ) U(\underline{\alpha}, \mathbf{k}, \underline{\theta}, \mathbf{z})=\sum_{n} D\left(\alpha_{n}, k_{n}, \underline{\theta}, z_{n}\right)\qquad(8) U(α,k,θ,z)=nD(αn,kn,θ,zn)(8)其中, D ( α n , k n , θ ‾ , z n ) = − log ⁡ p ( z n ∣ α n , k n , θ ‾ ) − log ⁡ π ( α n , k n ) D\left(\alpha_{n}, k_{n}, \underline{\theta}, z_{n}\right)=-\log p\left(z_{n} \mid \alpha_{n}, k_{n}, \underline{\theta}\right)-\log \pi\left(\alpha_{n}, k_{n}\right) D(αn,kn,θ,zn)=logp(znαn,kn,θ)logπ(αn,kn),P(·)是高斯概率分布,π(·)是混合加权系数,因此(在某常数下): D ( α n , k n , θ ‾ , z n ) = − log ⁡ π ( α n , k n ) + 1 2 log ⁡ det ⁡ Σ ( α n , k n ) + 1 2 [ z n − μ ( α n , k n ) ] ⊤ Σ ( α n , k n ) − 1 [ z n − μ ( α n , k n ) ] ( 9 ) \begin{array}{c} D\left(\alpha_{n}, k_{n}, \underline{\theta}, z_{n}\right)=-\log \pi\left(\alpha_{n}, k_{n}\right)+\frac{1}{2} \log \operatorname{det} \Sigma\left(\alpha_{n}, k_{n}\right) \\+\frac{1}{2}\left[z_{n}-\mu\left(\alpha_{n}, k_{n}\right)\right]^{\top} \Sigma\left(\alpha_{n}, k_{n}\right)^{-1}\left[z_{n}-\mu\left(\alpha_{n}, k_{n}\right)\right] \end{array}\qquad(9) D(αn,kn,θ,zn)=logπ(αn,kn)+21logdetΣ(αn,kn)+21[znμ(αn,kn)]Σ(αn,kn)1[znμ(αn,kn)](9)因此,模型现在的参数是: θ ‾ = { π ( α , k ) , μ ( α , k ) , Σ ( α , k ) , α = 0 , 1 , k = 1 … K } ( 10 ) \underline{\theta}=\{\pi(\alpha, k), \mu(\alpha, k), \Sigma(\alpha, k), \alpha=0,1, k=1 \ldots K\}\qquad(10) θ={π(α,k),μ(α,k),Σ(α,k),α=0,1,k=1K}(10)即背景和前景分布的2K高斯分量的权重π、均值µ和协方差Σ。除了使用色彩空间中的欧式距离计算对比项之外,平滑项V与单色情况(4)基本不变: V ( α ‾ , z ) = γ ∑ ( m , n ) ∈ C [ α n ≠ α m ] exp ⁡ − β ∥ z m − z n ∥ 2 ( 11 ) V(\underline{\alpha}, \mathbf{z})=\gamma \sum_{(m, n) \in \mathbf{C}}\left[\alpha_{n} \neq \alpha_{m}\right] \exp -\beta\left\|z_{m}-z_{n}\right\|^{2}\qquad(11) V(α,z)=γ(m,n)C[αn=αm]expβzmzn2(11)

3.2 Segmentation by iterative energy minimization

\qquad GrabCut中新的能量最小化方案以迭代方式工作,取代了以前的一次性算法 [Boykov and Jolly 2001]。这种方法的优点是可以自动细化不透明度α,因为新标记的像素来自初始trimap的 T u T_u Tu区域,用于细化颜色GMM参数 θ ‾ \underline{\theta} θ。GrabCut系统的主要组成部分如图3所示。步骤1很简单,通过简单地枚举每个像素n的 k n k_n kn值来完成;步骤2为一组高斯参数估计程序,实现如下:对于前景模型中给定的GMM分量k,定义像素子集 F ( k ) = { z n : k n = k  and  α n = 1 } F(k)=\left\{z_{n}: k_{n}=k \text { and } \alpha_{n}=1\right\} F(k)={zn:kn=k and αn=1}。均值 μ ( α , k ) \mu \left ( \alpha ,k \right ) μ(α,k)和协方差 ∑ ( α , k ) \sum \left ( \alpha ,k \right ) (α,k)以标准方式估计为F(k)中像素值的样本均值和协方差,权重为 π ( α , k ) = ∣ F ( k ) ∣ / ∑ k ∣ F ( k ) ∣ \pi(\alpha, k)=|F(k)| / \sum_{k}|F(k)| π(α,k)=F(k)/kF(k),其中|S|表示集合S的大小;最后第3步是全局优化,使用最小割,正如[Boykov and Jolly 2001]。
论文阅读---“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts_第2张图片
论文阅读---“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts_第3张图片

\qquad 算法的结构保证了适当的收敛性。这是因为迭代最小化的步骤1到3都可以被证明是总能量E相对于三组变量 k , θ ‾ , α ‾ k,\underline{\theta},\underline{\alpha} k,θ,α的最小值。因此E是单调减少的,这在图4中说明了,从而保证算法至少收敛到E的局部最小值。可以直接检测E何时停止显著下降,并自动终止迭代。
\qquad 迭代最小化的实际好处:图2e和2f说明了与单次图割[Boykov and Jolly 2001]方法相比,GrabCut中迭代最小化的附加能力如何显著减少完成分割任务所需的用户交互量。这在两个方面都很明显。首先,在初始化和优化之后,降低所需的用户编辑程度。其次,初始交互可以更简单,例如通过允许用户进行不完整的标记,如下所述。

3.3 User Interaction and incomplete trimaps

不完全trimaps。迭代最小化算法允许增加用户交互的多功能性。具体地说,不完全标注是可行的,例如,用户只需要指定背景区域 T B T_B TB,让 T F = 0 TF= 0 TF=0,而不用标记完全的trimap T T T。不需要进行前景标记。迭代最小化(fig. 3)通过在一些像素(在前景中)上可收回的临时标签来处理这种不完全标记;只有背景标签 T B T_B TB被认为是固定的-保证以后不会被收回。(当然,也有一个补充方案,只为前景贴上固定的标签。也是可能的。)在我们的实现中,初始 T B T_B TB由用户确定为标记矩形(在图2f中用红色标记)外围的一条像素。
进一步的用户编辑。初始的、不完整的用户标签通常足以让整个分割自动完成,但并非总是如此。如果没有,则需要用户进一步编辑[Boykov and Jolly 2001],如图5所示。它采用刷像素的形式,将其限制为固定前景或固定背景;然后是能量最小化(图三中的第三步)。请注意,粗略地刷一下部分错误标记的区域就足够了。此外,随着用户的标记,图三也会更新颜色模型。请注意,为了提高效率,由Graph Cut计算的最佳流可以在用户编辑期间重复使用。
论文阅读---“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts_第4张图片

4 Transparency

\qquad 考虑到matting工具应该能够产生连续的alpha值,我们现在描述了一种机制,通过该机制,如上所述的硬分割可以通过“border matting”来增强,在硬分割边界周围的窄条上允许完全透明。这足以处理在光滑物体边界上存在模糊和混合像素时的问题。技术问题是:在不产生维影的情况下估计条带的alpha-map,并恢复前景色,避免颜色从背景流失。

4.1order Matting

\qquad Border matting从一个封闭的轮廓c开始,该轮廓c是由上一节的迭代硬分割的分割边界经拟合一条折线得到的。

你可能感兴趣的:(计算机视觉,图像处理,人工智能)