论文阅读——MODNet: Real-Time Trimap-Free Portrait Matting via Objective Decomposition

一、摘要

论文提出一个轻量级的抠图目标分解网络(MODNet)用于人物的实时抠图,且输入为单一图片,不需要提供诸如trimap的其他输入。主要改进在于通过显示约束同时优化一系列子目标。另外本论文有两个改进技术。一是融合了多尺度特征的语义估计e-ASPP。二是自监督的子目标一致策略。实验证明,速度够快,且该方法可运用于图片和视频。

论文阅读——MODNet: Real-Time Trimap-Free Portrait Matting via Objective Decomposition_第1张图片

二、方法

MODNet共分为几个分支。一是semantic estimation low-resolution branch S(语义估计 低分辨率分支S)。二是detail prediction high-resolution branch D(细节预测 高分辨率分支D)。三是semantic-detail fusion branch F(语义细节融合分支F)。这三个分支是同时进行优化,同时得到最终目标。

1、Semantic Estimation:用于人像定位。

采用encoder用于提取高维语义特征。主要有两个好处,一是参数少更高效,二是有利于后续分支的进行。论文中说到可采用随意的cnn作为backbone,为了速度更快采用了mobileNetV2,然后在为了会的单通道的Sp,将输出喂到sigmoid函数,并且采用

其中αg为gtrund truth matte,G表示高斯模糊后进行16倍的下采样。

在这部分还用到了eASPP。原因是MobileNetV2的预测结果不理想,ASPP虽然有效但是参数过多,eASPP示意图如下所示:

论文阅读——MODNet: Real-Time Trimap-Free Portrait Matting via Objective Decomposition_第2张图片

2、Detail Prediction

输入为I、S(I)和S的低维特征。论文采用如下三个方法来简化D的计算。一是D比S拥有更少的卷积层,实际数量为12个卷积层。二是D中的通道数更少,最大通道数为64。三是特征图的分辨率在第一层减少到原图的四分之一,并在最后两层恢复到原来的数量。而在操作过程中下采样的操作可以忽略,因为分支D采用了一个跳跃连接。

md是二分mask,是通过对alpha的ground truth进行膨胀腐蚀操作获得的。当像素点是在过渡区域时为1,否则为0。

3、Semantic-Detail Fusion

F分支直接采用CNN模块对前面的语义分支和细节分支进行结合。论文首先对S(I)进行上采样,然后将S(I)和D(I,S(I))进行concat操作。

论文中设置

三、SOC for Real-World Data

强制alpha p中的语义信息和s p保持一致,alpha p中的细节和d p保持一致,因此要求

再将M复制到M'

要求再执行SOC策略时的约束为

你可能感兴趣的:(深度学习,人工智能,计算机视觉,神经网络)