AI蒙版弹幕

「爱奇艺AI 弹幕蒙版」

背景

初衷是想用于短视频的背景替换。所谓背景替换，就是把用户录制的短视频里的人像抠出来，换到另一个不同的背景里。但是从技术角度来讲，单张图像分割效果合格不等于视频分割效果合格。分割结果在视频前后几帧图像中稍有不连续，就会造成帧间分割边缘不停地抖动，这样的分割不连贯非常影响用户体验。而保留原始背景，在原始背景和分割出来的人像层中间插入动态背景。这样分割边缘和原始背景仍然在一起，误差就不那么明显。

痛点：

1）弹幕太多、覆盖人脸，影响观看体验

2）短视频的背景替换过程中，分割结果在视频前后几帧图像中稍有不连续，就会造成帧间分割边缘不停地抖动，影响观看体验

目标：

将该技术应用于弹幕，保留原始背景，在原始背景和分割出来的人像层中间插入动态背景，以改善弹幕覆盖人脸的问题，提高用户的观看体验

解决方案：

1）「景别识别模型」对每一帧图像进行一次识别，判断当前帧属于近景还是远景。目的是判断图像是否是特写或近景镜头画面

2）识别后的图像进入到分割模型中生成蒙版，而远景画面则不会生成蒙版。弹幕会像原来一样覆盖整个画面。这样一来，帧间蒙版抖动的问题就得到了很好的解决

3）分割结束之后，系统进一步利用「腐蚀」和「膨胀」等图像形态学处理算法对分割模块输出的前景区域进行精细的剪裁，并根据应用场景的需要删掉画面占比小的前景区域

4）进入蒙版文件的生成、压缩等生产流程

image.gif

注：场景切换和舞台光是两个通用分割模型很难处理好的问题。爱奇艺团队挑了数万张典型场景的图像，标注团队前后花了三周时间进行标注

效果：

image.gif

技术分析：

人脸与背景分割：

1）语义分割（semantic segmentation）：针对该需求，语义分割只要求系统把所有图像里的「人」都分到「类别人」
2）两个类别的语义分割：图像里每一个像素都会被分配到「前景」类别或者「背景」类别，然后系统会基于分割结果生成对应的蒙版文件。

image.gif

3）算法基于谷歌DeepLabv3 模型

2. 升级改进

1）「实例分割」（instance segmentation）：基于MaskRCNN 的实例分割，辅以爱奇艺的长项，尝试做「粉丝专属弹幕蒙版」。例子：如果你喜欢吴亦凡，那么其他明星出来的时候，弹幕还是会把他们挡住，只有吴亦凡出来的时候，弹幕会绕过他。

2）「全景分割」（panoptic segmentation）

image.gif

3）真正做到分割镜头的「焦内」和「焦外」：因为现在没有进行这一类特定分割任务的模型，所以就用「有人物出现的部分」作为「焦内」的指代

4）非赞助商商标抽取及替换

AI蒙版弹幕

背景

痛点：

目标：

解决方案：

效果：

技术分析：

你可能感兴趣的:(AI蒙版弹幕)