AI蒙版弹幕

「爱奇艺AI 弹幕蒙版」

背景

初衷是想用于短视频的背景替换。所谓背景替换,就是把用户录制的短视频里的人像抠出来,换到另一个不同的背景里。但是从技术角度来讲,单张图像分割效果合格不等于视频分割效果合格。分割结果在视频前后几帧图像中稍有不连续,就会造成帧间分割边缘不停地抖动,这样的分割不连贯非常影响用户体验。而保留原始背景,在原始背景和分割出来的人像层中间插入动态背景。这样分割边缘和原始背景仍然在一起,误差就不那么明显。

痛点:

1)弹幕太多、覆盖人脸,影响观看体验

2)短视频的背景替换过程中,分割结果在视频前后几帧图像中稍有不连续,就会造成帧间分割边缘不停地抖动,影响观看体验

目标:

将该技术应用于弹幕,保留原始背景,在原始背景和分割出来的人像层中间插入动态背景,以改善弹幕覆盖人脸的问题,提高用户的观看体验

解决方案:

1)「景别识别模型」对每一帧图像进行一次识别,判断当前帧属于近景还是远景。目的是判断图像是否是特写或近景镜头画面

2)识别后的图像进入到分割模型中生成蒙版,而远景画面则不会生成蒙版。弹幕会像原来一样覆盖整个画面。这样一来,帧间蒙版抖动的问题就得到了很好的解决

3)分割结束之后,系统进一步利用「腐蚀」和「膨胀」等图像形态学处理算法对分割模块输出的前景区域进行精细的剪裁,并根据应用场景的需要删掉画面占比小的前景区域

4)进入蒙版文件的生成、压缩等生产流程


image.gif

注:场景切换和舞台光是两个通用分割模型很难处理好的问题。爱奇艺团队挑了数万张典型场景的图像,标注团队前后花了三周时间进行标注

效果:
image.gif
技术分析:
  1. 人脸与背景分割:

1)语义分割(semantic segmentation):针对该需求,语义分割只要求系统把所有图像里的「人」都分到「类别人」
2)两个类别的语义分割:图像里每一个像素都会被分配到「前景」类别或者「背景」类别,然后系统会基于分割结果生成对应的蒙版文件。


image.gif

3)算法基于谷歌DeepLabv3 模型

2. 升级改进

1)「实例分割」(instance segmentation):基于MaskRCNN 的实例分割,辅以爱奇艺的长项,尝试做「粉丝专属弹幕蒙版」。例子:如果你喜欢吴亦凡,那么其他明星出来的时候,弹幕还是会把他们挡住,只有吴亦凡出来的时候,弹幕会绕过他。

2)「全景分割」(panoptic segmentation)


image.gif

3)真正做到分割镜头的「焦内」和「焦外」:因为现在没有进行这一类特定分割任务的模型,所以就用「有人物出现的部分」作为「焦内」的指代

4)非赞助商商标抽取及替换

你可能感兴趣的:(AI蒙版弹幕)