作者:李晓阳(苏铭)
在《优酷播放黑科技 | 自由视角技术体验优化实践》中我们提出对自由视角观影体验做了很多优化,为何需要做如此多的体验优化,下面将一一解答。
随着5G时代的到来,视频用户的消费需求升级,沉浸式视频体验正在快速发展,视频体验的真实性,可互动性的需求在不断增强。自由视角技术是优酷摩酷实验室自研的沉浸式交互视频技术,通过3D重建与渲染技术,为用户提供6自由度(左右旋转、前后推拉、上下移动)的视频观看体验,目前整套自由视角技术已经服务于CBA子弹时间直播、《这就是街舞》第三季与第四季、冬奥会冰球测试赛等项目中。
下面的内容将为大家介绍自由视角技术的整体链路与落地实践。
自由视角直播视频的采集不同于传统视频,需要更复杂的采集系统。不同于传统拍摄的单个机位,自由视角视频拍摄需要同步控制多个相机(通常是几十到上百个相机),相机的控制以及直播时的数据传输需要通过以太网进行。而为了保证数据和命令的低延时和高可用,通常需要搭建一个局域网。相机的数据通过网络汇总到现场的服务器,由现场服务器经过预处理后将数据发送到云端,云端进行重建后再发送到现场电视转播车上或者终端APP上。
自由视角录播的视频为了获得更高质量的视频源素材,一般采用录制模式,录制到存储卡中,然后再上传到云端进行重建。
与项目组或制作单位沟通需求、项目特点,现场实地踏勘,结合现场平面图(舞美图)制定合理的拍摄方案,并对实际输出效果做出预判。踏勘时需要确认现场搭建资源供给方式,操作区位置以及拍摄时间。最好是在舞美设计阶段把自由视角技术纳入考虑范围,制作方提供高质音频,可以为后续音视频剪辑对齐,为直播方案打下基础。
1)根据平面图提前完成制作,赛前在规定的时间内完成桁架的搭建,相机,交换机,路由器的架设、通电、通网,同步性检测;
2)根据现场舞台与灯光情况,完成相机参数设置与姿态构图调整,使用采集软件进行相机参数计算,根据实际参数完成姿态微调。
以下是2020-2021赛季CBA比赛时用于子弹时间特效直播的系统图:
经过多次现场实地验证,可通过模块化搭建,将桁架、相机、路由器进行模块化搭建,实现对场地变化的高容忍性;通过预搭建预调试,将模块化的设备在录制前进行标定与预调试,实现对流程节奏的高容忍性。不仅可以应对赛事稳定性需求,也可满足综艺场景复杂的拍摄环境需求,目前CBA与综艺场景物理搭建时间已缩减至2小时,补录准备时间缩小至半小时内。
不同的搭建策略:
利用6-DOF Studio 采集软件,完成自由视角视频源的采集(为直播子弹时间,FVV视频生产提供原始的音视频素材)。主要完成现场N个相机音视频的采集、相机参数设置、相机姿态调整、系统状态监控、系统容灾备份、数据实时/离线处理等。目前采集制作全链路支持4K分辨率输入源。相机姿态调整也支持本地化操作,不需要将视频素材传输到云端,减少对云端计算资源与网络依赖,所有相机的参数标定耗时可以控制在秒级。
直播链路方面,单帧子弹时间制作时间(含操作到输出给转播车)完全可以满足解说、精彩回放等场景。自由视角视频直播最高支持8K视频直播流推送,1080P交互播放能力,目前自由视角视频直播从采集到生产全链路延时可以控制在5s左右。
CBA直播比赛子弹时间:
视频请点击查看:优酷播放黑科技 | 自由视角技术的全链路策略与落地实践
冬奥会测试赛子弹时间:
视频请点击查看:优酷播放黑科技 | 自由视角技术的全链路策略与落地实践
云端服务主要是根据6-DOF Studio 采集到的音视频数据,对N路视频进行三位重建合成自由视角视频,或根据虚拟路径完成子弹时间视频渲染,后续将生产出来的视频挂靠到媒资系统。
工作流程:
生产服务架构如下:
相机标定服务主要是根据N路相机视频素材的特征点匹配完成相机参数(内参、外参、畸变参数)的求解。进一步可以通过融合多帧特征点,得到更稳定的标定结果,同时可以有效减少特征点少的场景标定失败问题。最好能支持多参照物路径,相对单一参照物路径有更灵活多变的虚拟路径,可以应对更复杂的现场环境。
图像深度估计服务主要是基于标定好的相机参数完成所有相机视频帧的深度估计。这里点播与直播链路略有不同,点播链路目标在于给到用户能力范围内最好的结果,可以通过优化算法、生产链路等方式在确保视频深度质量的基础上提高生产效率,目前点播路径上自由视角视频单帧平均生产耗时为90s;直播深度估计还需要考虑实时性的问题,目前我们采用深度学习与传统图像处理方法相结合的方式,可以完成270P深度图实时输出,深度学习模型的结果输出小于20ms。
在视频合成生产环节,针对自由视角视频码率高(高分辨率导致)的问题,也做了一些编码方面的优化,主要是利用深度数据优化视频编码参数,在同等主观视频质量下码率降低约20%,整体流畅度提升50%以上,用户观影体验可以得到较好保障。音频合入方面,通过AI算法完成音频对齐,解放后期剪辑音视频对齐工作。
自由视角视频不同于传统视频,为了让用户能从不同视角进行观看,它的每一帧都需要包含拍摄视角的纹理信息和深度信息,且需要用户的交互输入作为变换视角的依据。因此,在客户端需要独立的SDK处理交互、计算和渲染。通过在PC端使用FVV视频剪辑工具,或者在移动端播放器中接入6DOF SDK,完成FVV视频渲染,或者子弹时间制作。
FVV视频剪辑工具
自由视角视频在拍摄阶段就采集众多视角信息,再经过3D重建,可以输出任意视角的视频信息,因此相对于传统视频来说,自由视角视频不仅可以为用户提供丰富的视频信息,交互的观影体验,还非常适合做高质量的精美视频剪辑。FreeViewVideoEditor是一款视频编辑软件,以自由视角视频作为输入,可以通过编辑关键帧来设置自由视角视频路径,在预览模式下观看效果,然后在云端生成目标视频。
剪辑工具工作界面:
剪辑结果示例之纯享视频:
视频请点击查看:优酷播放黑科技 | 自由视角技术的全链路策略与落地实践
剪辑结果示例之直拍视频:
视频请点击查看:优酷播放黑科技 | 自由视角技术的全链路策略与落地实践
目前FVV视频编辑工具可运行于Windows 电脑上,通过编辑工具可以制作直拍视频、纯享视频、子弹时间视频。视频编辑是通过设置关键帧来操作,编辑完成后可以预览视频查看编辑效果,效果符合预期后可上传到云端,通过云端计算资源进行渲染完成视频生产。目前编辑工具支持输出视频的分辨率设定,多种运动路径模板选择,镜头推拉范围设置,音频同步播放生产等功能,且街舞单个舞蹈的剪辑生成时间在30min~2h。街舞第四季中每期均有舞蹈由媒资同学使用FVV视频编辑工具剪辑生成纯享版视频,播完率与VV均优于普通纯享版视频。
移动端6DOF渲染SDK
移动端6DOF渲染SDK是为了让用户在移动端流畅体验FVV交互式视频,定制优化的FVV视频渲染SDK,Android端基于OpenGL跟OpenCL语言,IOS端基于Metal语言。渲染的基本流程同服务端算法,只是做定制性的优化与简化,确保大部分的手机可以进行流畅交互。
渲染流程如下:
目前互动SDK在去年街舞第三季时已经接入到主客播放器中,最近已完成多轮功能与性能优化。目前SDK支持多种相机模型、切相机兜底模式、输入虚拟路径等功能,性能方面中高端手机均可以支持重建模式。街舞第四季DAU全站支持重建机型覆盖率高达63%,切相机兜底机型覆盖率18%,总体覆盖率达到81%。为了进一步降低自由视角视频的卡顿率,提高观看流畅性,互动SDK还配合播放器团队完成切流体验优化,在不同清晰度流切换过程中,SDK切换耗时降到100ms以内,做到用户基本上无感知。
关注【阿里巴巴移动技术】微信公众号,每周 3 篇移动技术实践&干货给你思考!