5G时代探索互动立体视频信息承载的新可能

5G时代对于视频行业的发展和业务形态将是一个重要的助推，但5G时代带来的改变不只是带宽提升和延迟降低这两个最直接的因素。本次LiveVideoStackCon 2020线上峰会我们邀请到了阿里巴巴高级算法专家盛骁杰，他将介绍在5G时代，视频信息承载将逐步从目前的平面视频形态过渡到信息表达更为丰富的三维视频，而这种过渡中包含的可能性一方面需要我们充分利用5G技术本身的云、边、端架构带来的技术红利，另一方面，也需要我们对于快速发展的三维视觉，AI，AR等技术进行综合性的创新运用，使得视频体验通过可互动的三维信息表达在5G时代不断给用户创造出更多的价值。

文 / 盛骁杰

整理 / LiveVideoStack

大家好，本次我分享的主题是5G时代的互动视频——探索从平面到三维视频信息表达的新可能。

本次演讲的内容将分为四个部分，分别为：什么是互动6DoF视频、视频体验的发展和5G时代的新机遇、6DoF视频的标准（MPEG/AVS）和对互动6DoF视频的未来展望。

什么是互动6DoF视频

首先通过三个演示视频来认识互动6DoF视频。第一个视频是CBA的运动场景，它是通过相机阵列和三维重建所得到的一个互动6DoF视频，并且通过实际的网络传输以及用户终端的实时互动所展现出来的一个效果。

第二个视频也是相同的场景，但对原先的互动方式进行了一些调整和改变，在这样的视频中，用户触摸屏幕会使整体场景静止，用户可以有一个静态场景下360°的对场景每一个瞬间进行精细化观看的互动体验，这样的体验特别适合于体育等竞技性和专业性较强的场景。

首先，通过对这个视频的体验，可以感受到之前普通的平面体育点播和直播视频当中所没有的新体验。

其次，在一个三维的空间中对传统体育赛事的观看方式进行革新，使得用户能够自由地切换自己的视点，观看其感兴趣的区域。通过这种方式，用户会感觉到视频的观看过程通过可互动的方式，已经和某些游戏的体验有相似性。从来没有体验过这种视频的用户，在第一次体验之后会感觉这种体验很像游戏。之所以有这种感受，是因为它其中包含了3D和互动的体验，而普通的游戏给予用户的正是这样一种体验。这也是互动6DoF视频和平面视频最大的区别，即互动6DoF视频有着和平面视频不同的三大特点：互动性、三维立体感和场景沉浸感。

互动6DoF视频除了应用在体育的场景当中，在综艺场景中也有着广泛的应用前景。以上展示的是一个综艺场景的效果，视频中的整个综艺场景，通过三维的建模并且通过传输和实时互动，使用户产生很强的现场沉浸感和立体感体验效果。此外，在综艺场景中它可以给予用户一种全方位的信息接受方式。比如这个视频演示是优酷《这就是街舞2》决赛当中的一段视频，我们的交互范围是可以覆盖整体场景正面的180°，基本上可以囊括正面的所有舞蹈视角，通过这种方式的交互，用户可以很方便的把握住舞台的整体，体验到每个舞者在跳舞过程中全方位的信息。今年在优酷的《这就是街舞3》节目中，我们会在优酷的APP端正式上线这样的体验。

这种体验在街舞当中或者其他技巧类、动作类的综艺当中都有很好的应用前景，在整个互动效果当中，它的交互是非常流畅的，用户手指的滑动、画面的重建和渲染都可以达到实时的效果。而且现在手机终端的运算能力越来越强，已经可以使这样的形态让用户在大部分的手机上体验到。

以上的三个例子是通过具体的呈现方式使大家对互动6DoF视频有一个感性的认识。下面我们再来详细介绍下什么是互动6DoF视频。

普通的平面视频从视频的采集、处理、编码、传输、观看的整个过程中都是单向的传输链路，所以平面视频是一种被动式的观看，这是因为用户最终接收到的信息是完全被动式的接收导演想传递给用户的信息，用户不能主动选择想看的部分，这是一种被动式的观影体验。并且，平面视频每一级都是单向链路，就是采集完的信号会给下一级进行视频处理，经过编码模块后进行视频传输到用户端播放，每一级都是一个向后单向传递的处理链路。

互动6DoF视频在平面视频的基础上引入了一种交互式的观看方式，正如前面三个视频的例子就具有很强的交互性。它的交互性来源不只是在终端得到的交互，在视频的采集、内容表达和编码三个方面都和传统的平面视频有很大的区别，在这几个模块中都需要对用户最终的交互形态有一个综合性的考虑和设计。也就是说我们需要事先考虑给用户怎么样的交互形态和交互范围，然后倒推回去设计视频的采集方案、视频的内容表达方案和编码方案。所以它是一种非单向式的视频处理链路，在6DoF视频采集的时候我们就要在方案当中充分考虑到用户的交互行为。

这是我们的技术人员第一次通过这种6DoF交互式的观看获得一种手段，即他能够通过技术去影响和改变上游视频的传统采集和表达方式。而在普通的平面视频的观看当中，技术人员无法影响上游的表达，只是被动的接收上游导播给到的信号，并把它呈现出来。但是互动6DoF视频交互式观看给了技术人员一种有力的工具，就是可以通过提供用户不同的交互形态去影响上游的视频采集、表达、编码的方案。

1.1 采集

这部分我们来介绍一下互动6DoF视频在采集、表达和编码方面与平面视频的一些不同点。

首先在采集方面，上图中四个例子是业界不同的公司对6DoF视频的采集方案在不同场景中的应用，从中可以看出对于不同的场景，6DoF技术可以去设计不同的采集方案，提供给用户不同的体验。从这四张图中也可以看出，虽然它们适用的范围和场景都不一样，但是它们都是通过相机阵列进行采集，而不是局限于单个相机进行采集，这也是三维视频的一个特点。第一张图中是在体育馆中有一个相机阵列，第二张图是在摄影棚中部署了更多的相机集群，第三张图是围绕体育场的一圈360度进行拍摄，第四张图是专业的物体建模采集工作室。这样做的特点就是通过多相机进行采集以后，能够对场景进行三维重建和表达，再通过压缩，最终传递给用户一种6DoF互动的视频体验。

在之前演示的CBA场景当中，我们的采集方案就是相机阵列的采集，以上的两个图片是在CBA广东队的主场拍到的效果，整个采集方式是通过相机阵列进行的采集，然后进行空间的三维重建并进行视频的传输，最后给用户一个互动的体验。

我们可以看到，6DoF视频的采集具有几个特点：一是需要多相机的采集阵列；二是根据不同场景的应用有一定的灵活性，针对不同的场景我们需要有不同的采集方案和表达方案，在用户端也就会有不同的交互体验。

1.2 表达

第二个重要部分就是6DoF视频的表达。6DoF视频和平面视频是完全不一样的，现在常见的三种视频格式分别是：立体视频、平面视频、VR 360视频。立体视频是基于双目相机拍摄以供用户立体观看的表达。平面视频就是一个2D视频，它是一种不依赖于任何特殊观看设备的表达。VR 360视频给用户提供的是一种现场沉浸式的体验，但它往往依赖于特殊的设备，所以这三种已知的视频表达方式，它们有各自的优缺点。

6DoF视频表达是融合了以上三个视频表达方式的优点而得到的一种新的视频表达方式，它的“新”主要表现在以下几点：

首先，6DoF视频和平面视频一样，不依赖于特殊的观看设备。从之前的例子看出，在手机端上用户就可以做便捷的交互。同时，它也具有VR 360视频所提供的现场沉浸感体验。其次，它还可以基于三维重建技术给用户提供立体感的体验。所以6DoF视频是集中了这三个视频表达方式的特点最终形成它自己的特殊表达，它所展现的形式和游戏体验很像，这是因为游戏体验也在平面显示器上，能够给人带来沉浸感、交互性和立体感。

从技术层面来看，6DoF视频有如下几种不同的表达方式：

第一种表达方式是基于深度的表达，就是对每一个拍摄的像素进行深度的重建，我们有它的深度图，通过纹理图和深度图两两成对的表达方式，再加上Multiview的视点，形成一种基于深度的表达。这种表达方式的优点是完全基于图像重建的表达方式，无论是纹理图和深度图都可以编码成图像，具有成熟的视频压缩标准来配合，在工业化和产品化下的支撑具有明显优势，而且在基于图像重建的效果自然性上更能让用户接受。

第二种表达方式是基于点云的表达，其实它是基于图形的重建，Point Cloud会把空间所有像素点的三维位置表达出来，并且通过纹理的贴图形成一个真实的三维模型。但经过点云的渲染也有它特别的地方，因为是基于Graphic，所以它的渲染不会非常自然。其次，虽然MPEG和AVS也在探索一些基于点云的压缩方案，但点云目前还没有一个成熟的压缩标准去支持，包括解码也没有成熟的终端硬件支持。所以总结来说，目前点云表达方式的优点在于，由于它是一种空间完全的三维重建，所以具有最大的交互自由度，可以把空间中一个全视角的三维模型重建出来，但缺点是它在压缩传输和渲染自然性上不如深度重建。

最后一种表达方式是光场，也是数据量最大的表达方式。它是通过密集的相机采集阵列或者光场相机所采集到的空间非常密集的视点表达，可以提供完全的6DoF体验。因为光场是一种非常稠密的视点表达，所以它的数据量过大，目前还缺乏成熟的压缩标准支持，还不具有工业成熟性。

1.3 编码

图中展示的内容是基于深度图表达的6DoF视频编码框架。首先是基于多相机采集的纹理图，同时配备了和多相机采集纹理图所对应的深度图，还有基于多相机采集的纹理图和深度图的元数据。元数据中包含了一些多相机的摄像机参数信息以及相机纹理图和深度图的拼接和表达的配置信息。有了多相机采集的纹理图、深度图和元数据以后，我们就得到了一个基于深度的完整6DoF视频表达。

在此基础上就可以通过视频的编码方式（比如视频的编解码标准：AVS3、H.264、HEVC），对于前面所述的6DoF视频表达进行编码之后传到终端进行解码，然后基于多相机纹理图、深度图和元数据进行6DoF视频重建，也就是在终端对用户的虚拟视点进行重建，最后把重建完的图像进行终端渲染输出。上述就是整个6DoF视频编码框架和解码后呈现给用户的方案。

视频体验的发展和5G的新机遇

2.1 平面视频

这部分回顾了视频体验的发展过程以及解释一下为什么说6DoF视频是5G时代新机遇的原因。大家对于视频体验的发展，最耳熟能详的就是平面视频，视频介质中数量最多的也是平面视频，平面视频的技术发展目前还在一直向前推进。总体来看，平面视频的视频体验的发展主要分为三个方面：

第一方面是平面视频分辨率的发展。平面视频从原先的540p逐步发展到1080p甚至8k，显示屏幕也越来越大。

第二方面是亮度和色域的发展。由中间这张图可知，原先的色彩表达空间比较小，因为人眼的整个色彩感受空间是非常广泛的，但对于SDR是怕来说，它只能表达其中的一小块，但HDR可以表达更大的色彩空间，所以可以让用户感受到除了分辨率的提升以外，人眼所感受到的色彩丰富度也越来越多。

第三方面是帧率的变化。原先大部分的视频都是25FPS或者30FPS，现在由于整体视频显示设备刷新率的增强，比如现在很多手机都已经支持120FPS的刷新率，那么视频的帧率也需要提高，才会给用户丝滑流畅的感受。当前帧率的发展已经逐步从30FPS过渡到60FPS甚至到120FPS。

配合分辨率、亮度和色域、帧率这三个方面平面视频的技术发展，平面视频的压缩方法也在不断地迭代。右图当中可以看到，平面视频的压缩标准基本上是以十年为一代往前推进。从2003年的H.264是为1080p视频做准备的压缩标准，到2013年的H.265是为4K视频做准备的压缩标准，再到2020年的H.266也就是VVC是为8K视频做准备的。

国内的视频编解码标准H.264、H.265和H.266相对的是AVS+、AVS2和AVS3，它们分别是为1080P、4K和8K分辨率准备的视频编解码技术。

2.2 立体视频

除了平面视频以外，另外一种视频的表达方式是立体视频。立体视频是通过双目相机进行拍摄，使用户戴上眼镜后对视频产生有深度的立体感体验。

早在2009年，电影“阿凡达”就引入了全新的立体视频观影体验，把这种视频的方式带到影院当中。

立体视频技术推动了视频采集、视频制作、3D视频压缩标准、视频观看设备的全面革新，比如在视频采集方面使用的不再是普通的相机而是双目立体相机。

在2010年电视机厂商提出了一种新的视频观影体验——FTV（Freeview TV）也叫自由视点的电视。它是在立体视频的基础上进一步的发展，用户可以在屏幕前面，通过一定范围的移动看到视频当中的立体视频。它不但是3D的，而且还能进行一定自由度的移动观看。根据用户的左右移动，电视机里面的内容也会发生变化，它是根据人在电视机前的移动，通过不同的光栅信号折射使人眼看到不同的视角。

但FTV出来之后并没有非常火，首先是基于光栅的电视成本非常的高，其次，它的体验方式并不是非常自然。同时，它提供的自由视角也比较小，因为FTV内容源并不是通过相机阵列进行采集的，而是基于普通的双目相机采集，并对双目相机的左右两个视点进行一定的外插值，相当于做一些假的虚拟视点。但这个范围不会特别大，因为它原先采集的素材就只有左右两个视点，所以没有办法得到更大范围的自由度。基于这几点原因，FTV虽然提出一个非常好的概念，能够让用户有自由视点的电视体验，但是最终并未在市场上火起来，而且在后期逐步的销声匿迹了。

2.3 VR 360视频

VR 360视频是在2016年火起来的，它进一步带来了360度沉浸式的视频体验，并引入了3DoF观看体验。VR 360视频的采集端通过多个鱼眼相机的采集以及拼接得到一个360度的视频，如果用户戴上头盔可以通过转动到任意角度进行观看。我们来解释一下为什么说VR 360视频是3DoF的？右图显示了人在真实空间中的六个自由度的表现，六个自由度是指在空间上有X、Y、Z这三个移动的自由度，以及在这三个移动自由度基础上的三个旋转的自由度，加起来一共是六个自由度，这是人在真实空间中所具有的自由度空间。3DoF视频只有三个旋转的自由度，没有三个移动的自由度。当戴上眼罩观看VR 360视频时，只能进行旋转观看但不能移动，因为前后走动并不影响看到的内容，所以说VR 360视频是3DoF的视频。

2.4 6DoF视频

人对真实世界的视觉感知同时具备了沉浸感、立体感和空间感，这三者其实是统一的。

左下角的视频是Facebook展示的一个立体视频，这是通过一种基于深度的渲染技术得到的视频，虽然用户不需要带任何的3D眼镜就可以进行观看，但用户同样可以感知到非常强烈的3D感和沉浸感。这是因为人对于空间的沉浸感、立体感和空间感的感知是一起的，所以对于视频中的内容稍微发生变化，就感觉是3D的，而且沉浸感也会加强。

基于这种原理，6DoF视频也有类似的特点。6DoF视频就是普通平面观影设备上的一个交互式立体视频，可以带给用户沉浸式的体验，而且交互更自然。6DoF视频就是在左下角视频的基础上发展了一大步，能够在一个非常大的范围之内让用户体验交互、沉浸和3D的感觉。

6DoF视频解决了前面提到的立体视频、VR 360视频遇到的两个核心问题：一是它的内容。立体视频、VR 360视频虽然是两种新的内容表达方式，但在它的制作侧、内容的丰富程度是不能和平面视频相比的，立体视频、VR 360视频的数量是非常少的。

二是它的交互不自然。所谓交互不自然是指在用户侧，立体视频需要用户戴眼镜，VR视频需要用户戴头盔，这和交互的自然性是相违背的。由于这两个原因，立体视频和VR 360视频始终没有火起来。6DoF视频在这两点上具有天然的优势，它在内容丰富性上，无论是体育还是综艺都有很强的需求。其次，在交互自然性上，用户不需要任何的特殊设备，在手机屏幕上就能进行交互，这极大的改善了立体视频和VR 360视频遇到的两个核心难点。

从右边一组图中可以看出关于6DoF视频在 MPEG所定义的发展趋势。3DoF是模拟一个人坐在椅子上，只能有旋转的自由度，不能有空间移动的自由度。3DoF+是在三个旋转的自由度的基础上，向用户提供了前倾、左倾、右倾、后倾等受约束的空间自由度。发展到我们目前处于的位置是Windowed 6DoF，它给了用户一定的旋转自由度，模拟用户在一个窗前进行观看，往前往后自由度是受限的，而且旋转自由度在某种程度上也是受限的，给用户的感觉是在一个窗前面自由移动看窗外变化的景色。最后是完全的6DoF，用户在任意的六个自由度上都不会受到约束，可以任意进行前后移动和旋转，这是视频体验的终极发展方向。

现在的6DoF视频可以在移动端打破移动分辨率显示的局限，原先移动端的分辨率达到1080p以上时，在移动端人眼视场角的像素数量已经接近上限，分辨率再增加人眼已经感受不到清晰度的增强了。但如果分辨率可以进一步上升，比如5G可以传4K、8K甚至16K的视频，那么在这个基础上，6DoF视频提供了一种新的可能性，就是把空间信息量的提升转化为交互性和自由度的提升，它为移动端的视频体验装上一个新的引擎，能够在5G时代沿着全新的引擎进一步提升用户的体验。

在5G时代，带宽、解码能力和三维重建技术这三个条件都会取得长足的发展。比如5G时代的传输带宽可以非常轻易的达到下行100M左右，这在4G时代是无法想象的。另外5G手机越来越多的支持8K的解码，8K解码让我们有了传输6DoF视频的基础。最后基于AI技术的三维重建也使得基于6DoF视频的三维重建的质量和速度得到大幅度的提升，所以基于5G的技术，6DoF视频可以有非常好的基础设施，在此基础上能够为用户提供更好的观看体验。

6DoF视频的标准

3.1 MPEG

这部分我们来介绍一下MPEG标准组是怎么对6DoF视频的标准来进行定义的。

这是一张最新的2020年MPEG路线图，根据前文所提到的3DoF、3DoF+以及6DoF的发展，目前MPEG已经完成了普通VR 360视频标准的建设，接下来它会沿着3DoF+发展，3DoF+还在建设当中并且预计会在2021完成标准建设，之后会进入6DoF的发展阶段，6DoF的发展会分为两个阶段：Windowed 6DoF阶段和完全6DoF阶段，整个6DoF标准的发展会一直延续到2023年甚至更远。所以MPEG在6DoF视频上规划了非常长的路线图，伴随5G网络的普及而发展，一直到2023年左右才会过渡到真正的6DoF视频标准。

3.2 AVS

现在国内像阿里正在参与的AVS标准已经在整体的6DoF标准建设上走在了MPEG的前面，我们已经过渡到了Windowed 6DoF标准，而MPEG现在还在建设3DoF+的标准，所以说从标准的路线图上，我们现在是跑在MPEG前面。

我们来看一下AVS标准目前的进展：首先它的标准文档已经形成了草案的5.0版本，并且标准组计划在2020年底将AVS 6DoF标准推进到FCD阶段。

在标准测试用例方面，我们已经有了六段标准的测试用例，每段包括30个以上的相机纹理图和深度图，所以我们的标准测试用例是比较丰富的，并且相机阵列的数目也是比较多的。其次，在参考软件方面，我们提供了视点重建参考软件，这个参考软件目前已经更新到VSS 3.0版本，所以基于标准测试用例和参考软件，参与标准的一些公司和学校就能很快参与到6DoF视频标准的实验、算法开发和提案工作当中。

互动6DoF视频的未来展望

6DoF视频未来可提升的空间也是非常大的，它的提升空间可以分为两个部分：

第一是基础体验提升。基础体验提升意味着三个方面：首先是6DoF视频时效性的提升，比如我们现在做6DoF视频的点播，下一步可能要做6DoF视频的直播。其次是自由度的提升，也就是从Windowed 6DoF发展到完全的6DoF。最后是清晰度的提升，用户看到的任意视点的清晰度是否可以更高，比如达到1080p甚至以上。

第二是互动体验的提升。这意味着6DoF视频是有和其他周边的技术进行融合的可能，因为6DoF视频本身是一个完全三维立体化的视频，基于这个三维立体化的视频，我们可以把原先很多的算法在三维的场景上进行组合。比如AR原先是在平面的视频上，如果它基于6DoF视频可以有更好的AR展现效果，包括AI原先也是主要用在平面视频中，在立体的空间中，AI算法能够有更好的发挥的余地和想象空间。

最后我们通过一段demo视频来演示一下上述的概念，首先6DoF视频是在一个完全三维的场景下，在此基础上，我们基于AR技术进行数据的呈现，整体三维场景中AR的贴图，包括平面检测都是在三维场景下发生的，这是普通2D视频中的AR所不能展现的效果。

图中也显示了AI技术和6DoF的结合，在终端交互过程中可以对6DoF视频里的人物进行点击，通过AI技术在多相机的阵列的图像中对人进行识别和跟踪，相比通过单个相机进行识别跟踪，它的检测率会更高。

这样的体验可以使6DoF视频在未来成为接近完全游戏化的体验方式，用户在观看一个篮球比赛时可以有很强的交互性、沉浸感以及和AR， AI技术的有机结合，这是对6DoF视频未来能够做到的体验上限的展望。迈入5G时代，我们对于6DoF的基础体验和互动体验的提升还有很长的路要走。

5G时代探索互动立体视频信息承载的新可能

什么是互动6DoF视频

视频体验的发展和5G的新机遇

6DoF视频的标准

互动6DoF视频的未来展望

你可能感兴趣的:(5g,人工智能,arraylist,vr,三维建模)