视频直播质量的评测和实现分享

有一个古老的英语谚语叫A picture is worth a thousandwords,一张图片所传递的信息远超文字,那么一段视频所传递的信息,又远超一张图片。

在实际直播过程中,非常理想的情况是:,观众端和主播端是一模一样的视频。但是现实是无法做到的。有时,有延时、帧率低、卡住、绿屏、花屏的画面。本文,将回答四个问题:

  1. 视频直播中会出现哪些质量问题
  2. 这些质量问题是怎么由来的
  3. 基于这些质量问题,我们怎么评估直播的视频质量
  4. 如何搭建视频直播质量评估系统。

视频直播中会出现哪些质量问题?

  • 编解码相关
    • 糊,不清晰
    • 运动跳跃
  • 网络相关
    • 延时
    • 卡顿
  • 交叉相关

视频直播质量的评测和实现分享_第1张图片
见上图,左上角右上角,可以看到很多块效应;边界的地方本来是一条直线,但冒出来很多虚假的边界。右下角有颜色的扩散,原来的颜色是和那张图的左上角一样是灰色的,这些都是很普遍的视频质量问题。这些都是很普遍的视频质量问题。

这些质量问题是怎么来的?

  • 视频的源不一样。手机上的摄像头作为直播或者通信的输入源,和比较高端的摄像头作为输入源,二者的输入是不一样的。在拍摄同一个物体,高端摄像头有更强的处理能力,有很大的镜头,视频的质量较高,画质清晰,输入噪声较低。

  • 压缩标准的差别。使用不同的压缩标准,编码效率不一样,会导致体验效果不同。

  • 参数选择的差别。同样的编码器,不同的参数也会导致体验效果不同。比如使用的是264编码器,参数、帧率、码率、分辨率的不同,都会导致质量差异。除此之外,还有传输网络、播放设备也会导致质量差异。

直播是动态的画面,那么还要着重考虑帧率对画面体验的影响。

视频直播的质量如何评估

1. 质量方法的种类

主要可以分为主观评估和客观评估两类。根据测试的实时性,也可以分为离线和在线测试两种。

主观质量评估

视频直播质量的评测和实现分享_第2张图片
主观评估是利用人眼作为对象来进行的质量评判和得到MOS(Mean Opinion Score)分值。此类方法也被认为是最准确的,因为视频播放的最终接收对象就是人眼。ITU-R和ITU-T这两个标准组织分别制订了BT.500和P.910标准。其中,BT.500主要被应用于视频广播而P.910主要针对于多媒体内容。

这两个标准都详细的描述了测试的环境,设备,素材,人员,流程,结果等细节。虽然主观评估的准确性较高,但是其多个缺点也是显而易见的。例如,主观评估需要多人较长时间的参与,开销比较大;人眼和人脑会疲劳,从而导致在一定时间内能进行的测试量较少;人的主观性也导致结果的可重复性会有一定的偏差。

上图右侧,是一个国外实验室的设置。不能有外界光,主观评估的人的观看距离1.5米。播放一个视频序列A,用I的方法处理,看10秒钟,中间停隔两秒,再用G的方法处理,看10秒钟,评估人有10秒时间打分,I好还是G好,I比G好多少,一般五分制。接下来,在继续为视频序列B打分。一般这样的测试,需要40人参与。缺点显而易见的,开销很大。同时,这个测试也规定了每个人评估的时间不能超过半小时,会造成评估人疲劳,就不会细抠前后两个视频到底有多大的差别。同时,不同人评估的准则也不一致。高。

我们曾经做过一个实验,一个一模一样的设置,让评估人看过之后,过了一个月以后再重新看一遍。他打分虽然很接近,但是不完全一样的。

那么,难道说主观评测不是那么重要吗?其实也不尽然。主观评估的结果经常被用来作为客观评估的指导性标注值。

客观质量评估

视频直播质量的评测和实现分享_第3张图片

客观评估是利用一些数学模型来模拟主观评估结果的方法。该方法的测试是不需要人们的介入的,也就是说在不改变参数的情况下,对于同样的输入,每次测试的结果都是一模一样的。客观评估的方法可以只需要一段计算机程序或硬件就能够实现。根据利用原始视频的信息多少,客观质量评估方法可以分为以下三类。

  • FR(Full Reference):此类方法是基于原始图像和压缩后图像同一位置的每一个像素比较和运算得到的客观质量评分。通常来讲,该类方法被认为是最准确的。著名的PSNR(Peak Signal-to-Noise Ratio )和SSIM(Structural SIMilarity)都属于此类。但是研究表明,PSNR与人眼MOS的相关性大约只有70%,而SSIM也非常有争议。最近几年,标准化组织VQEG(Video Quality Experts Group)制订了VQM和PEVQ标准,它们与人眼MOS的相关性可以达到90%以上。

  • NR(No Reference):然而FR评估方法的最大问题在于,很多应用场景下,视频接收或播放端没有原始信号的信息,从而无法利用该方法。NR的方法只利用解码后的视频信号来估计视频中可能存在的质量问题。显而易见,此方法可能会极不准确。

  • RR(Reduced Reference):该方法能够对原始视频和解码视频提取一些特征进行比较,从而计算出客观评估分值。在一些无法得到原始视频的应用场景下(如流媒体视频或者视频通信),可以通过有限带宽传输这些原始视频的特征,再提取相同的接收端解码视频特征,与原始视频的特征比较来预测评估当前视频的质量。

主客观质量评估的配合

在视频编解码标准的制定过程中,PSNR具有不可替代的地位。这是因为PSNR的相对客观性代表着压缩算法的保真性。所以在标准制定会议中不同技术的比较和采纳,都会基于著名的BD-Rate/-PSNR来评判。该方法根据两条RD(Rate-Distortion)曲线计算得到或同样PSNR下码率的差,或同样码率下PSNR值的差。通常情况下,BD-Rate甚至可以来评估0.3%左右的压缩效率的提高,而这些细微的差别是无法体现在主观质量上的。

在某一个标准制定的尾声,一般都会安排相应的主观评测。这一测试是用来真正体验制定中的标准与前一代标准的主观视觉质量的提高。通常情况下,一个新的标准需要在保持相同视觉质量下能够只需要前一代标准的一半码率。这样的改进是巨大的且很容易通过主观评测来体现的。此外,还有一些编解码技术从原理上就是会降低BD-PSNR,但会提高主观视觉质量。这类技术的评估从一开始就必须遵循主观评估标准。

视频质量评估的作用

视频质量评估的应用可以大致概括为两类,视频处理和编解码技术的改进,视频编解码系统的选型。

对于视频处理和编码技术的改进,一部分的应用就如之前所说的标准制定中的技术的对比和竞争。然而,在标准制定完毕后,质量评估对于编码器的实现也是具有非常重要意义的。因为标准中包含的各种编解码技术,以及有些纯编码技术,如快速运动搜索(FME)和快速模式选择(FMD),对于某种特定的应用是需要按照实际效果来选取的。尤其是在计算资源或芯片大小受限的情况下,需要通过质量评估来进行工具的取舍。

对于那些利用视频编解码系统进行更高层次的应用,如流媒体系统,视频直播系统,视频通信系统等,质量评估对于视频编解码系统的选型是尤为重要的。特别要提及的是,不同应用下必然会对视频编解码有其特殊的需求和限制。如果盲目的遵循某一个测试标准而忽略实际应用下的特定需求,则该测试将丢失其意义。

通常来讲,针对实际应用的视频质量评估方法必须是公平的,可重复的,贴近现实场景的。回顾BT.500和P.910标准,不难发现它们也具备了上述的特点。但是由于这两个标准的制定时间点,其针对的应用对象也和现在的应用有所差别,所以评估方法也需要与时俱进,有所修改和增加。

视频直播应用评估系统的设计和实践

视频直播是近些年来基于公共互联网的另一个重要的视频应用。它与实时视频通信具有一定的相似性,比如网络中不稳定的带宽、延时和丢包会对观众端的主观感受带来很大的影响。所以上述的视频编码质量和均匀性,视频的流畅性和均匀性,端到端的延时,首帧出图延时,唇音同步等指标都是视频直播所需要满足的。

同时,视频直播有其区别于通信的特性。例如,在单人主播时,延时就不需要那么严格,其评估标准可以适当放开,而在不同的带宽情况下,观众都期望能有视频内容的展示,所以直播对于网络情况的适应性就显得非常重要了。此外,在东亚流行的娱乐性移动视频直播应用中,美颜是不可缺失的视频前处理部分,相应的美颜质量也需要被考虑在质量评估中。

连麦是最近一段时间内视频直播的一个新热点。仔细分析其特点,不难得出主播间的视频质量需要利用前面所述的通信质量评估方法,而多主播对于观众的视频质量则需要采用直播的质量评估方法。

在明确了视频质量评估系统的对象和目的后,就需要像标准化组织那样制定一套公平的,可重复的,贴近现实场景的视频质量评估系统和测试方案。

本文就将以基于公共互联网的视频通信和直播系统为对象进行视频质量评估系统的设计和实践。目的是希望该评估系统能够比较不同通信或直播系统/解决方案的优缺点,同时给出可以改进的方向。所以提出的评估系统和测试方法必然会立足于以往成熟的技术,但也会有其独到之处。

1. 视频质量评估系统的搭建

视频直播质量的评测和实现分享_第4张图片

对于不同技术方案,希望能够利用同一个视频输入,然后经过一系列的前处理,编码,传输,解码,后处理,观察不同方案的显示结果进行比较。为了达到公平的目的,不同测试对象的测试环境应尽可能的接近,同时能够录制对比对象的屏幕输出到同一视频文件中,这样就能够做到并排(side-by-side)的评估。

  • 设备

    • 视频的输入:如果是移动端的应用,则建议利用手机或平板自带的摄像头,因为这样最贴近实际应用场景。如果应用场景相对专业且为了追求完全一致的输入,可以采用HDMI摄像头+HDMI分配器+HDMI转USB转接头作为PC或MAC的视频输入源。比如,用高端HDMI摄像头,可以把分配器转接成8路,这种方法适用于PC或者MAC端。移动端能做到的就是尽量让摄像头靠拢,尽量拍摄同一个画面。

    • 视频处理,压缩和传输:这些是评估系统的测试对象,包括了不同测试方案的应用程序和网络传输架构,相对于评估系统是一个黑盒。

    • 网损设备或软件:用于模拟一些常见的网络情况,如带宽变化,丢包,延时等。可以利用网损仪,Linux Traffic Control或者iPhone开发者设置中的Network Link Conditioner。

    • 视频的输出和显示:根据应用场景选择移动端或是电脑的输出,合并不同方案的几路视频为一路输出,进行side-by-side的比较。由于现在的移动端显示分辨率也非常高,所以推荐4k显示器进行合并视频的显示设备。

    • 视频的录制:多路移动端或是电脑的显示输出可以通过转接头接入Blackmajic Multiview设备合图。合图后的输出接入Blackmajic UltraStudio后可以利用Mac上的软件进行合图录制。这样最终可以录制出高达16路视频在同一画面下的接近无损画质的视频文件以供分析评估。

  • 其他辅助设备

    • 磁悬浮地球仪:有的时候测试需要反复进行而同时希望尽量减少人的干预,例如测试视频的拍摄对象如果是人的话,很难保证其运动的可重复性和均匀性。所以推荐利用自动旋转的磁悬浮地球仪。它的运动是均匀的且人眼对其运动的感知是具有先验知识的。当视频产生丢帧或延时的时候是比较容易觉察到的。

视频直播质量的评测和实现分享_第5张图片

- 色度图:前处理或者编码有时会对摄像头拍摄的色度信息有所改动,为了能够检测到色度的失真情况,可以利用色度图作为拍摄对象。有时为了简便的测试端到端的延时,可以利用精确到毫秒级的电子时钟,在一端拍摄而在另一端接收解码播放,将本地预览和解码播放的图像同时录制下来就能够得到当时的延时数据。

视频直播质量的评测和实现分享_第6张图片

- 毫秒级电子时钟:主播段播放电子时钟,观众端观看,同屏录制,比较这两个时钟,可以看出延时是多少毫秒。
  • 环境

在我们所谈及的这些基于公共互联网的视频应用中,通常都是为一般消费者服务的。所以测试环境不需要特别专业,但是要求贴近现实。这和BT.500和P.910标准所规定的有所差别。举例来说,测试中不一定需要保持严格的观看距离和照明条件,因为在现实情况下各种可能都会发生。但是测试的素材需要和实际情况相近,例如对于实时视频通信的应用,人脸应该出现在摄像头前;娱乐性直播的应用下,需要提供足够的照明和美颜功能;远程教育的应用下,白板和教师板书应也是重点拍摄对象。

  • 人员

由于专业人士的视觉感知行为是多多少少被训练过的,有时候会过于专注某些不太会被非专业人士发现的细节。所以视频质量评估中的人员组成取决于测试的目的。如果测试是为了改进视频编解码算法,则专业人士的意见会是重点。如果为了比较不同视频应用或系统的优缺点,尤其是一般消费者级别的应用,则非专家的意见应占据主导地位。

如何进行视频质量评估

下面就以娱乐性视频直播为例介绍视频质量评估的流程。其中,假定需要对比两套手机端的视频直播系统,所以一共需要四台手机,其中两台作为主播,另外两台作为观众。通过接入上述的评估系统,可以在一台4k显示器上同时播放4台手机的画面并进行录制。

由于手机无法接入外置摄像头的输入,为了得到非常接近的视频输入源,建议按下图方式安放手机,这样可以使两个前置摄像头尽可能的接近。当然如果对这样的方式也还有所顾虑的话,可以将两个手机位置互换,多做几轮测试来观察摄像头位置对测试结果的影响。

视频直播质量的评测和实现分享_第7张图片

开启四台手机的测试app,扮演主播角色的人员面对主播端手机,观众端连接上主播端观看直播,开启四屏合一的录制。可以将磁悬浮地球仪和电子时钟摆放在主播端的画面中用于测试运动的均匀性和延时。

测试中,可以利用Linux Traffic Control来改变手机接入的无线网络路由器的上下行丢包率和带宽,观察不同app在各种情况下,视频质量和延时的变化。由于在测试中,四个手机的屏幕都被录制在同一个几乎没有视频质量损伤的视频文件中,所有详细的对比也可以在录制完成后反复观看比较。

在这个视频质量评估测试中,可以得到的客观数据有,主播端到观众端的延时,可以细化为最大延时,最小延时,网络情况变化下的响应时间等;观众端的视频帧率,这是因为录制的视频是60fps而一般的直播视频帧率在15fps至30fps之间,还可以细化为最大帧率,最小帧率,帧率的波动等。

通过播放录制的视频,还可以进行side-by-side的对两套系统的视频质量的主观评分。这里可以采用传统的5级量表,5代表左边远好于右边,4代表左边略好于右边,3代表左右一样好,2代表右边略好于左边,1代表右边远好于左边。要明确的是,播放对比视频进行主观评估时,还需要遵循贴近现实的原则,如视频播放的窗口大小应该保证每个手机频幕的尺寸都应和实际手机的屏幕尺寸接近,评估者的观看距离也应当和实际情况一致。

本文作者:楼剑

声网Agora.io的首席视频科学家,毕业于University of
Washington,Ph.D。前苹果公司视频架构师,参与苹果公司第一、二、三代视频编解码器的算法研究和开发(最新的苹果手机7的就是第三代),应用于FaceTime。拥有22项美国专利授权和18项中国专利授权。

你可能感兴趣的:(技术干货)