音视频方案,音视频扩展内容- 音视频数据解析,码流分析及质量评价(笔记)3

-- 音视频编解码流程如下图:

音视频方案,音视频扩展内容- 音视频数据解析,码流分析及质量评价(笔记)3_第1张图片

-- 关于音频各种参数:
freq:音频数据的采样率。常用的有48000,44100等。
format:音频数据的格式。举例几种格式:
AUDIO_U16SYS:Unsigned 16-bit samples
AUDIO_S16SYS:Signed 16-bit samples
AUDIO_S32SYS:32-bit integer samples
AUDIO_F32SYS:32-bit floating point samples
channels:声道数。例如单声道取值为1,立体声取值为2。
silence:设置静音的值。
samples:音频缓冲区中的采样个数,要求必须是2的n次方。
padding:考虑到兼容性的一个参数。
size:音频缓冲区的大小,以字节为单位。
callback:填充音频缓冲区的回调函数。
userdata:用户自定义的数据。

-- 我的开源视音频项目汇总- https://blog.csdn.net/leixiaohua1020/article/details/42658139
完整的视频处理流程,从外部协议接收下来的数据依次经过解协议,解封装,解码,像素转换,编码,封装
 协议层(Protocol Layer):该层处理的数据为符合特定流媒体协议规范的数据,例如http,rtmp,file等。
 封装层(Format Layer):该层处理的数据为符合特定封装格式规范的数据,例如mkv,mp4,flv,mpegts,avi等。
 编码层(Codec Layer):该层处理的数据为符合特定编码标准规范的数据,例如h264,h265,mpeg2,mpeg4等。
 像素层(Pixel Layer):该层处理的数据为符合特定像素格式规范的数据,例如yuv420p,yuv422p,yuv444p,rgb24等。
 分辨率:分辨率指的是视频的尺寸。例如常见的分辨率有3840x2160 (4K), 1920x1080 (HD), 1280x720 (720P), 640x360 (360P)等。
 码率:码率是影响视频质量最主要的参数之一。其它条件形同的情况下,码率越大,视频质量越好。例如一个640x360的1Mbps的的视频的质量肯定好于一个640x360的500kbps的视频。但是不同分辨率的视频码率差别很大。例如我们很难断定一个1280x720的1Mbps的视频的质量是否高于一个640x360的500kbps的视频。

-- 视频压缩编码和音频压缩编码的基本原理- https://blog.csdn.net/leixiaohua1020/article/details/28114081
  1.视频编码基本原理
  (1)视频信号的冗余信息
  (2)压缩编码的方法:(a)变换编码(b)熵编码(c)运动估计和运动补偿(d)混合编码
  2.音频编码基本原理
  (1)音频信号的冗余信息:(a)频谱掩蔽效应(b)时域掩蔽效应
  (2)压缩编码方法

> AAC专利,H.264的版权
  H.264的版权由美国MPEG-LA公司;Via Licensing 管理的专利池为您提供高效、成本效益好的方式,以便从多个授权人获取使用 AAC 核心专利的权利。该授权计划常称为“联合”AAC 授权。
  AAC(高级音频编码)是音频压缩方案,并于 1997 年首次在 MPEG 内实现标准化。设计 AAC 的目的是,以低于以前 MPEG 音频压缩格式的比特率提供高品质音频。AAC 通过 MPEG-4 标准化流程实现了进一步完善,并最终利用带宽扩展技术进行了增强,由此产生 High Efficiency AAC;利用新增的参数化立体声产生 High Efficiency AAC version 2 (HE AAC v2)。

 x264是一个 H.264/MPEG4 AVC 编码器,如何创建高质量的H.264视频。码率控制
 对于普通用户通常有两种码率控制模式:crf(Constant Rate Factor)和Two pass ABR。码率控制是一种决定为每一个视频帧分配多少比特数的方法,它将决定文件的大小和质量的分配。

> 音视频数据解析解协议,解封装,解码视音频,视音频同步等
几种视音频数据解析示例- https://github.com/leixiaohua1020/simplest_mediadata_test
 (1)像素数据处理程序。包含RGB和YUV像素格式处理的函数。
 (2)音频采样数据处理程序。包含PCM音频采样格式处理的函数。
 (3)H.264码流分析程序。可以分离并解析NALU。
 (4)AAC码流分析程序。可以分离并解析ADTS帧。
 (5)FLV封装格式分析程序。可以将FLV中的MP3音频码流分离出来。
 (6)UDP-RTP协议分析程序。可以将分析UDP/RTP/MPEG-TS数据包。

1.视音频数据处理入门:RGB、YUV像素数据处理- https://blog.csdn.net/leixiaohua1020/article/details/50534150
 对RGB/YUV视频像素数据、PCM音频采样数据、H.264视频码流、AAC音频码流、FLV封装格式数据、UDP/RTP协议数据进行简单处理。视音频原始数据。
  YUV Player Deluxe- http://www.yuvplayer.com/
  YUV/RGB播放器,既支持YUV又支持RGB的播放器- https://github.com/leixiaohua1020/YUVplayer
 a.输入的YUV420P像素数据通过一个普通的函数转换为RGB数据后,传送给OpenGL播放。也就是像素的转换是通过CPU完成的。
 b.输入的YUV420P像素数据通过Shader转换为YUV数据,传送给OpenGL播放。像素的转换是通过显卡上的GPU完成的。

2.视音频数据处理入门:PCM音频采样数据处理- https://blog.csdn.net/leixiaohua1020/article/details/50534316
收费的专业音频编辑软件Adobe Audition- https://www.adobe.com/products/audition.html
免费开源的音频编辑软件Audacity- https://www.audacityteam.org/
 视音频原始数据,处理数据的左声道和右声道,格式转换,截取数据

3.视音频数据处理入门:H.264视频码流解析- https://blog.csdn.net/leixiaohua1020/article/details/50534369
  从H.264码流中分析得到它的基本单元NALU,并且可以简单解析NALU首部的字段。通过修改该程序可以实现不同的H.264码流处理功能。
  H.264原始码流(又称为“裸流”)是由一个一个的NALU组成的。其中每个NALU之间通过startcode(起始码)进行分隔,起始码分成两种:0x000001(3Byte)或者0x00000001(4Byte)。如果NALU对应的Slice为一帧的开始就用0x00000001,否则就用0x000001。H.264码流解析的步骤就是首先从码流中搜索0x000001和0x00000001,分离出NALU;然后再分析NALU的各个字段。
typedef enum {  
    NALU_TYPE_SLICE    = 1,  
    NALU_TYPE_DPA      = 2,  
    NALU_TYPE_DPB      = 3,  
    NALU_TYPE_DPC      = 4,  
    NALU_TYPE_IDR      = 5,  
    NALU_TYPE_SEI      = 6,  
    NALU_TYPE_SPS      = 7,  
    NALU_TYPE_PPS      = 8,  
    NALU_TYPE_AUD      = 9,  
    NALU_TYPE_EOSEQ    = 10,  
    NALU_TYPE_EOSTREAM = 11,  
    NALU_TYPE_FILL     = 12,  
} NaluType;  
typedef enum {  
    NALU_PRIORITY_DISPOSABLE = 0,  
    NALU_PRIRITY_LOW         = 1,  
    NALU_PRIORITY_HIGH       = 2,  
    NALU_PRIORITY_HIGHEST    = 3  
} NaluPriority; 

4.视音频数据处理入门:AAC音频码流解析- https://blog.csdn.net/leixiaohua1020/article/details/50535042
  从AAC码流中分析得到它的基本单元ADTS frame,并且可以简单解析ADTS frame首部的字段。实现不同的AAC码流处理功能。
  AAC原始码流(又称为“裸流”)是由一个一个的ADTS frame组成的。其中每个ADTS frame之间通过syncword(同步字)进行分隔。同步字为0xFFF(二进制“111111111111”)。AAC码流解析的步骤就是首先从码流中搜索0x0FFF,分离出ADTS frame;然后再分析ADTS frame的首部各个字段。

5.视音频数据处理入门:FLV封装格式解析- https://blog.csdn.net/leixiaohua1020/article/details/50535082
 封装格式数据的处理程序。可以从FLV中分析得到它的基本单元Tag,并且可以简单解析Tag首部的字段。通过修改该程序可以实现不同的FLV格式数据处理功能。FLV封装格式是由一个FLV Header文件头和一个一个的Tag组成的。Tag中包含了音频数据以及视频数据。

6.视音频数据处理入门:UDP-RTP协议解析- https://blog.csdn.net/leixiaohua1020/article/details/50535230
  分析UDP协议中的RTP 包头中的内容,以及RTP负载中MPEG-TS封装格式的信息。MPEG-TS封装格式数据打包为RTP/UDP协议然后发送出去的流程如下图所示。图中首先每7个MPEG-TS Packet打包为一个RTP,然后每个RTP再打包为一个UDP。其中打包RTP的方法就是在MPEG-TS数据前面加上RTP Header,而打包RTP的方法就是在RTP数据前面加上UDP Header。

> 音视频码流分析
 视频解码分析和音频解码分析。

Elecard streameye tools,h264分析工具。
1.视音频编解码学习工程:H.264分析器- https://blog.csdn.net/leixiaohua1020/article/details/17933821
H.264码流分析器。H.264码流结构。软件的exe以及源代码已经上传到了SourceForge上。
A H.264 stream analysis software based on MFC:https://sourceforge.net/projects/h264streamanalysis/
A H.264 stream analysis software based on MFC:https://github.com/leixiaohua1020/h264_analysis
A H.264 stream analysis software based on MFC:http://git.oschina.net/leixiaohua1020/H264_Analysis

2.视音频编解码学习工程:FLV封装格式分析器- https://blog.csdn.net/leixiaohua1020/article/details/17934487
 FLV全称是Flash Video,是互联网上使用极为广泛的视频封装格式。像Youtube,优酷这类视频网站,都使用FLV封装视频。学习FLV封装格式结构。此外它还支持分离FLV中的视频流和音频流。
项目地址:https://sourceforge.net/projects/flvformatanalysis/
CSDN下载地址(程序+源代码):http://download.csdn.net/detail/leixiaohua1020/6838805
  FLV(Flash Video)是Adobe公司设计开发的一种流行的流媒体格式,由于其视频文件体积轻巧、封装简单等特点,使其很适合在互联网上进行应用。此外,FLV可以使用Flash Player进行播放,而Flash Player插件已经安装在全世界绝大部分浏览器上,这使得通过网页播放FLV视频十分容易。目前主流的视频网站如优酷网,土豆网,乐视网等网站无一例外地使用了FLV格式。FLV封装格式的文件后缀通常为“.flv”。

3.视音频编解码学习工程:AAC格式分析器- https://blog.csdn.net/leixiaohua1020/article/details/18155549
 AAC全称是Advanced Audio Coding,是互联网上使用极为广泛的音频编码格式,也是当前性能差不多最好的音频编码格式。现有的互联网上的视频很大一部分都是使用AAC进行音频编码的。一个AAC的开源解码器faad2。
软件SourceForge地址:https://sourceforge.net/projects/aacstreamanalysis/
CSDN下载地址(程序+源代码):http://download.csdn.net/detail/leixiaohua1020/6841555

4.视音频编解码学习工程:TS封装格式分析器- https://blog.csdn.net/leixiaohua1020/article/details/17973587
 TS全称是 MPEG 2 Transport Stream(MPEG2 传输流),广泛用于广播电视系统,比如说数字电视,以及IPTV。TS封装格式结构。此外它还支持分离TS中的视频流和音频流。以及输出TS包的时间戳,PTS,DTS等。在对TS进行视音频分离的过程中,用到了一个Github开源小工程:tsdemux。
 支持中英双语,紧跟国际潮流~
项目地址:http://sourceforge.net/projects/tsformatanalysis/
CSDN下载地址(程序+源代码):http://download.csdn.net/detail/leixiaohua1020/6845473

5.视音频编解码学习工程:JPEG分析器- https://blog.csdn.net/leixiaohua1020/article/details/18280253
 JPEG全称是 Joint Photographic Experts Group(联合图像专家小组),是当今使用最为广泛的图像编码标准。它支持将JPEG解码为像素数据(YUV或者RGB)。同时支持输出DCT系数等参数。
项目地址:http://sourceforge.net/projects/jpeganalysis/
CSDN下载地址(程序+源代码):http://download.csdn.net/detail/leixiaohua1020/6849669

6.开源实时视频码流分析软件:VideoEye- https://blog.csdn.net/leixiaohua1020/article/details/34553607
 对本地文件或者互联网视频流进行实时的码流分析。Github:https://github.com/leixiaohua1020/VideoEye
 VideoEye是一个开源的视频分析的软件。本软件可以播放和分析视频数据。它支持多种视频流输入方式:HTTP,RTMP,RTSP以及文件等等。该软件可以实时分析视频流并能以图形化的方式呈现其分析结果

7.视频码流分析工具:
Elecard:http://www.elecard.com/en/index.html
CodecVisa:http://www.codecian.com/
码流分析工具(专门针对最新的H.265和VP9的):Intel Video Pro Analyzer 2014: https://software.intel.com/en-us/media-solutions-portal

8. 查看媒体信息的工具:MediaInfo。MediaInfo是一个专门查看视音频格式的工具。

> 音视频质量评价

  对多媒体应用中视频质量的主观评估方法。数字广播系统允许提供多媒体和数据广播应用,包括视频、音频、静态图像、文本和图表。

全参考客观视频质量评价方法 (MSE, PSNR,SSIM):
 PSNR(峰值信噪比):用得最多,但是其值不能很好地反映人眼主观感受。一般取值范围:20-40.值越大,视频质量越好。
 SSIM(结构相似性):计算稍复杂,其值可以较好地反映人眼主观感受。一般取值范围:0-1.值越大,视频质量越好。

  视频质量评价技术零基础学习方法- https://blog.csdn.net/leixiaohua1020/article/details/16359465
 1.编码器(或者是编码标准)性能评测是视频质量评价使用最为广泛的一项应用。
  视频编码器的作用是将输入的像素数据编码为输出的码流数据,最终的意义在于压缩视频的数据量。视频编码过程是一个有损压缩的过程,输出的视频码率(比特率)越低,视频的质量越低。虽然大体的趋势是一样的,即编码的视频的质量和视频的码率成正比的关系,但是不同的编码器之间的性能还是有区别的(即使采用相同的视频编码标准,比如同样是基于H.264标准的编码器,不同编码器之间性能也有区别)。一个优秀的视频编码器和其他视频编码器相比,就是能在相同的码率下,编码获得质量更高的视频。或者在编码获得相同质量的视频的前提下,使用更小的码率。可以通过视频质量评价的客观算法,对比得出视频编码器孰优孰劣。

 2.视频质量监测是视频质量评价另一种使用比较广泛的应用。
  该方面主要用于实时监测分析视频流。例如监测CMMB,数字电视,IPTV,互联网视频等这些信号的质量。当这些信号出现异常的时候,可以反馈给服务提供商,使之及时采取相应的措施,修复视频传输过程中出现的问题。
  通常,人们将数字视频质量评估的方法分为两大类:视频主观质量评价(SubjectiveQuality Assessment,SQA)和视频客观质量评价(ObjectiveQuality Assessment,OQA)。直接让观测者对视频质量做出直观判断的主观质量评估方法是最为准确的评估方法,但该方法相对复杂且其结果易受多种因素影响,因此,在实际应用中通常使用客观的、易于实现的视频客观质量评估方法。根据对原始视频的依赖程度,客观质量评估法又可以分为三种类型:全参考(FullReference,FR),部分参考(ReducedReference,RR)和无参考(No Reference,NR)
  视频主观质量评价模型:DSIS,DSCQS,SSM等;视频客观质量评价模型:PSNR,SSIM等。PSNR取值20-40,值越大,视频质量越好。SSIM取值0-1,值越大,视频质量越好。
  全参考方法只适用于已知原始视频的编码器端,可以用它来定量测量编码器的输出视频质量,它主要用于编码器的设计和对不同编码器的性能进行评估和优化。部分参考方法需要部分原始视频或者需要通过传输额外的一些信息。特别是无参考方法,在判断视频质量时不需要来自原始参考视频的任何信息,仅仅通过对失真视频空域和频域的处理分析来提取失真视频的特征,从而得到视频质量。适用于带宽有限,传输成本较高,不可能提供原始参考视频序列的无线和IP视频业务,可以用来实时或非实时的监控传输信道的服务质量(QoS)和视频系统的性能,并通过质量反馈来调节编解码器或信道的参数,保证有良好的恢复视频质量。
  视频质量评价研究的过程中,需要对视频数据进行编码,解码,像素格式转换等操作,以适应各种计算工具的需要。
  视频编码和序列的复杂度是息息相关的。序列的复杂度分为时间复杂度和空间复杂度。视频画面细节越多,空间复杂度越大;视频内容运动越剧烈,时间复杂度越大。视频复杂度越大,在同等画质的前提下,编码需要越多的数据量。可以根据序列的时间复杂度和空间复杂度筛选合适的测试序列。
  ITU.T和ITU-R的研究小组联合在一起,在1997年成立了视频质量专家组(VideoQuality Experts Group,VQEG),专门从事视频质量评估的研究和相关标准的制定。属于视频质量评价方面的国际组织。莫斯科大学视频组。出了很多视频质量评价方面的报告,以及这方面的软件。
   VQEG是目前国际上对视频质量进行标准化及性能测试的权威组织。VQEG(视频质量专家组),视频质量客观检测开展的项目- https://blog.csdn.net/leixiaohua1020/article/details/11729745

> 视频主观质量评价
1.MSU Perceptual Video Quality tool是莫斯科国立大学(Moscow State University)的Graphics and Media Lab制作的一款视频主观评价工具,使用起来比较方便。软件地址:http://www.compression.ru/video/quality_measure/perceptual_video_quality_tool_en.html
 6种主观评价方法(其中有4种来自于ITU-R BT.500标准)。包括:
 DSIS (Double Stimulus Impairment Scale,双激励损伤量表)
 DSCQS (Double Stimulus Continuous Quality Scale,双激励连续质量量表) type I and type II
 SCACJ (Stimulus Comparison Adjectival Categorical Judgement)
 EBU SAMVIQ (Subjective Assessment Method for Video Quality evaluation)
 MSUCQE (MSU Continuous Quality Evaluation)

2. 最常用的全参考视频质量评价方法(PSNR,SSIM)有以下2种:
 PSNR(峰值信噪比):用得最多,但是其值不能很好地反映人眼主观感受。一般取值范围:20-40.值越大,视频质量越好。
 SSIM(结构相似性):计算稍复杂,其值可以较好地反映人眼主观感受。一般取值范围:0-1.值越大,视频质量越好。

   PSNR,SSIM计算有如下工具可选:
MSU Video Quality Measurement Tool:商业软件,图形化界面,易上手,使用有限制。
Evalvid中的psnr.exe:开源软件,命令行界面,使用无限制。推荐,适合批处理。
 偶然发现了一个很好的网站。里面包含了大量主观评价算法的数据,导入到Matlab中就可以使用。http://sse.tongji.edu.cn/linzhang/IQA/IQA.htm
注:MOS(Mean Opnion Score,平均意见分)是主观评价实验之后,得到的主观分数,取值0-100,值越大,代表主观感受越好。

  Evalvid是一个对在真实或模拟的网络里传输的视频进行质量评价的框架和工具集。除了底层网络的QoS参数的测量,如丢包率,延迟,抖动,Evalvid还提供标准的视频质量评价算法如PSNR和SSIM。它视频编码方面支持H.264,MPEG-4和H.263。音频编码方面支持AAC。Evalvid是开源的,由jirka klaue编写。Evalvid中的PSNR工具用于计算原始序列与受损序列之间的PSNR或者SSIM。

3. 测试环境中的受控因素包括:观看距离、观测环境、测试序列的选择、序列的显示时间间隔等。
视频主观质量评价方法- https://blog.csdn.net/leixiaohua1020/article/details/11730313
  EBU(European Broadcasting Union, 欧洲广播联盟)在2003年对不同的音频编码方案进行了低码率下的主观评价实验。测试的编码方案包括AAC+(HE-AAC),MP3PRO,AAC,RealAudio,WMA,MP3等。
 在码率较低的情况下,不同编码方案的音频的音质排序为:AAC+> MP3PRO > AAC > RealAudio > WMA > MP3
 视频客观质量评价工具:MSU Video Quality Measurement Tool;全参考客观视频质量评价方法 (MSE, PSNR,SSIM)。

  MSU 出品的 H.264 编码器免费版包含的评价算法:SSIM (Y component);PSNR (Y component)。RD曲线(率失真曲线)是视频质量评价中最常见的一种曲线。

4.Jens-Rainer Ohm等人在文献《Comparison of the Coding Efficiency of Video Coding Standards—Including High Efficiency Video Coding (HEVC)》中对比了几种视频编码方案。编码方案包括:HEVC,H.264,MPEG4,H.263,MPEG2。在此我们展示他们针对1280x720,1920x1080两种分辨率的视频的测试结果。文献中使用PSNR(Peak Signal to Noise Ratio,峰值信噪比)衡量视频的质量。PSNR(Peak Signal to Noise Ratio,峰值信噪比)反映了压缩编码后的受损视频序列和原始序列之间的差别;两个序列之间差别越大,PSNR值越低,表明视频的质量越差。

    开源视频质量评价工具: Image Quality Assessment (IQA)是一个快速,精确,可靠的测量视频/图像质量的基于C的库。它实现了很多流行的算法比如 MS-SSIM, SIMM, MSE 和 PSNR。http://sourceforge.net/projects/iqa/

5.  Yen-Fu Ou等人在论文《MODELING THE IMPACT OF FRAME RATE ON PERCEPTUAL QUALITY OF VIDEO》中研究了帧率对人眼主观感受的影响。
  当帧率大于15帧的时候,人眼的主观感受差别不大,基本上都处于较高的水平。而帧率小于15帧以后,人眼的主观感受会急剧下降。换句话说,人眼会立刻感受到画面的不连贯性。因此可以认为15帧是一个临界值。视频的帧率不宜小于15帧。

  帧率对视频质量的影响根据视频内容的不同而不同。视频内容越复杂,对帧率的要求越高。比如说“football”就是一个运动较复杂的视频序列,可见在同等视频质量的情况下,它需要更高的帧率。而“Akiyo”内容则是一个新闻女主播在播新闻,画面内容简单,在较低的帧率下也能获得较高的视频质量。

6.视频帧率对人眼主观感受的影响
  Quan Huynh-Thu等人在论文《PERCEIVED QUALITY OF THE VARIATION OF THE VIDEO TEMPORAL RESOLUTION FOR LOW BIT RATE CODING》中研究了视频帧率对人眼主观感受的影响。在此记录一下其关键数据。

  其实验结论和Yen-Fu Ou等人在论文《MODELING THE IMPACT OF FRAME RATE ON PERCEPTUAL QUALITY OF VIDEO》中的很相似。之前已经做过分析:http://blog.csdn.net/leixiaohua1020/article/details/12685917

7.  B. Belmudez等人在论文《An approach for modeling the effects of video resolution and size on the perceived visual quality》中,研究了视频质量,分辨率,码率之间的关系。可见分辨率包含QCIF,CIF,QVGA,VGA等多种分辨率,码率从32kbps-1024kbps不等。可见在低码率的情况下,小分辨率的视频质量较好。

8.Sung-Ho Bae等人在论文《Assessments of Subjective Video Quality on HEVC-Encoded 4K-UHD Video for Beyond-HDTV Broadcasting Services》中,对基于HEVC编码的4K超高清视频序列进行了主观质量评价和客观质量评价。

9.基于HEVC 的UHD(超高清 4K)视频的主观质量评价
Philippe Hanhart等人在论文《Subjective quality evaluation of the upcoming HEVC video compression standard》中对新一代视频编码标准HEVC (H.265) 做了主观质量评价以及客观质量评价试验。衡量视频序列特性的TI(时间信息)和SI(空间信息)
  PETER G. J. BARTEN在论文《The Effects of Picture Size and Definition on Perceived Image Quality》中,研究了图像大小,分辨率,与人眼主观感受之间的关系。这片文章发表时间很早,是1989年的。但是依然有指导性意义。
  H.264 无参考视频质量评价方法 (使用了基于遗传编程方法的符号回归)

  Nicolas Staelens 等人在《Constructing a No-Reference H.264/AVC Bitstream-based Video Quality Metric using Genetic Programming-based Symbolic Regression》论文中研究了H.264的视频质量评价方法。衡量视频序列特性的TI(时间信息)和SI(空间信息)。引入了两种视频质量评价算法:PSNR和VQM。非常令人震惊的是,该模型的性能竟然比这两种算法都要好。

10.Web服务中延时对QoE(体验质量)的影响
 S. Egger等人在论文《WAITING TIMES IN QUALITY OF EXPERIENCE FOR WEB BASED SERVICES》中,研究了Web服务中延时对主观感受的影响。
 有关人类主观响应时间有如下研究成果:
 0.1 s: 是用户感觉不到系统不连贯性的上限
 1.0 s: 是用户的思路不被打扰的上限,尽管用户会注意到延迟
 10  s: 是用户保持对对话框的注意力的上限

11.Hans Hoffmann等人在论文《Studies on the Bit Rate Requirements for a HDTV Format With 1920 x 1080 pixel Resolution, Progressive Scanning at 50 Hz Frame Rate Targeting Large Flat Panel Displays》即《基于大型平板显示器的HDTV格式视频(分辨率为1920x1080,逐行扫描,帧率为50Hz)的码率的要求的研究》中,研究了HDTV的码率和视频质量之间的关系。HDTV(1920x1080)码率和视频质量关系的研究。
  T. Hossfeld等人在论文《INITIAL DELAY VS. INTERRUPTIONS: BETWEEN THE DEVIL AND THE DEEP BLUE SEA》中,研究了网络中延迟对主观感受的影响。延迟分为两种类型initial delays(初始化时延),stalling(暂停)。第一种是视频加载时候的延迟,第二种是视频播放时候的延迟。

12.  Hans Hoffmann等人在论文《Studies on the Bit Rate Requirements for a HDTV Format With 1920 x 1080 pixel Resolution, Progressive Scanning at 50 Hz Frame Rate Targeting Large Flat Panel Displays》即《基于大型平板显示器的HDTV格式视频(分辨率为1920x1080,逐行扫描,帧率为50Hz)的码率的要求的研究》中,研究了HDTV的码率和视频质量之间的关系。HDTV(1920x1080)码率和视频质量关系的研究。
  T. Hossfeld等人在论文《INITIAL DELAY VS. INTERRUPTIONS: BETWEEN THE DEVIL AND THE DEEP BLUE SEA》中,研究了网络中延迟对主观感受的影响。延迟分为两种类型initial delays(初始化时延),stalling(暂停)。第一种是视频加载时候的延迟,第二种是视频播放时候的延迟。
Youtube视频加载分为Laboratory,Crowdsourcing两种类型。UMTS connection setup 指的是3G网络建立连接的时间。authentication in social networks指的应该是社交网络的登录验证时间。

> 视频客观质量评价
1. 视频编码器评测系统:VideoCodecRank- https://blog.csdn.net/leixiaohua1020/article/details/46754977
视频编码器领域一直有个比较复杂的问题:mpeg2、divx、xvid、mpeg4、vp8、vp9、x264、openh264、x265等等这一系列编码器到底哪个好?而对于同一种视频编码器,又包括了各种各样的参数配置,这些配置对视频编码器的影响又是怎样的?
   分辨率:分辨率指的是视频的尺寸。例如常见的分辨率有3840x2160 (4K), 1920x1080 (HD), 1280x720 (720P), 640x360 (360P)等。
   码率:码率是影响视频质量最主要的参数之一。其它条件形同的情况下,码率越大,视频质量越好。例如一个640x360的1Mbps的的视频的质量肯定好于一个640x360的500kbps的视频。但是不同分辨率的视频码率差别很大。例如我们很难断定一个1280x720的1Mbps的视频的质量是否高于一个640x360的500kbps的视频。
   评价参数:评价参数用于在编码完成后统计编码的质量情况。评价参数可以分为两类:质量评价参数和速度评价参数。
   质量评价参数:编码质量评价主要通过全参考视频质量评价算法实现。全参考视频质量评价算法通过比较编码前原始视频与编解码后受损视频获得视频质量的评价结果。最常见的全参考视频质量评价模型为PSNR(峰值信噪比)和SSIM(结构相似度)。
  速度评价参数:编码速度评价主要通过统计编码和解码的耗时(以毫秒为单位)来实现。

2. 视频质量的好坏:目前常用的方法就是通过人眼来直接观看,但是由于人眼的主观性及观看人员的单体差异性,对于同样的视频质量,不同的人的感受是不一样的。
 视频质量评价方法:VQM。利用机器或程序来评价视频质量的方法。
 目前最常见的客观测试标准是PSNR(峰值信噪比)测试算法,但是其测试结果与主观评价结果的一致性较差,不能完全反应人眼的主观感觉。因此有多个机构提出了与主观评价结果一致性较好的客观评价算法,如美国国家电信和信息管理局(NTIA)提出的视频质量度量(VQM)算法及其模型、英国电信BT提出的全参考视频质量模型及其算法(BTFR)、巴西电信发展研究中心(CPqD)提出的基于分段的图像评价(IES)算法,以及泰克公司和Sarnoff公司提供的PQR算法等,这些客观算法都是在模拟人眼视觉模型的基础上建立的。
  NTIA提供的VQM客观视频质量评价方法对于PAL制及N视频格式都有较好的表现,与主观测试结果的一致性较好。
  VQM 客观测试标准是利用统计学原理模拟实际的人眼视觉系统,在提取参考及其对应的测试图像中人眼能够感知的图像特征值(亮度、色彩、时空变化等信息)的基础上,计算得出视频质量客观评价值,该评价值为人眼可感知的模糊、块失真、不均匀/不自然的运动、噪音和错误块等损伤的综合反映,其值位于0~1之间,值越小越好。VQM客观分数和人眼主观感受(DMOS)之间是线性关系的。

3.NTT公司的Keishiro Watanabe等人在论文《Proposal of new QoE assessment approach for quality management of IPTV services》中,提出了IPTV的QoE评价方法。
  Thomas Zinner等人在《Impact of Frame Rate and Resolution on Objective QoE Metrics》(QoMEX 2010)论文中,研究了视频帧率和分辨率对QoE的影响。影响视频QoE的三个因素:分辨率,帧率,图像质量。使用到了H.264/SVC(H.264可分级编码)的编码方式。H.264/SVC 可以实现编码视频时间上(帧率)、空间上(分辨率)可扩展,以及图像质量方面的可扩展,可以产生不同帧速率、分辨率或质量等级的视频。视频客观质量算法(SSIM,VQM)和视频主观QoE(MOS)之间的之间的关系。SSIM和VQM取值都在0-1之间。SSIM值越高,视频质量越好,VQM取值越高,则视频质量越差。
  对视频编码标准进行客观评价的常用方法是峰值信噪比PSNR。AVS与H264:在逐行编码方面,AVS视频标准的性能与H.264基本一致;在隔行编码方面,由于AVS视频标准目前只支持图像级帧/场自适应编码,平均有0.5dB的性能差距。
 Thomas Wiegand等人在论文《Rate-Constrained Coder Control and Comparison of Video Coding Standards》中对比了几种编码器的效率,包括MPEG-2,H.263, MPEG-4,以及 H.264/AVC。同等码率的前提下,各种标准的视频质量如下所示:MPEG-2

4.  G. Cermak在论文《The Relationship Among Video Quality, Screen Resolution, and Bit Rate》中,研究了视频质量,分辨率以及码率之间的关系。
   Michal Ries等人在论文《Motion Based Reference-Free Quality Estimation for H.264/AVC Video Streaming》中提出了一种基于运动特征的视频质量评价方法。不同于大部分基于QP的视频质量评价方法以及基于内容的视频质量评价方法,该方法很有新意。
 最后选择了如下几个参数用于计算视频质量:(基于运动特征的,基于内容的,以及ANSI。)
1.Zero MV ratio within one shot (Z),零运动矢量的比例
2.Mean MV size within one shot (N),平均非零运动矢量长度
3.Ratio of MV deviation within one shot (S),运动矢量标准差比例
4.Uniformity of movement within one shot (U),指向主要运动方向的运动矢量的比例
5.Average BR,平均比特率

5. Zhiyuan Shi等人(这是中国人写的,但是我没看见中文论文,厦门大学的)在论文《Research on Quality Assessment Metric Based on H.264/AVC Bitstream》中,提出了一种使用偏最小二乘法回归(PLSR)计算得出的视频质量评价模型。模型还是挺有参考价值的。该论文提出的模型完全依赖于从码流中提取出来的参数,是一个无参考视频质量评价算法。
   该算法选择了以下数值作为视频质量评价参数:
(1)QP。包括:平均值-- QPavg, 中值--QPme,标准差-- QPsd, 最小值-- QPmin,最大值-- QPmax, 10%位-- QP10% , 90%-- QP90%。
(2)帧内预测宏块(Intra predicted block)。包括:I4×4所占百分比, I16×16所占百分比。
(3)跳过宏块(Skipped macroblocks)。跳过(Skipped)宏块所占百分比。
(4)I-slice所占百分比。

6.  Michal Ries等人在论文《Content Based Video Quality Estimation for H.264/AVC Video Streaming》中,描述了一种基于视频内容的视频质量评价方法。该质量评价方法的特别之处在于,根据视频内容的复杂程度将视频分成了几类,每种类别分别使用不同的模型系数。而一般的视频质量评价方法通常只有一个模型以及一套固定的系数。
 五类视频类包括:
news(新闻):仅有一小块感兴趣区域在运动(比如人脸,一般占视频画面的15%),背景是静止的。
soccer(足球):包含大面积统一方向的运动。镜头通常会在一个统一颜色的背景下(绿色)跟踪一个快速运动的物体(足球)。
cartoon(卡通):主题在运动,背景是绝对静止的(没有自然特性)。
panorama(全景画):包含大面积统一方向的运动,运动方向是一致的。
rest(其他):除以上几种之外的视频都属于这一类。通常包含大量杂乱的运动,或者有很多镜头切换。

7.一种H.264高清视频的无参考视频质量评价算法(基于QP和跳过宏块数),本算法前提是高清视频,而且是H.264编码方式。该方法主要使用两个码流里面的参数进行质量评价:量化因子(QP)和跳过宏块数(skip_num)。使用了四个序列作为测试序列:spray,running,dunk,flower。
  流媒体视频质量评价(单刺激连续质量评价方法)。 Stefan Winkler等人在论文《Video Quality Evaluation for Internet Streaming Applications》中,介绍了流媒体视频质量评价的方法,以及他们的研究结果。
  考虑2种损伤:1.视频压缩损伤;2.网络传输损伤。
  2种主观质量评价方法:1.单刺激连续质量评价方法(SSCQE,这个方法比较不常见,但是还是挺重要的);2.双刺激损伤标度法(DSIS)。

8. Pixelmetrix :OTT Media Grinder (OTT TV 质量评价设备)。有关OTT TV 质量评价方法方面的研究少之又少。
 OTT TV是基于HTTP的,而HTTP是基于TCP的。TCP传输数据的时候不会发生丢包。传统的IPTV等QoS测量方法都注重丢包这类的指标,因而他们的测量方法已经不适用于OTT TV。
 Lin Zhang等人在论文《A COMPREHENSIVEEVALUATION OF FULL REFERENCE IMAGE QUALITY ASSESSMENT ALGORITHMS》中,比较了几种全参考图像质量评价算法。FSIM,IW-SSIM,RFSIM这三种比较新的图像质量评价算法准确性比较高。

你可能感兴趣的:(音视频方案)