H.264是一种视频高压缩技术,全称是MPEG-4 AVC,用中文说是“活动图像专家组-4的高等视频编码”,或称为MPEG-4 Part10。它是由国际电信标准化部门ITU-T和规定MPEG的国际标准化组织ISO/国际电工协会IEC共同制订的一种活动图像编码方式的国际标准格式,这是我们叫惯了的MPEG中的一种,那为什么叫H.264呢?
原来国际电信标准化部门从1998年就H .26L 的H.26S两个分组,前者研制节目时间较长的高压缩编码技术,后者则指短节目标准制订部门。H.26S 的标准化技术的名称为H.263,听起来很耳生,但实质上却早在用了,还被骂得很激烈。因为,H.263先入为大,一直以MPEG-4大内涵的名字在用。 H.263的全称为MPEG-4 Visual或MPEG-4 Pall Ⅱ,即MPEG-4视频简单层面的基础编码方式。2001年后,国际电信标准化部门ITU-T和MPEG的上级组织国际标准化组织ISO/国际电气标准会议IEC成立了联合视频组JVT,在H .26L 基础进行H.264的标准化。
2002 年12 月9 日 ~13日,在日本香川县淡路岛举行的MPEG聚会上确定了相关技术的规格。规格书定稿后, 2003年 3月 17日 ,H.364的技术格式最终稿国际标准规格(FDIS)被确立。目前软件和LSI芯片,服务及设备也都进入了使用阶段。格式书中,列出了比特流规定,解码必要格式,和可供参考的编码记载。
为了不引起误解,ITU-T推荐使用H.264作为这一标准的正式名称。实际上,MPEG-4里还有MPEG-4 Audio和MPEG-4 System的不同规格。
MPEG-4挨骂是因为MPEG-4 Visual许可收费离谱引起的。别以为有了专利就可以随意向人要钱了,专利的最终目的的是使全社会的智力资料更合理地使用,防止重复劳动,并不是犒赏最先发明者。按唯美史观,当社会技术发展到某一阶段时,新技术必然会出现。不是你、就是他总会发明出来,只是细节、时间、成本上的微小差别。历史上,这样不约而同的发明很多,无线电的发明者是马可尼还是波波夫,一直在西方和东方技术史界争论。
而当专利技术成为国际标准的一部份后,问题就更加复杂了。国标标准是强制的,向其中的专利付费是否有垄断之嫌?标准中的技术专利请求,是否合理?如何区分正当的请求和不正当的请求?等等一系列的理论、法律和道德问题都出来了。要尊重专利法,也要遵守反垄断法。这两年国际上围绕MPEG-4收费问题的大争论就是由此而起。
在标准化进程中,专利的争端正在增加,任何黑白两极的判断都无法令人满意。但奇怪的是标准中的专利争端发展到要求判决的案例几乎没有,都是当事者幕后交易解决,这使得不明确的法理更陷入恶性循环之中。同时也助长了用户对盗版的宽容,一边是抢我的剪径强资,另一边是偷你的小贼,怎么讲道德?!
MPEG-4的收费问题主要是从向传输环节收费引起的。MPEG-4对解码器和编码器的收费已经比MPEG-2低了很多,这是各种压缩技术竞争的结果。但MPEG-2不对传输MPEG-2压缩图像的服务环节收费,而MPEG-4则要对内容配送者收取每分钟0.0333美分的许可费。钱数听起来不大,但伦理上却有很大的差别。打个比方,你买了台彩电,必要的专利费用已经通过彩电厂转交到专利技术持有者的手中。而当你打的把这台彩电运回家的时候,出租车主也要向专利持有者交费!能不引起轩然大波吗。
现在的专利收费结构已经相当商业化。一种产品、一个系统或一套技术标准中,包含有许许多多公司的专利技术,使用企业很难与一个个技术的发明者直接交涉签约,这样就出现了一种专利管理公司的企业。它把某一产品的一个个技术从专利持有者手中买下来,约定好收益的分配方案,再由它人使用技术的企业中收取许可费。需要用这一产品技术的企业就只需与专利管理公司打交道,操作方便多了。但专利管理公司和著作权保护企业一样,实际上是一个中间商,两头赚钱,未必把社会效益放在最高地位。
现在的MPEG-4,也即MPEG-4 Visual是由美国MPEG LA公司进行专利许可管理的,他同时也在管理MPEG-2的专利,目前还在争取H.264的专利许可权。MPEG LA公司于2002年9月就开始募集H.264的主要专利,想采取先入为主的手段取得管理权。由于大量企业对MPEG-4收费制度不满,2003年6月, MPEG-4的支持团体M4IF(MPEG-4工业论坛),决定数据流标准格式的美国ISMA(国际数据流媒体协会)和多媒体通信有关业界团体IMTC (国际多媒体通信协会)发起召开H.264的许可制度说明会。总共有专利持有者和使用者团队45个,56人参加,对有关H.264许可问题进行早期意见交换,希望协调各方面的要求和利益。关于方面其它信息,我们稍后再细述,先看看H.264的特色吧。
H.264用大运算量来换取高压缩率、高画质
H.264受人追捧有三大原因:高性能、国际标准和公正的无差别许可制度。
首先是超高压缩率,其压缩率为MPEG-2的2倍以上,MPEG-4的1.5至2倍。这样的高压缩率是以编码的大运算量来换取的,H.264的编码处理计算量有MPEG-2的十多倍。不过其解码的运算量并没有上升很多,故对用户接收播放来说没有什么难度。
从另一角度,编码的大运算量现在也不是什么大问题。MPEG2是1994年推出的,当时微处理器的工作频率才100MHz,主存储器容量也不满10MB。 MPEG-2那样的压缩运算适应了当时的技术水平。而现在CPU的工作频率可上升到3GMz,DRAM用到256MB,提升了30倍上下,运算量也不怕。实验表明在奔腾4处理器的3GHz电脑上,可用软件实现D1(720×80)格式图像的H.264实时编码。
而且H.264才标准化,运算顺序还有改善的空间。当作为国际标准确立后,还能结集起全世界的精英来优化处理。这也反应出技术发展的必然性,唯物史观。
高压缩率使图像的数据量减少,给存储和传输带来了方便。加上基本规格公开的国际标准和公正的许可制度,所以,电视广播、家电和通信三大行业都进入到H.264的实际运用研发中心,见图1。
H.264又一项减少运算量的方法是在很多地方引入层次化运算,把在矩阵数据块变成小块运算,使计算式变得更加简单,见图5。
在DCT中采用时,8×8像素块层次化到2×2像素块,变换就变得快捷。运动补偿中也可利用。检出运动矢量时,最初的模块大,运动矢量的检出范围大,搜索快捷。当检出到有动作的部分再调入小模块细分析。H.264进行运动预测的模板多,一旦先进全面检索,需要的时间就很长,运算量也大。用层次化处理,先进行模板的收缩,接着小范围检索,就能减少计算量。在帧内预测中利用层次化后,残差计算的范围就能变小,同样有利于减少计算量。
H.264与MPEG-2和MPEG-4的不同还存在于纠错编码块中,H.264的纠错编码为内容自适应可变长度码(CAVLC)和内容自适应二进制算法编码(CABAC),能提高纠错能力。而MPEG-2和MPEG-4杰霍夫曼编码。另外,还加入了MPEG-2和MPEG-4没有环路滤波器,有降低噪声的效果。H.264的整数变换以4×4像素块为单位,已比原来的8×8像素块的块噪声少,再次降低,画质得到了进一步提高。
从应用角度看,H.264有三个层面,分为主要用于电视会议等通信的基线层面,面向高画质用途和录像的主层面以及面向内容配送的扩展层面。各层面的清晰度和编码速度取值不同。
基线层面的主要技术为图像只含有I画面,P画面,系统内有环路滤波,1/4帧间预测,4:2:0 YUV格式输入,基于VLC的纠错编码,弹性宏块指令等。主要层面则在基线层面基础上加入了CABAC运算编码技术和基于双向预测的B画面,滤波(接口)等技术,但不含弹性宏块指令。扩展层面则在基线层面里加入B画面和滤波编码等。
H.264分有4.1种不同样式的图像水平。水平1的编码速度较小,最大只能达64kbps,像素格式为QCIF(176×144),30帧/秒和Sub QCIF(128×96),60帧/秒。适合手机、PDA等屏幕播放视频用。水平2的编码速度可达2Mbps,图像的像素格式为CIF(352× 288),30帧/秒。水平3、水平4分别对应SDTV、HDTV图像格式,编码速度为10Mbps,20Mbps。另外,还有能支持更高清晰度的水平 5,编码速度高达135Mbps。故总称为4.1水平。在各水平更细的分类中,最大编码速度也还有不同规定。
最后,把H.264与MPEG-2/MPEG-4主要的不同技术比较与下表1。
视频的各种应用必须通过各种网络传送,这要求一个好的视频方案能处理各种应用和网络接口。H.264/AVC为了解决这个问题,提供了很多灵活性和客户化特性。H.264/AVC的设计方案包含两个层次,视频编码层(VCL,Video Coding Layer)和网络抽象层(NAL,Network Abstraction Layer)。视频编码层主要致力于有效地表示视频内容,网络抽象层格式化VCL视频表示,提供头部信息,适合多种传输和存储媒体。
VCL的设计同以前的ITU-T和 ISO/IEC JTC一样,基于块的混合视频编码方法。基本的源编码算法是:利用时间统计的相关性,开发帧间预测算法;利用预测残留变换编码,开发空间统计的相关性。在提高编码效率方面,没有一个单一的算法做出特别的贡献,而是大量的小的改善算法综合产生的结果。
一、主要特性
1、H.264/AVC相对以前的编码方法,以MPEG-2为例,在图像内容预测方面提高编码效率,改善图像质量的主要特点如下:
● 可变块大小运动补偿: 选择运动补偿大小和形状比以前的标准更灵活,最小的亮度运动补偿块可以小到4×4。
●1/4采样精度运动补偿:以前的标准最多1/2精度运动补偿,首次1/4采样精度运动补偿出现在MPEG-4第二部分高级类部分,但H.264/AVC大大减少了内插处理的复杂度。
●运动矢量可跨越图像边界:在以前的标准中,运动矢量限制在已编码参考图像的内部。图像边界外推法作为可选技术首次出现在H.263中。
●多参考图像运动补偿:在MPEG-2及以前的标准中,P帧只使用一帧,B帧只使用两帧图像进行预测。H.264/AVC使用高级图像选择技术,可以用以前已编码过且保留在缓冲区的大量的图像进行预测,大大提高了编码效率。
●消除参考图像顺序和显示图像顺序的相关性:在以前的标准中,参考图像顺序依赖显示图像顺序,H.264/AVC消除了该限制,可以任意选择。
● 消除参考图像与图像表示方法的限制:在以前的标准中,B帧图像不能作为预测图像,H.264/AVC在很多情况可以利用B帧图像作为参考。
● 加权预测:H.264/AVC采用新技术,允许加权运动补偿预测和偏移一定量。在淡入淡出场景中该技术极大提高编码效率,该技术还可用于其他多种用途。
● 改善“跳过”和“直接”运动推测:在以前的标准中,预测编码图像的“跳过”区不能有运动。当编码有全局运动的图像时,该限制非常有害。H.264/AVC对“跳过”区的运动采用推测方法。对双预测的B帧图像,采用高级运动预测方法,称为“直接”运动补偿,进一步改善编码效率。
● 帧内编码直接空间预测:将编码图像边沿进行外推应用到当前帧内编码图像的预测。
● 循环去块效应滤波器:基于块的视频编码在图像中存在块效应,主要来源于预测和残余编码。自适应去块效应滤波技术是非常著名的技术,能有效消除块效应,改善视频的主观和客观质量。
2、除改善预测方法外,其他改善编码效率的特性如下:
● 小块变换:以前的标准变换的块都是8×8,H.264/AVC主要使用4×4块变换,使编码器表示信号局部适应性更好,更适合预测编码,减少“铃”效应。另外图像边界需要小块变换。
● 分级块变换:H.264/AVC通常使用小块变换,但有些信号包含足够的相关性,要求以大块表示,H.264/AVC有两种方式实现。低频色度信号可用8×8,;对帧内编码,可使用特别的编码类型,低频亮度信号可用16×16块。
● 短字长变换: 所有以前标准使用的变换要求32位运算,H.264/AVC只使用16位运算。
● 完全匹配反变换:所有以前标准反变换和变换之间存在一定容限的误差,因此,每个解码器输出视频信号都不相同,产生小的漂移,最终影响图像的质量,H.264/AVC实现了完全匹配。
● 基于上下文的熵编码:H.264/AVC使用两种熵编码方法,CAVLC(上下文自适应的可变长编码)和CABAC(上下文自适应二进制算术编码),两种都是基于上下文的熵编码技术。
3、H.264/AVC具有强大的纠错功能和各种网络环境操作灵活性,主要特性如下:
● 参数集结构:H.264/AVC参数集结构设计了强大、有效的传输头部信息。在以前的标准中,如果少数几位关键信息丢失,可能解码器产生严重解码错误。H.264/AVC采用很灵活、特殊的方式,分开处理关键信息,能在各种环境下可靠传送。
● NAL单元语法结构:H.264/AVC中的每一个语法结构放置在称为NAL的单元中,以前的标准采用强制性特定的位流接口。NAL单元语法结构允许很自由的客户化,几乎适合所有的网络接口。
● 灵活的像条大小:在MPEG-2中,规定了严格的像条结构,头部数据量大,降低预测效率,编码效率低。在H.264/AVC可采用非常灵活的像条大小。
● 灵活宏块排序(FMO):H.264/AVC可以将图像划分为像条组,又称为图像区,每个像条可以独立解码。FMO通过管理图像区之间的关系,具有很强的抗数据丢失能力。
● 任意像条排序:因为每个像条几乎可以独立解码,所以像条可以按任意顺序发送和接收,在实时应用中,可以改善端到端的延时特性,特别适合于接收顺序和发送顺序不能对应的网络中,如使用INTERNET网络协议的应用。
● 冗余图像:为提高抗数据丢失的能力,H.264/AVC设计中包含一种新的能力,允许编码器发送图像区的冗余表示,当图像区的主表示丢失时仍可以正确解码。
● 数据划分:视频流中的编码信息的重要性不同,有些信息(如运动矢量、预测信息等)比其他信息更为重要。H.264/AVC可以根据每个像条语法元素的范畴,将像条语法划分为3部分,分开传送。
二、网络层
NAL规范视频数据的格式,主要是提供头部信息,以适合各种媒体的传输和存储。NAL支持各种网络,包括:
● 任何使用RTP/IP协议的实时有线和无线Internet 服务。
● 作为MP4文件存储和多媒体信息文件服务。
● MPEG-2系统。
● 其他网。
1、NAL 单元
编码的视频流组织成NAL单元,视频数据放置在网络单元中传输,每个网络单元包含整数个字节,第一个字节是头部信息,指示NAL单元的数据类型,其余是净荷。
净荷数据与仿真预防字节做交织处理,仿真预防字节是特殊值字节,防止偶然在净荷中出现同步字节图样。
NAL规定一种通用的格式,既适合面向包传输,也适合流传送。实际上,包传输和流传输的方式是相同的,不同之处是流传输前面增加了一个起始码前缀。
2、NAL单元在字节流中的应用
类似H.320和MPEG-2/H.222.0等传输系统,传输NAL作为有序连续字节或比特流,同时要依靠数据本身识别NAL单元边界。在这样的应用系统中,H.264/AVC规范定义了字节流格式,每个NAL单元前面增加3个字节的前缀,即同步字节。在比特流应用中,每个图像需要增加一个附加字节作为边界定位。还有一种可选特性,在字节流中增加附加数据,用做扩充发送数据量,能实现快速边界定位,恢复同步。
3、NAL单元在面向包传送中的应用
在类似Internet/RTP面向包传送协议系统中,包结构中包含包边界识别字节,在这种情况下,不需要同步字节。
4、VCL和非VCL的NAL单元
NAL单元分为VCL和非VCL两种,VCL NAL单元包含视频图像采样信息,非VCL包含各种有关的附加信息,例如参数集(头部信息,应用到大量的VCL NAL单元)、提高性能的附加信息、定时信息等。
5、参数集
参数集是很少变化的信息,用于大量VCL NAL单元的解码,分为两种类型:
● 序列参数集,作用于一串连续的视频图像,即视频序列。
● 图像参数集,作用于视频序列中的一个或多个个别的图像。
序列和图像参数集机制,减少了重复参数的传送,每个VCL NAL单元包含一个标识,指向有关的图像参数集,每个图像参数集包含一个标识,指向有关的序列参数集的内容,因此,只用少数的指针信息,引用大量的参数,大大减少每个VCL NAL单元重复传送的信息。
序列和图像参数集可以在发送VCL NAL单元以前发送,并且重复传送,大大提高纠错能力。序列和图像参数集可以在“带内”,也可以用更为可靠的其他“带外”通道传送。
6、存储单元
一组指定格式的NAL单元称为存储单元,每个存储单元对应一个图像。每个存储单元包含一组VCL NAL单元,组成一个主编码图像,VCL NAL单元由表示视频图像采样的像条所组成。存储单元前面可以加一个前缀,分界存储单元,附加增强信息(SEI)(如图像定时信息)也可以放在主编码图像的前面。
主编码图像后附加的VCL NAL单元,包含同一图像的冗余表示,称为冗余编码图像,当主编码图像数据丢失或损坏时,可用冗余编码图像解码。
7、编码视频序列
一个编码视频序列由一串连续的存储单元组成,使用同一序列参数集。每个视频序列可独立解码。编码序列的开始是即时刷新存储单元(IDR)。IDR是一个I帧图像,表示后面的图像不用参考以前的图像。一个NAL单元流可包含一个或更多的编码视频序列。
三、视频编码层
视频编码层在原理上与MPEG2是一致的,采用变换编码,使用空间和时间预测的混合编码。图1是一个宏块的视频编码层的框图。总之图像划分成块,一个序列的第一个图像,即随机存取点,典型是帧内编码,帧内每个采样的预测只利用帧内已编码的空间相邻的采样,选择哪些相邻采样进行预测,以及如何预测,这些附加信息必须同时被传送到解码器同步处理。随机存取点之间的图像使用帧间编码。
为了实现下一块或下一个图像的预测,编码器包含一个解码器,对量化变换系数进行与解码器解码相同的反量化和反变换过程,导出解码预测残余,解码残余与预测相加,结果送到去块效应滤波器,产生解码视频输出。
1、图像、帧和场
一个编码视频序列由连续的编码图像组成,编码图像可以是整个一帧图像,也可以是一场图像。H.264/AVC编码是基于几何概念的表示方法,而不是基于定时的概念。
2、YcbCr色度空间和4:2:0采样
人的视觉特性按照亮度和色度信息分别感知世界。视频的传输可以利用该特性减少色度信息传送。H.264/AVC目前采用与MPEG-2主类相同的4:2:0采样结构、8比特精度,高精度颜色和高比特精度的建议正在讨论中。
3、宏块划分
每个视频图像帧或场都可以划分为固定大小的宏块,宏块是解码的基本模块单元,通常是一个16×16亮度像素和两个8×8彩色分量像素的长方型区域。所有宏块的亮度和色度采样在空间或时间上进行预测,对预测残余进行变换编码。
4、像条和像条组
像条由宏块组成,像条是图像的子集,包含图像参数集,语法元素可以被分析,图像可以被独立解码。按照宏块映射表规定的顺序,在位流中安排宏块的传输顺序,而不是按光栅扫描顺序。
利用像条组的概念,H.264/AVC支持灵活宏块排序特性(FMO)。FMO改变了图像划分为像条和宏块的方式。每个像条组是多个宏块集合,通过宏块到像条组的影射表定义,该影射表在图像参数集中指定。每个宏块有一个像条组标识号,所有像条组标识号构成宏块到像条组影射表。每个像条组由一个或多个像条组成,因此像条是一个宏块序列,同一像条组中的宏块,按光栅顺序处理。
利用FMO,图像可以划分为许多宏块扫描图样,例如交织图样、点缀图样,一个或多个前景像条组、剩余像条组,或棋盘型图样影射等。每个像条组分别传送,后两种如图2所示,左边宏块到像条组的影射证明在关注局部型的编码应用中非常有用。右边宏块到像条组的影射证明适合保密型会议系统等应用。
无论是否使用FMO,H.264/AVC支持5种像条编码类型:
I像条:最简单的编码类型,所有的宏块不参考视频序列中其他的图像。
P像条:除了I像条编码类型外,P像条的部分宏块可以利用帧间预测,每个预测块至多可使用一个运动补偿预测信号。
B像条:除了P像条编码类型外,B像条的部分宏块可以利用帧间预测,每个预测块可使用两个运动补偿预测信号。
以上三种与以前的标准相似,主要是参考图像不同,其余两种像条类型是SP(切换P)SI(切换I),是新的类型,用于在不同位率编码码流之间进行有效切换。
SP像条: 称作切换P像条,能在不同编码图像之间有效地切换。
SI像条:称作切换I像条,允许SP像条的宏块完全匹配,达到随机读取数据进行解码和恢复错误的目的。
5. 宏块的编解码过程
所有宏块的亮度和色度采样要进行空间或时间的预测,对预测的残余进行变换编码,为了实现变换编码,每个颜色分量的预测残余要再划分为更小的4×4块,每块利用整数变换,变换系数被量化,最后是熵编码。
如图1所示,一个宏块视频编码层的方框图,输入的视频信号划分为宏块,映射宏块和像条组的关系,逐个选择像条,处理像条中每个宏块。
6、自适应帧/场编码操作
在隔行扫描帧中,当有移动的对象或摄像机移动时,与逐行相比,两个相邻行倾向减少统计的相关性,这种情况应比每场分别压缩更为有效。为了达到高效率,H.264/AVC在编码帧时,有以下可选方案:
● 结合两场成一个完整帧,作为帧编码,称为帧模式。
● 两场分别编码,称为场模式。
● 结合两场成一个完整帧,作为帧压缩。在编码时,划分垂直相邻的两个宏块对成两个场宏块对或帧宏块,再进行编码。
每帧图像可自适应选择3种模式之一进行编码。在前两种之间进行选择称为图像自适应帧/场编码(PAFF),当一帧作为两场编码时,每场划分为宏块,编码方式与帧编码方式很相似,主要有下面的例外:
● 运动补偿用参考场,而不是参考帧。
● 变换系数的“之字型”扫描方式不同。
● 宏块水平边沿去块滤波器的强度不选用“强”,因为场行在空间上是两倍帧行的距离。
在研制H.264/AVC标准时,据报道,采用ITU-601分辨率,PAFF编码技术与帧编码相比可减少码率16%到20%。
如果图像由运动区和非运动区混合组成,非运动区用帧模式、运动区用场模式是最有效的编码方法。因此每个垂直宏块对(16×32)可独立选择编码(帧/场)模式。这种编码选择称为宏块自适应帧/场编码(MBAFF)。对于帧模式宏块对,每个宏块包含帧行,对于场模式宏块对,顶部宏块包含顶场行,底部宏块包含底场行。
处理场宏块对的每个宏块与帧PAFF模式相似,然而,因为在MBAFF帧中发生场/帧宏块对混合,需要修改用作下列用途的方法:
● 之字型扫描。
● 运动矢量预测。
● 帧内预测模式的预测。
● 帧内预测帧采样精度。
● 去块效应滤波器。
● 上下文模型的熵编码。
主要思想是尽可能保留多的空间一致性,MBAFF帧的空间相邻的规范相当复杂,下面讲到的空间相邻都是指非MBAFF帧。
MBAFF 和PAFF的另一个重要区别是:使用MBAFF方法,一个场不能使用同一帧的另一个场中的宏块作为运动补偿参考。这样,有时PAFF比MBAFF编码更有效,特别是在快速全局运动、变换场景、图像刷新等情况下。
在开发MBAFF标准期间,据报道,采用ITU-601分辨率,MBAFF编码技术比PAFF相比可减少码率14%到16%。
7、帧内预测
根据像条编码类型,每个宏块可以选择几种编码类型之一。所有像条类型支持两级帧内编码,称为INTRA-4×4和 INTRA-16×16。
INTRA-4×4模式基于分别预测每个4×4亮度块,适合表现图像细节部分。而INTRA-16×16模式将整个16×16亮度块进行预测,适合平滑图像区。此外对这两种亮度预测类型,色度单独进行预测。作为INTRA-4×4和INTRA-16×16的另一种选择,I_PCM编码类型允许编码器简单跳过预测和变换编码过程,直接发送采样值。I_PCM允许编码器精确地表示采样,通常表示一些反常图像,而没有明显增加数据量。
8、帧间预测
● p像条帧间预测
除了帧内宏块编码类型外,P像条宏块使用多种预测类型,即运动补偿编码类型。为了方便运动描述,每个P型宏块对应于指定的固定大小的宏块划分。亮度块的划分大小为:16×16、16×8、8×16、8×8。
语法允许运动矢量跨越图像边界,这种情况参考帧需用外插法推算出图像外的采样值。利用邻近块的平均或方向预测,用差分编码计算运动矢量。
语法支持多图像运动补偿预测,以前编码的多个图像都可用作运动补偿参考,每个运动补偿需要指示参考图像的索引。一个8×8块划分成的小于8×8块的运动补偿使用同一参考图像索引,该功能要求编码和解码器具有多帧图像缓冲器,解码器通过位流中的管理控制操作信息与编码器同步。
除了运动补偿宏块模式外,P宏块可使用P_Skip模式,这种模式没有量化预测误差、不用传送运动矢量和参考索引参数。信号重建与P_16×16宏块类型预测信号类似,采用多帧缓冲区索引0的图像作为参考图像。重建P_Skip宏块的运动矢量与16×16块运动矢量预测类似。P_Skip编码类型适合没有变化或固定运动的区域,如摇镜头等,有极高的压缩率。
● B像条的帧间预测
B像条相对P像条的概念与以前的标准类似,但有些不同,B像条可以作为运动补偿预测的参考图像,B像条可以对两个补偿预测值进行加权运算。
9、变换和量化
与以前的视频编码标准类似,H.264/AVC利用预测残余变换编码。然而,H.264/AVC变换施加4×4块上,不用离散余弦变换(DCT),采用与离散余弦变换相似特性的整数变换。因为使用整数运算,所以反变换没有误差。
10、熵编码
H.264/AVC支持两种熵编码方法,最简单的熵编码方法是:对所有的语法元素,除了量化系数外,使用单一无限可扩展的码字表。这样不必为每个语法元素设计一个专用的VLC表,只需要按照数据的统计特性,客户化影射到单 一码 字表。使用exp-Golomb码建立单 一码 表,具有很简单、有规则的解码特性。
为了有效传送量化的变换系数,CAVLC(上下文自适应的可变长编码)是很有效的方法。在该方案中,对于各种语法元素的VLC码表按照已传送的语法元素可以进行切换。因为VLC表设计匹配相应的条件统计,改善了熵编码的性能。
在H.264/AVC中的算术编码引擎,与概率相关的估计等都不使用乘法操作,而是使用简单的移位和查找操作,与CAVLC操作相比,CABAC典型减少码率5%~15%。在隔行扫描视频,效果更明显。
11、去块循环滤波器
基于块编码的压缩算法的特点是偶尔产生可见的块结构,由于块边沿的精度比内部差,块效应是目前压缩算法的常见人工瑕疵。H.264/AVC定义了一个自适应循环滤波器,滤波的强度通过几个语法元素控制。
滤波的基本思想是:如果块边沿的绝对差值相对比较大,出现块人工瑕疵的可能性就很大,因此需要进行相应处理。然而,如果差值幅度很大,编码量化过程的误差不能解释,边沿很可能反映了源图像的实际样值,不需处理。
经过滤波处理,减少了块效应,而图像的质量基本不受影响,因此主观质量大大改善。如果不滤波,同样的主观质量,需要多出5%~10%的码率。图3说明了块滤波器的效果。
12、假想参考解码器模型
标准的好处在于保证所有符合标准的解码器能够解码出一致的视频质量。要实现标准,仅仅提供编码算法的描述是不够的,在实时系统中,指定如何馈送码流比特给解码器,解码的图像如何移出解码器等都是很重要的。要实现该功能,必须指定输入/出缓冲器模型和开发与实现无关的接收机模型。这样的接收机模型称为假想参考模型(HRD)。编码器不允许产生假想参考模型不能解码的位流。因此如果所有接收机都模拟假想参考模型的行为,可以保证所有解码器解出的码流具有很好的一致性。
四、类和级及其应用
1、类和级
类和级指定符合点,这些符合点用于实现各种标准应用之间的互操作性。类定义一组编码工具和算法,用于产生一致性的比特流,级限定比特流的部分关键参数。
所有的解码器符合指定的类必须支持该类定义的所有特性,编码器不必要求使用该类支持的任何特定的特性集,但必须提供一致性的比特流,即使支持该类的解码器能实现解码。
H.264/AVC定义了3类:基类、主类和扩展类。
基类支持除下面两组特性外的所有的H.264/AVC特性:
(1)B像条、加权预测、CABAC、场编码、图像或宏块在帧场编码之间自适应切换。
(2) PI/SI像条和像条数据分割。
主类支持第一组特性,但主类不支持FMO、ASO和冗余图像特性,扩展类支持除CABAC外所有H.264/AVC特性,序列参数中包含了一些标志指示解码该码流要求解码器支持的类。
在H.264/AVC,所有类使用相同的级定义,但个别实现时,可能每个支持的类支持的级不完全相同。H.264/AVC定义了15个级。
2、新标准类的使用领域
H.264/AVC的高压缩效率,扩充了现有的应用领域,至少包含以下领域:
(1)交互视频服务,通常速率1Mbps以下,低延迟。ITU-T SG16正在修改有关系统建议,IETF正在设计RTP净荷打包器,以支持H.264/AVC在交互视频方面的应用。近期主要利用基类,然后过渡到另两类。主要应用如下:
H.320 交互式视频服务,利用基于ISDN视频会议的电路交换;
3 GPP交互式H.324/M服务;
H.323交互式视频服务,基于INTERNET,利用IP/RTP协议。
(2)娱乐视频应用,1Mbps~8Mbps码率,0.5 到2秒中等时延。H.222.0|MPEG-2正在被修改以支持这方面的应用,这些应用主要利用主类,主要应用如下:
有线、卫星、地面、DSL等广播电视;
标清和高清DVD;
通过各种媒体的视频点播。
(3)流媒体服务,典型50kbps到1.5Mbps,2秒以上的时延,这些应用主要利用基类或扩展类。有线或无线使用情况有所不同,主要应用如下:
3GPP 流, 利用IP/RTP传输,RTSP作会话设置,3GPP规范的扩充部分可能仅使用基类;
有线INTERNET 流,利用IP/RTP传输,RTSP作会话设置。
(4)其他服务,主要是低码率,以文件传送方式,不考虑时延,根据不同应用,可能用到3类,主要应用如下:
3GPP 多媒体信息服务;
视频邮件。
六、结论
H.264代表了当前业界最先进的视频压缩技术,且具有以下无可比拟的优越性。
1、码率低:和MPEG-2等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG-2的1/2~1/3。显然,H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。
2、图像质量高:H.264能提供连续、流畅的高质量图像。
3、容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。
4、网络适应性强:H.264提供了网络适应层, 使得H.264的文件能容易地在不同网络上传输。
H.264超越以往的视频编解码标准,成为各个厂商竞争的焦点。目前,各主流厂商纷纷宣布,已经或将在明年推出产品化的H.264。在视频广播领域,美国哈雷公司宣布其产品MV100编码器可以支持H.264协议,哈雷原来的MPEG-2编码器MV100硬件平台已经兼容H.264能力,只需从软件升级即可。在欧洲,有两个用户已经选用了此种编码器。其中一个是法国的卫星及直播星运营商CanalSatellite,它采用哈雷高性能的数字前端系统在ADSL上传输视频业务,MV100超低码率编码能力可以实现在多种电信网上传输广播级视频节目。另外是第一个即将投入正式商业运营的英国Video network limited。
针对H.264的特点,编码软件和编码LSI开发的厂家都把编码/解码运算量的减少作为方向来研究,所以,实用前景大好。大多数半导体厂认为在H.264中使用削减运算量方法后,能获得相当于MPEG-2编码LSI的2倍左右的处理能力。
由于技术的日益成熟,半导体厂商已在进行H.264的编码/解码LSI的开发。特别是HDD录像机和DVD录像机等设备中,采用H.264的实例已很多,更引起了半导体厂商的关心。加之,H.264采用的动画编码方式和音频编码方式具有多样化特性,今后几乎将会是全部厂商的主要规格之一。
以目前芯片将H.264实用化的研究也在进行之中。用德州仪器(TI)公司制造的DSP[TMS 320C 64××]对以H.264预先编码的图像已证实能进行实时解码。TI公司正在开发的C6×系列DSP LSI,将在视频编码电路和存储控制电路中,加入对应H.264和MWV等的编码/解码功能。
TI公司推出的可以对MPEG-4编码/解码的用于便携机开发的TMS320DM270,只要用上新的CPU提高处理能力,就可用于H.264的编码/解码。
已经有MWA9的编码/解码DSP样品出厂的美国模拟设备公司也在向H.264前进。
图6是美国InStat/MDR公司对H.264功能LSI产量的预测。预测还只基于H.264的许可制度与MPEG-2一样的前提下进行的。
H.264的许可制度有望较友善
H.264替代MPEG-4的呼声很高,除了其高性能外,作为国际标准和公正的无差别许可制度也至关重要。
MPEG-4的许可体系引起了几大行业,特别是信息配送行业的强烈反对,使得新国际标准的许可收费不得不向更为友善的方向发展。表2是几种视频压缩技术的许可收费价格。
表中可见,MPEG LA公司提出的MPEG-4配送过程也要付费是空前绝后的。视频压缩产品只对终端收费合乎常情,因而招至了很大反抗,直到今日仍在遭人反对。而且对采用 MPEG-4的产品和服务还分成6种标准:用户记录视频,互联网视频,车载移动视频,特有用户视频,存储视频和企业视频。连简单的移动电视服务,如从现场到电视中心通讯时,若使用MPEG-4视频的话,也需支付移动视频的许可费。
因此,连原定在地面数字电视的编码方式中采用MPEG-4的日本ARIB,也因许可费问题而开始研讨是否改用H.264。拥有各种内容服务业者的移动内容论坛MCF也于 2003年 5月 23日 ,致涵MPEG LA公司反对内容收费,要求重新考虑许可条件。MPEG LA也已松口表示希望以能相互满意的形式交涉。
随着掌握压缩技术的企业增加和用户巨增,H.264的许可管理收费受到二个方面的压力。一、用户要求低价格,最好免费使用;二、持有压缩技术的企业增加,供应空间大,不得不低价出售。目前具有高压缩率特征的活动图像编码技术的企业不少,如,美国数据流公司的XVD,能在一片CD-R碟片上放入2小时图像,并能实时编码。美国On2技术公司的活动图像编码技术VP5和新版本VP6,国内推出的EVD就采用这种编码技术。美国AOL(America Online)公司也有新压缩技术在进行许可操作。微软的WMV 9也在向家电产品扩展,如美国工艺家庭娱乐公司使用WMV 9压缩,将HDTV画质的“终结者2:审判日”放入DVD-ROM内。
为此,H.264的许可制度设计有两点引人之处:第一,部分格式将无偿使用,H.264的基线层面全员免费,无偿使用;其二,许可体系要比MPEG-4单纯,公正无差别对待用户和专利持有者。以及其它能促进普及的优惠政策,如早期低价格许可等。
基线层面的免费是以ITL-T主要活动的企业为中心推动的。现得到美国苹果公司和美国Cisco系统公司、中国联想公司、芬兰诺基亚、美国On2技术公司、德国西门子、美国德州仪器公司等的支持,并有美国政府为其撑腰。
基线层面免费的最大目的是加速H.264的普及。当基线层面普及以后,收费的主层面和扩展层面就能带动起来。尽管主要层面和扩展层面要收费,但从趋势看,许可费应较为便宜,因为各种编码技术的许可费都有不断下降的趋势,目前很热门的美国微笑WMV 9的许可费就比MPEG-2和MPEG-4要低,见表2。而且微软的契约期为10年,比MPEG-2和MPEG-4还长。
从MPEG-2向MPEG-4的发展看,编码器(电路加软件)和解码(电路加软件)的费用就降到1/10,WMV9更低。可以预计H.264的许可费用会比WMV 9还低。
前文提到的45个团体的联合会传出说法,如果H.264采用MPEG-4 Visual一样的许可体系,H.264就可能不被采用,态度强硬。标准中的专利收费收益已远不止收回投入的开发成本,而是在不断地获取暴利,故降低收费在所必然。
当然,只要没有定局,变化依然存在。专利持有者的想法也各有不同,采用无差别对待原则是否行得通。专利实施充满着大量利益诱惑,追名逐利者大有人在。目前已经有两家公司申称对H.264具有许可管理权。在专利应用前就开始抢专利管理权的现象是前所未有的,两家公司还都有渊源。一家是实际持有MPEG-2和 MPEG-4 Visual许可管理的美国MPEG LA公司。另一家是进行MPEG-2 AAC和MPEG-4 Audio许可管理的美国杜比实验室的子公司美国Vialicensing公司。最终有哪一家公司管理,还是分割管理,现在都不清楚。
AVS:AVS是我国第一个具有自主知识产权的数字音视频编解码技术标准。AVS标准在国家标准计划中的正式名称为《信息技术先进音视频编码》,它是我国第一个具有自主知识产权、达到国际先进水平的数字音视频编解码标准,是高清晰度数字电视、高清晰度激光视盘机、网络电视、视频通信等重大音视频应用所共同采用的基础性标准。
MPEG:MPEG是数字音频压缩技术。最新的MPEG-4是新一代全球多媒体标准。从蜂窝式电话到宽带以及到其它更高端的应用,MPEG-4能够在各种带宽范围内提供专业质量的音频和视频流服务。
与MPEG-1和MPEG-2相比,MPEG-4更适于交互AV服务以及远程监控,它的设计目标使其具有更广的适应性和可扩展性。
H.264:H.264标准是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像专家组)的联合视频组(JVT,Joint Video Team)开发的标准,也称为MPEG-4 AVC,它作为MPEG-4 Part10,是“高级视频编码”。
H.264具有很强的抗误码特性,可适应丢包率高、干扰严重的信道中的视频传输。
各标准收费比较:
MPEG-2:是目前包括数字电视在内的数字音视频产业广泛采用的信源编码标准。但如果选择这个答案就必须接受每台设备交2.5美元专利费这样的现实。据估计,2004年至2012年,中国国内将会销售4亿台数字电视机(含机顶盒)和激光视盘机,因此我国相关企业将需要交高达10亿美元的专利使用费。
MPEG-4、H.264/MPEG-4:与过去相比,MPEG-LA虽然降低了解码器的专利费,但开始增收编码器的专利费。如果视频节目运营商提供采用MPEG-4(已经收费)或者H.264/MPEG-4 AVC( 2006 年1 月1 日 开始收费)标准的视频节目,则还需要支付加盟费(Participation fee),即MPEG-LA将根据节目、订户和本地发射台数等参数来向运营商收费,每个运营商每年350万美元封顶。除此之外,终端用户也需要向MPEG-LA交纳每个节目0.04美元的费用,这笔费用将由运营商代收,打入收费成本。
AVS的游戏规则:要想成为这个标准众多专利权人中的一员,必须在一定程度上放弃对自身专利利益的话语权,服从AVS专利管理委员会的管理。
专利管理委员会将由19人组成,其中政府代表5名,代表公众利益;企业代表6名,代表标准实施者利益;专利权人6名,代表技术发明者利益;AVS工作组组长负责贯彻AVS 知识产权管理政策;还有专利池管理实体主任,即执行者。
这样的专利池管理委员会汇集了各方的利益,使各方的利益能够得到均衡妥善的处理。据悉,中国政府为了大力推广AVS,打算只象征性地收取每台1元人民币的专利费
AVS产业化的主要产品形态包括:
1) 芯片:高清晰度/标准清晰度AVS解码芯片和编码芯片,国内需求量在未来十多面的时间内年均将达4000多万片。在不久前发布的国内自研的凤芯2号支持AVS标准。
2) 软件:AVS节目制作与管理系统,Linux和Window平台上基于AVS标准的流媒体播出、点播、回放软件;
3) 整机:AVS机顶盒、AVS硬盘播出服务器、AVS编码器、AVS高清晰度激光视盘机、AVS高清晰度数字电视机顶盒和接收机、AVS手机、AVS便携式数码产品等。
AVS标准工作组:数字音视频编解码技术标准工作组由国家信息产业部科学技术司于2002年6月批准成立。工作组的任务是:面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用.
0前言
随着NGN、 3G 及 3G 演进和NGBW等对视频、多媒体业务与网络应用的飞速发展需求,作为视频业务及存储应用核心技术的高效率视频数字压缩编(译码)技术,愈来愈引起人们的关注,成为目前广播、视频与多媒体通信领域中的亮点与热点。
制定视频编码标准的两大组织为ITU-T的视频编码专家组(VCEG)及ISO/IEC的活动图像专家组(MPEG)。
ITU-T于1993年制定了第一个视频编码标准H.261,其输出速率为p×64kbit/s,主要用于ISDN及ATM等准宽带及宽带信道视频,不适宜于PSTN及移动通信等窄带及带宽有限的信道与网络上应用。为满足低速率视频通信需要,ITU-T于1996年又推出了适合在小于64kbit/s速率的信道上传输的视频编码标准H.263。1998年又推出了H.263的第二版H.263+,提供了12种可选模式及其他特征,进一步提高了压缩编码性能;同时又开始制定进一步改进性能的近期与远期目标。其近期目标即为2000年制定的H.263第三版H.263++,其远期目标即所谓标准H.26x,为H.264标准的制定奠定基础。
在ITU-T推出H.26x系列标准的同时,ISO/IEC主导的相应视频编码标准,包括其业务管理在内,亦在积极推进,形成了众所周知的MPEG-x系列标准(MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等),并获得了较广泛运用。
作者:陈如明
2001年,MPEG认识到H .26L 的潜在优势及与VCEG联合工作的必要性,从而两者合作成立联合视频组(JVT)。2001年9月,在JVT的第一次会议上制定了以H .26L 为基础的H.264标准草案和测试模型TML-9。2003年3月,在泰国Pattaya举行的第七次JVT会议上,JVT形成了最终标准草案,分别提交ITU-T及ISO/IEC审批,从而形成了2003年第二季度发布的统一标准H.264/AVC。该标准在ITU-T称为H.264;在ISO/IEC则称为MPEG4-Part10AVC(AdvancedVideo Coding,第10部分,先进视频编码)。这便是H.264/AVC的基本由来。
H.264/AVC在压缩编码效率、视频内容自适性处理能力方面及网络层面,特别是对IP网络及移动网络的自适应处理能力、抗干扰能力与顽健性等方面,相比H.263/MPEG-4均有大幅度提高,因而自2003年未以来,视频业界一些厂商与人士开始对H.264/AVC寄予极高的期望,甚至达到近乎狂热般追捧的境地。不是说高的期望值不对,H.264/AVC的应用确属相当广泛,包括固定或移动的可视电话、移动电话、实时视频会议、视频监控、流媒体、多媒体(超媒体)视频、Internet视频及多媒体(超媒体)、IPTV、手机电视、宽带电话以及视频信息存储等,但对其成熟过程、复杂性及指定时期内的确切市场定位,亦必须要有一个冷静、理智的估计,才能确保其积极、稳妥、科学、务实地健康发展。基于这一初衷,笔者拟结合NGN及 3G 演进的固定、移动视频业务实际需求状况,就H.264/AVC的重要技术进展及其务实发展策略谈一些个人看法,供分析参考。
1H.264/AVC的重要技术进展
NGN及 3G 、 3G 演进和NGBW发展的一个主要目标即为包括视频在内的多媒体应用。对此,H.264/AVC定义了3种视频服务类型,即会话型服务(如可视电话、视频会议等)、现场或先期录制的视频流型服务和多媒体消息类服务MMS。
为适应NGNIP网络及带宽资源有限的时变型移动/无线信道的传输需要,H.264/AVC无论从网络层匹配自适应能力、提高源压缩编码效率及信道抗干扰能力等方面均进行了较精心的设计,有较大幅度的性能增强与改进。
1.1视频编译码结构的分层设计
视频编译码结构从功能和算法上分为两层设计,即视频编码层(VCL)及网络适配层(NAL)。VCL负责高效率视频编码压缩;NAL负责网络的适配,即提供对不同网络性能匹配的自适应处理能力,它针对下层网络的特性对数据进行封装,包括成帧、发送相应信号给逻辑信道、利用同步信息进行处理等。NAL从VCL获得数据信息,包括头信息、段结构信息及实际净荷信息,进而将它们映射到下层的各传输协议上。这些协议诸如H.320、H.323、H.324、MPEG-2等。NAL单元按RTP序列号顺序传送,序列号设置可发现丢失的是哪一个VCL单元,即使基本编码图像丢失,借助冗余编码图像,仍可获得较“粗糙”的图像恢复。同时,借助图像的片(Slice)、片组、宏块(MB)结构及黑白宏块非扫描顺序的灵活宏块顺序(FMO),安排与切换P帧(SP)、切换I帧(SI)的流切换、流拼接、随机接入与差错恢复等,都有利于提高其误码掩盖及抗干扰能力,并有助于压缩效率的提高。NAL层的引入,大大提高了H.264/AVC对不同网络及复杂信道的适应能力。
1.2高效率视频编码设计
1.2.1 统一的可变长度编码(UVLC)码表
以往标准的熵编码通常采用变长度的哈夫曼编码,其码表不统一,不能适应变化多端的视频内容,从而影响编码效率的提高。在此,即对H.263不同系数采用不同码表进行VLC作了改进,采用了一个统 一码 表的UVLC,同时,又对H .26L 中的VCL方法进行了改进,使量化后的DCT变换系数使用基于内容的自适应可变长度编码(CAVLC),此外还定义了一种基于上下文内容的自适应二进制算术编码(CABAC),其性能比CAVLC更好,当然计算更复杂。从而,借助UVLC、CAVLC及CABAC较好地提高了压缩编码效率。
1.2.2 自适应帧、场编码(AFFC)
如众所知,帧中邻行空间相关性强,场中邻行时间相关性较强,从而帧编码可用于运动性较小图像编码,而场编码可用于运动性较大图像编码。按此根据图像运动状况选择编码模式即构成图像自适应帧、场编码(PAFFC),以提高编码效率。进而,若一帧内包含一些运动快慢不同的区域,还可将此区域划分为“宏块对”进行AFFC,此时即称为宏块自适应帧、场编码(MBAFFC)。
1.2.34 ×4块的整数变换
H.264/AVC中的DCT变换与H.263中的情况不同,它采用的变换单位不是8×8块,而是4×4块,且变换是整数操作,而不是实数操作。其优点为:运算速度快、精度高并占用较少内存。整数操作,编译码有严格的反变换,避免了截取误差,减少了运动边缘块的编码噪声。同时,4×4变换比8×8变换产生的方块效应亦要小。
为进一步利用图像的空间相关性,在对色度分量预测残差及16×16帧内预测的预测残差进行DCT变换后,还对每个4×4变换系数块中的DC系数组成的2×2和4×4大小的块进一步做哈达玛(Hadamard)变换,以更好改善性能。
1.2.4 动目标估值(ME)算法的改进
a)搜索精度增强:首先,进一步增强了动目标估值的搜索精度,在半像素预测后的生成矩阵基础上,内插一次扩展至1/4像素精度矢量,在1/4像素基础上再内插一次,获得1/8像素更高精度的运动矢量。
b)宏块(MB)更精细与多样化分解:对每一个MB,进行更精细与多样化分解,此时MB拥有和此类小块数相对应的运动矢量。这种多模式的灵活细致的分块划分,更切合实际动目标形状,大大提高了动目标估值精度。
c)多参考帧模式预测:采取多参考帧模式,进行多于一帧的先前帧(最多5帧)动目标估值。此时对某个MB进行动目标估值时,会从过去的2个或3个刚编码过的参考帧中选一帧作参考,以改善动目标估值性能,提高译码器的误码恢复能力,取得更好的预测效果。
d)变尺寸块运动补偿(MC):例如平坦区可取16×16尺寸块,而细节区可采用8×8甚至4×4等更精细尺寸块,此时MC预测精度更高、灵活性更好,更符合视频内容不断变化的实际情况。
e)加权预测:H.264/AVC还允许对MC预测信号进行加权预测,可较大幅度改善无线信道衰落之类信道变化时的编码效率。
f)MC时的环路去方块滤波:H.264/AVC把去方块滤波引入MC预测环路中,既可去除方块效应,又能保护图像细节边缘,同时亦改善了图像的主、客观评定质量。而且经过滤波后的图像根据需要放在缓存中用于帧间预测,此滤波器位于译码环中而非译码环外,从而又称环路滤波。
1.2.5 帧内方向空间预测
由于单个图像帧内有较高空间冗余度,在空间域上进行帧内方向空间预测可获得更高压缩效率。对亮度预测通常取INTRA-4×4及INTRA-16×16两种方式,对图像中较平坦部分采用INTRA-16×16方式,对细化图像部分用INTRA-4×4块预测。预测前,应对当前块相邻的左、上重构块进行分类,根据不同分类,选择不同预测模式。INTRA-4×4共有9种预测模式,INTRA-16×16共有4种预测模式,对色度预测按INTRA-8×8块进行,亦共有4种预测模式。从而,精细的帧内方向空间预测可有效提高预测质量。
这样,H.264/AVC的精细数字压缩编码技术取得了优良的压缩效率。测试结果表明:它比H.263++的平均编码比特率要少48.80%,比MPEG-4ASP要少38.62%,相对H.263约提高了一倍压缩效率,很具吸引力。
1.3对网络、信道变化的自适应性及高抗干扰能力与顽健性
为适应IP及移动环境的QoS需要,获得信道性能的高抗干扰能力与顽健性,视频编译码器要附加更多苛刻的应用要求,诸如高压缩效率、低功耗、重量轻、较少内存及低复杂度,对误码、丢包有较强抗干扰能力与顽健性,支持适应时变环境的快速码速调整能力,设置不用优先级进行适应性处理及有效地适配指定网络机制等。
1.3.1 NAL的分层结构分层处理
如上所述,NAL层的引入可大大提高H.264/AVC对网络、信道的适应能力。例如在 3G 移动通信的IP包分组传送场合,NAL单元即可经顽健头前置压缩(ROHC)封装于PPP成帧包中,尔后形成无线链路层业务数据单元,再在物理层中加上CRC校验单元传输,获得抗误码性能的有效增强。
1.3.2 序列参数集设计
由于序列和图像头信息之类关键信息比特的丢失会造成译码时的严重后果,对此H.264/AVC的序列参数集设计可提供此头信息的有效与顽健传输。它将这些关键信息分离出来进行传输,使之处在特定的灵活可靠的环境中。此序列参数集用于一连串编码视频序列中,图像参数集供一个编码序列中一个或多个图像译码用,它们包括图像类型、序列号等。译码时某些序列号的丢失可用于检测信息包的丢失与否,以及时采取弥补措施,增强抗干扰能力与顽健性。
1.3.3 有效可靠的同步处理
同步对控制传输质量至关重要,H.264/AVC设置了一系列有效可靠的同步处理措施。H.264/AVC中的时间同步可通过采用帧内图像刷新来完成,空间同步由条结构编码来支持。同时,为便于误码以后的再同步,在一幅图像的视频数据中还提供了一定的再同步点。
1.3.4 纠错及环路时延控制
H.264/AVC中的误码跟踪、FEC及一种短时延本地重发纠错ARQ技术相组合,可应用于无线视频传输,以确保较好的抗干扰能力。同时,在基站设置一种视频代理服务器,亦可大大减少环路时延,并可准确发现并纠正误码。
1.3.5 数据分割模式的误码等级保护
H.264/AVC中定义了数据分割模式,即对图像首先进行分段,段内宏块数据划分为宏块头信息、运动矢量及DCT系数三部分,三部分之间尚有标识符分隔。这样,译码器可较方便地检出受损数据类型,减少误码对图像质量的损害。同时,这种数据分割模式亦有利于信道编码时进行不等权保护,即对重要数据进行等级较高的保护等。
1.3.6 片结构及灵活片宏块顺序安排改善误码性能
如上所述,借助片结构及灵活片宏块顺序(FMO)安排可改善误码性能,片译码的独立性可明显减少误码扩散,而且FMO的使用易于实现误码掩盖。
1.3.7 自适应码率控制及SI、SP流切换
码率的自适应快速控制可通过宏块层改变量化精度来实现。涉及分级及流切换问题,移动通信中常用空间/时间分级支持其较大范围自适应比特速率变化。MPEG-4中采用精细度可伸缩(FGS)实施分级编码,而H.263中定义了时间域、空间域及信噪比(SNR)三种分级能力,但这些方法分级实施视频流传输效率均较低。目前较多采用流切换技术,周期性刷新内(INTRA)帧即为一例。H.264/AVC的码率控制(RC)主要有JVT-F086及JVT-G012提出的两种方案,通常认为后者算法较优。JVT-G012通过引入基本单元及线性模型的概念,提出一种自适应基本单元层码率控制算法。此基本单元可能是一帧、一片或一个宏块。线性模型预测当前基本单元的平均残差绝对值(MAD)是通过前一帧相应位置的基本单元而获得。同时H.264/AVC如上所述,可允许某些译码器的译码处理与其他译码器产生的视频流精确同步而不产生图像切换损失,从而可在不同数据速率的视频流内容间切换译码器,实现数据丢失或误码恢复,及使用快速前向、快速后向等特技。而SI、SP帧即可用于流切换、流拼接、随机接入、错误恢复等,以提高其抗干扰能力及顽健性,亦可避免频繁刷新INTRA帧带来的效率下降。
2H.264/AVC务实发展策略思考
H.264/AVC比H.263可节省一倍带宽而维持同等视频图像质量,还具有3dB等效信噪比改进,因而确有其巨大魅力,首先可迅速折服那些苦于专线带宽昂贵的视频业务用户,甚至对未来高质量移动通信手机多媒体视频业务的开展亦很有吸引力。大大小小的芯片开发制造商亦在积极部署,期望捷足先登,从中获得丰厚回报。在国内市场方面,鼎视通、中兴、中太、科达、TANDBERG等视讯厂商都已经或即将推出支持H.264/AVC标准的视讯产品。从而,面对H.264/AVC产品需求的紧迫性、成熟性及实用性判断,理性思考及务实处理H.264/AVC的发展策略已成为当务之急。在此,提出下述一些策略考虑可能是有益的。
2.1复杂度与适时切入决策问题
确实,H.264/AVC可节省一倍带宽有其巨大吸引力,但这是以增加复杂性为代价的,特别是其动目标估值补偿改进方面最为明显。据估计,H.264/AVC的编码计算复杂度约为H.263的三倍,其译码复杂度亦大约为H.263的两倍。因此,一定时期内及一定应用对象与应用场合,特别是对移动通信手机之类应用,其高复杂度往往成为实际市场应用的瓶颈。当然,随着芯片技术的进展,这一问题会逐步得到解决,因此,适时切入的决策便非常重要。
2.2设计初衷与应用可操作性的理性思考
实际上H.264/AVC的设计初衷是期望在低带宽与速率情况下获得更良好的图像质量,一些实际测试亦已表明,H.264/AVC在高码率情况下运作,其图像质量和H.263相比并无明显改进。由此选用H.264/AVC的决策,其网络带宽状况是用户必须考虑的重要因素。例如,若视频会议运行在专网上,其带宽可保证为 1M 或更高,大可不必在现有这种昂贵复杂的H.264/AVC身上花费更多投入。另一方面,亦要看到计算复杂度的明显增加亦可能局限其实际应用。例如,一些视频产品在H.263下可支持至2Mbit/s速率,但是在H.264/AVC情况下只能支持到512kbit/s速率。因此,应按照不同的实际市场定位及技术演进,妥善、合理处理MPEG-2、MPEG-4、H.263/H.263+及H.264/AVC等的各自应用及其前后向兼容过渡。
2.3互联互通的互操作性不可忽略
亦应正视,H.264/AVC标准仅推出二年左右,其产品成熟性与互操作性是需要质疑的。目前,尽管许多视频终端厂商都宣称支持H.264/AVC的基本档次,但实际上H.264/AVC的编译码复杂度对这些终端厂商的视频处理能力提出了严峻的挑战。要么是其现有平台实质根本无法支持H.264/AVC编译码处理,或者无法支持其该有的高码速运行。而且各家对此标准的实现方法亦不尽相同,这些均影响其互联互通,必须抓紧解决。否则用户反应冷淡是不无理由的。
2.4自主知识产权努力与国际标准化问题
这是一个甚为关键、敏感与极其要紧的问题。目前全世界约1.6万项国际标准中,约99.8%是由国外(主要是美国)机构所制定,中国参与制定的不足千分之二,这与中国这一大国的地位极不相称。与此相应,国际标准必须由相应核心专利与知识产权作有效支撑,包括实施此标准的核心技术芯片的有效支撑。目前跨国公司日益密集的国际标准核心“专利与芯片陷阱”,已成为阻碍包括中国在内的发展中国家有效发展本国产业的棘手难题。因此,重视与投入自主知识产权,积极参与国际标准制定及发挥实质作用已成当务之急,这亦是一项艰巨而需付出巨大努力的任务。对此,在通信、计算机及家电等高技术领域表现得尤为明显。
2.4.1 充分吸取WAPI标准受阻的经验教训
如众所知,随着传统意义上的WLAN演进为公众通信P-WLAN/O-WLAN,WLAN已成为中国几大公众业务基础运营商共同关注的焦点。公众运营商级的WLAN用户主要为企业客户、经常出差的商务人员及家庭用户等,多半属高端用户,对服务质量及安全性非常关注。而802.11x标准中原先提出的安全方案已被广泛证实存在安全漏洞,有如:基于有线环境设计的端口访问控制协议802.1x、安全协议WEP及所用RC4流密码、DHCP+Web认证中的用户名和密码按明文Http1.0或弱加密Http1.1的MD5算法、MAC地址过滤及非法接入问题。对于目前使用较多的PPPoE认证方式亦利用明文或弱加密方式传送口令,同样不适合于开放无线环境,且PPP报文及PPPoE封装效率较低,亦无后续数据加密,均会对电信运营商级高可靠性要求带来较大隐患等。
针对这些情况,我国依据“商用密码管理条例”制定的WLAN安全标准WAPI,取得了多方面重要进展。例如:采用基于公共密钥密码体系的证书机制,动态密钥综合安全度高,用户只需安装一张证书即可在WLAN覆盖的不同地区实现漫游;可支持Windows98/2000/XP及Linux等多种操作系统;可满足运营商、企业及家庭等多种应用模式;能提供与现有计费技术兼容的服务,完善的安全认证也是实施身份识别、分类计费、路由策略和流量控制等优良运营用户管理的基础。这一安全标准已符合我国国家标准与法规要求,同时,WAPI协议已由ISO/IEC授权的IEEE注册权威机构IEEERA审查认可,并分配了用于该协议机制的以太型字段0x88b4等。这是我国在WLAN安全领域自主创新取得的卓越成果,有重要的国际影响与战略意义,有可能打破外国企业在这一市场产品的绝对垄断格局。这一标准引起了相应外国政府和企业、组织的强烈关注与严重不安,采用政府高层施压、Wi-Fi联盟反对、芯片禁运等各种手段进行抵制并阻挠实施,使WAPI标准受阻。 2004 年4月29日 ,国家认监委和国家标准委联合发布2004年第44号公告,声明WAPI国家标准的强制性认证实施时间由 6月 1日 后延。此前,吴仪副总理已在 2004年 4月 22日 中美商务会议上与美方会谈后表示,中国同意在 6月 1日 最后期限到来之时,不强制实施我国自主创新制定的WAPI技术标准,并与WLAN国际标准机构密切合作。这次无明确期限推迟强制实施,确实令人惋惜。究其原因,有如下几方面因素值得反思。
自主创新标准制定与核心技术芯片实施支撑失调;市场后向用户兼容过渡的策略处理欠妥;标准化努力的多方面共赢合作,特别是国际合作策略不成功。虽然说信息安全、特别是保密问题涉及国家权益与国家信息安全问题,理应由主权国主宰与控制,这无可厚非,但处理加密块依然应有原则前提下的使用等级可选择性与处理策略灵活性。最后,可能这亦是一个现实中难以规避的实际因素,即贸易摩擦政治化。一些国家在标榜与要求别国“技术中立”的同时,却充分利用自身技术垄断与贸易实力方面的优势,以贸易摩擦为由推行“技术标准政治化”,以维护其技术产品的市场垄断地位。其中芯片量产上的Wi-Fi、WiMAX等的联手市场利益的策略考虑也是其重要方面。
总之,在自主创新其他新标准之际,我国WAPI标准受阻的经验教训,确实值得反思。但同时应该指出,国内参与WAPI标准化工作的单位,在重压情况下仍再接再厉,进一步将WAPI标准完善和务实推进,并推向新的共赢合作高度。然而,在与国际相应标准组织的合作共事中产生的一系列出人意料的情况值得深思。
WAPI提案早在2004年7月就提交JTC1联合技术委员会,其编号为IN7506,但在同年9月中旬,该提案突然被JTC1秘书处在没有说明、没有沟通的情况下就予以撤销。而2004年9月才提交的编号为IN7537的802.11i标准却很快被接纳入快速程序、进入投票阶段,这显然破坏了国际合作商谈研讨的常理公允原则。2005年1月底,在中国标准组织的强烈抗议下,JTC1秘书处承认“在处理程序和沟通方面都犯了错误”,并提出了一些补救措施。在2004年11月召开的国际标准化组织奥尔兰多会议上,WAPI标准被承认具备进入快速程序的资格,可以和IEEE标准在国际标准化组织框架下共存。 2004 年11月5日 ,ISO/IECJTC1SC6全会通过了决议,WAPI标准与IEEE802.11i提案并行在ISO/IEC JTC1 SC6内推行,并列入2005年2月SC6第一工作组WG1会议议程。但在 2005年 2月 21日 ,SC6 WG1法兰克福会议上,JTC1主席詹姆森先生在会议第一天便出人意料地突然宣布“IN7506(WAPI提案号)无效且并不存在”,从而WAPI成了“黑户”,不允许在会议上讨论,这与奥尔兰多会议决议及JTC1道歉信的立场来了一个180度的大转弯。中国代表团据理力争两日未果,只能于 2月 23日 发表退会声明“鉴于中国国家成员体的WAPI提案无法在此次会议上得到公正对待,为维护国际标准化组织的公平和公正性,以及维护中国国家成员体的利益及地位,中国代表团决定于 2月 23日 上午退出此次法兰克福会议”。次日再度发出补充声明,要求“法兰克福会议上一切与两项标准有关的程序和技术讨论及处理,都应无限期推迟举行;同时,所有国际电工委员会第一联合技术委员会第六分委员会第一工作组层面上的争论及问题,都应以适当而圆满的方式加以解决”。在讨论IN7050及IN7537过程中,JTC1立场四周内改变了三次,而JTC1主席竟敢漠视奥尔兰多会议决议的存在,真是令人吃惊。不管这是在什么背景压力下产生的结果,终究是令人遗憾的。
但是亦应指出,国外一些明智的有识之士已经指出“中国能够在标准大战中凭借其庞大的市场和迅猛增长来获胜,全球科技和电信公司需要对中国标准方案进行评估,并在适当时候与中国企业联手共同打造技术标准”。据云,法兰克福会上,日本与韩国等同样拥有自己无线标准的国家的代表团成员也对中国代表团所遭受的不公正待遇深表不满与同情。而且,说到底,制订标准的目的是要促使市场健康、有效地发展,一个国家或一个组织的标准不可能无条件垄断全球,尤其当自身标准不完善之际,更应博采众长与集思广益才属上策。事实上,凡涉及国家或区域利益时,从来就难以由一个标准来垄断。以全球最知名的地面HDTV标准为例,美国ATSC/8-VSB标准于1995年夏完成草案,欧洲DVB-T/COFDM标准于1996年春完成草案,日本ISDB-T/BST-COFDM标准于1998年秋完成草案,我国清华大学DMB-T/TDS-OFDM,上海交通大学的ADTB-T/OQAM,广播科学研究院CDTB-T三种优选的地面HDTV标准提案,至今也还在进一步优化融合中。 3G 三种主流标准WCDMA、cdma2000、TD-SCDMA,乃至顺应市场驱动而产生的各类演进增强标准正按下一代网络的开放、创新、融合的基本思想在积极推进着,又为新的示例。因此,期望长久依靠“贸易磨擦与技术政治化方式”维持技术产品垄断是肯定行不通的,只有遵循“真正开放”与“共赢合作”才是正确的出路。而WAPI之路虽艰巨,但依然要坚持开放、共赢合作与务实发展的基本方针,在西电捷通、六合万通及华大电子等企业努力合作基础上,积极快速扩大国内外合作范围,特别是与有实力、有名望的国际厂商紧密合作,在政府相关部门的积极协调支持下,消除一些企业的疑虑、观望态度,尽快形成有实力的产业规模,及时适应市场的实际需求。
2.4.2 韩国WIPI标准的进展与经验值得参考与借鉴
作为韩国无线通信的国家强制推行标准WIPI,其遭遇与我国标准WAPI情况相比要好一些。一方面,这是由于韩国本身市场在外国厂商看来完全无法与中国市场重要性相比拟,关注程度不那么严重;另一方面,韩国亦采取较灵活的策略处理,将其与美国Qualcomm公司BREW平台应用相联手,以缓冲美国的压力。而且,受韩国政府决定采用WIPI标准的鼓舞,WIPI开发者和业界组织进一步开始积极行动,拟将国内自主开发的无线网络平台技术建立为国际标准,推向国际应用,并取得了相应进展。对此,韩国无线网络标准论坛(KWISF)及韩国无线网络解决方案协会(KWISA)以及一个由6家WIPI技术开发商组成的联盟彼此紧密联手,进一步向诸如JAVA标准制定组织(JCP)及开放移动联盟(OMA)等主要国际组织提供WIPI核心技术。例如,由6家公司组成的该联盟已于2004年6月在泰国曼谷举行的OMA大会上建议,将“WIPI的协议数据类型”作为无线网络游戏的国际标准;同时,KWISF亦计划2005年10初向JCP建议,将WIPI作为国际标准。这种将国家标准积极融入国际标准的思路与做法值得参考与借鉴。
2.4.3 我国移动通信国际主流标准TD-SCDMA自主知识产权无线通信终端新进展值得庆幸与推广
2004 年8 月22 日 ,“中国芯工程”成果报告会上正式宣布,我国展迅通信有限公司已成功研制开发出具有自主知识产权的 3G 国际标准单片系统(SoC)级TD-SCDMA(LCR)/GSM/GPRS多模多频式核心芯片,并已由夏新手机实现了在大唐TD-SCDMA网络上的成功连接与通信。这将为中国 3G 发展提供强有力的技术支撑,实现了我国集成电路产业在 3G 关键核心技术及产品研发和产业化方面的重大突破。而且,该成果亦内含我国上海科泰世纪科技有限公司的 3G 时代自主知识产权的“和欣”嵌入式操作系统的强有力软件结构支持。“和欣”嵌入式操作系统专为网络时代的嵌入式设备可更有效支持Web服务应用而开发,体系结构完全面向构件、中间件,体积小、速度快、效率高,应用面极为广泛,可遍及移动电话、数字电视、数控机床、医疗仪器、工业监控终端、二维条码终端及PDA等方方面面,具有可动态加载构件、适宜软件工厂化生产与软件复用、具有高的系统可靠性与容错性及可有效实现系统安全性等重要特征。因此,这确实可称为我国 3G 自主知识产权务实创新发展的一个新典范,值得庆幸与推广。
2.4.4 我国音视频标准AVS在积极务实推进中
我国音视频标准AVS相当H.264及WindowsMedia9要求,是比MPEG-2更高效率的音视频编码标准。其目标不仅限于中国,还准备作为国际标准对外推广。微软及IBM等多家美国公司都参与了AVS标准的制定工作。目前,中国正在建立AVS专利许可证池(LicensePool),呼吁有关大学和企业向许可证池提供AVS专利,相应芯片开发亦在积极进行中。AVS是基于我国创新技术和公开技术制订的一个开放标准,至2004年底已拥有会员企业118家。为了将AVS做成国际标准,其工作组成员企业积极研发了50多项自主新技术,以应对达100多项的国际专利。其专利费用采取“打包收费、低价位授权”方式。由于标准涉及国家利益,因此费用制订者不光包括专利拥有者和标准实施者,也有政府代表参加,从而使AVS的收费标准是由“综合各方角色的委员会共同制订”。
实际上,现代标准的制订一定要基于现代竞争环境的现实“你中有我,我中有你”,既不能妄自菲薄,又不能闭门造车,而要积极自主创新,并要合作共赢。AVS标准拟积极探索技术、标准、知识产权和产业的协同发展之路,既要采纳先进的专利技术,又要将专利的利益索求限制在一个合理的水平上,以保证标准的公益性及产业发展的共赢合作。AVS已确定的产业链涉及芯片、软件和整机,目前较清晰的待开发产业群已有四块,即卫星、多媒体点播、移动通信及高清晰度电视。应该指出:就标准建立、IPR支撑及产业发展的辩证关系而言,对IPR的处理强调共赢合作这一基本思想尤为重要。例如,1997年开始,由MPEGLA启动MPEG-2视频和系统部分所涉及的专利许可代理业务,由于采用了合理的IPR费用,从而使尔后至今的MPEG-2全球产业化工作取得了巨大成功;与此相反,MPEG-4出台后的MPEG-4 LA,制订的新的不合理收费模式,导致其自食产业发展滞缓、濒临死亡的苦果。AVS探索合理的国际标准发展的基本思想是值得鼓励与支持的,并期望其务实推进、有效发展。AVS规定的多种标准,无疑将对我国乃至国际社会移动音视频、多媒体/超媒体产业发展产生重要战略影响。
“吃一堑、长一智”,衷心期望中国标准化工作在充分汲取DVD、WAPI等标准化方面的经验教训基础上,上升一个新台阶。将TD-SCDMA、EVD、AVS、RFID、IPv6、WAPI、闪联、数码相机等多方面的自主创新标准化工作,务实推进并取得成功。
2.5芯片制造及其产品市场定位的合理选择
H.264/AVC确实是一项有很强发展潜力与广泛应用市场的新标准,从鼓励自主知识产权发展的角度,希望尽早介入、站稳脚跟、未来获得丰厚回报,均可以充分理解。但一定要从现实出发,估计指定时期内的芯片有效性与可用性,确定好合理的市场定位。例如,在移动手机应用尚不成熟之际,积极瞄准固定或车载终端应用,数字视频机顶盒应用,按标准、规则的许可,配合xDSL的较大范围的低带宽视频应用等适时有效切入市场。
2.6前景展望
从NGN及 3G / 3G 演进与NGBW发展观点看,H.263/AVC这一面向IP及无线/移动应用的视频压缩编码新标准,由于其高的自适应压缩效率及优良的自适应分层结构特征,使其可适应不同的网络传输环境,定会在未来包括HDTV质量要求的视频、多媒体/超媒体业务领域,即如视频广播、视频通信、视频流媒体、Internet视频传送、异构网上的多点通信、压缩视频存储、视频数据库、高质量视频文档等各方面获得广泛的应用。而且在频谱资源受限的无线、卫星及移动通信领域更有其大展鸿图的机会与潜力。尽管目前手机视频大都仅利用H.263/H.263+之类协议,而卫星应用的DVB-S2标准已开始引入H.264/AVC及LDPC等源编码及信道编码新技术,以适应竞争环境中新的市场需求。同时,有效处理好我国音视频标准AVS与H.264/AVC的关系,对发展我国宽带视频、多媒体/超媒体产业与市场应用有极重要的现实意义与战略价值。
最后,应该指出持续创新的重要性。随着NGN、 3G / 3G 演进及NGBW的网络与终端的快速发展与推进,对音视压缩编译码技术依然会提出更苛刻的要求,作为可大展宏图的H.264/AVC标准必然需要进一步完善与发展,以适应新的市场要求。例如,进一步降低编译码时延,优化算法以取得更有吸引力的信价比要求;进一步在较低及较高码率上取得更优良的性能提高;进一步完善与确保多厂商环境中的互联互通能力及可靠性与可用性等,抓住机遇、持续创新,以迎接2006~2007年左右开始的宽带视频、IPTV及移动电视的较大规模商用新机遇,这是时代提出的新要求。