国际视频标准化组织绝对算得上是一个勤奋、高产的机构,近二十年的时间,输出了一系列高水准音视频编码标准。在H.264/AVC问世之前,江湖上有两个传奇:其一是MPEG-2,另一个是H.263。前者系ISO/IEC下属MPEG(Moving Picture Experts Group)小组制定,后者由ITU-T下属VCEG(Video Coding Experts Group)小组制定。怎见得是两个“传奇”呢?——MPEG-2就是DVD碟片所使用的视频编码方案,而H.263在没有3G的年代里等同于视频会议的代名词。两个传奇直接孵化出了相关产业链,让一大批人先富或者更富起来了。
历史的时针指向1995年,名利双收的专家们决定再次开展造福人类的事业。于是ITU-T VCEG组给出了两项工作计划:其一为短期计划,旨在为H.263添加更多的编码特性并改进其编码效率;另一为长远计划,即实现自我超越,输出一个性能秒杀H.263的大杀器,其内部编号为H.26L。短期计划的实施造就了H.263+标准,而长期计划的效果在7年之后发生作用。在同一时间轴上,ISO/IEC MPEG组为MPEG-4忙得不亦乐乎,人前人后吹嘘“基于图像对象”和“极低比特率”两个噱头。
2001年,两大标准化组织决定联手组建JVT(Joint Video Team),并于两年之后输出了最终编码方案。于是H.26L华丽转身成为H.264,其标准编号跟在夹生饭MPEG-4编号之后。一个牛气哄哄的名字就此诞生,全称为MPEG-4 Part10 AVC/H.264。其中,MPEG-4 Part10对应之前的那个半调子MPEG-4,AVC为雅号,是Advanced Video Coding的缩写。
上面唠叨一通,无非告诉各位:想当年H.264/AVC是两大标准化组织合体的结晶,编码效率是非常牛x的。由于合体前,两大组织一方致力于视频内容压缩存储(复习下VCD/DVD),而另一方专注于实时视频会话业务。所以,合体的结果是:H.264/AVC能满足全码率视频编码需求,从压缩存储、数字电视广播到视频流媒体、点播、实时会话。总之,只要有视频业务的地方,就能用上H.264/AVC。
在2002年标准方案发布之后的10年1时间内,业界各方对其可谓是“后宫佳丽三千人,三千宠爱在一身”。在此期间,JVT于2007年前后输出基于H.264/AVC的SVC(Scalable Video Coding)方案,以满足网络异构设备环境下的视频传输(见图 2)。2009年前后,JVT又为H.264/AVC增加了3D Stereo /MVC(Multi-view Video Coding)特性,以实现在一路压缩码流中包含多个摄像头采集的视频数据。这样,在图像回放时,可拥有多个视角或者借此产生3D立体效果。
但无论是高科技的SVC还是噱头味十足的MVC都只是H.264/AVC的特性扩展,即适应特殊的视频应用场景,两者并未在信源编码效率上有所提升。但实际上,勤劳的专家们并未就此止住探底视频压缩极限之旅的步伐。2003年后,VCEG就启动了名为NGVC(Next-Generation Video Coding)的“探索”工程,其目的即在研究压缩性能超过H.264/AVC的“下一代视频编码”方案。但遗憾的是,如上所述,H.264/AVC代表了当时最高水准的视频压缩技术,所以几经努力但收效甚微。
2005年前后,在此期间内基于H.264/AVC的各种改进方案被搜集起来,并组成了一个名为KTA(Key Technical Areas)的编码器。从某种意义上说,KTA算是“下一代视频编码”方案的一个雏形,并在随后的几年时间内不断沉淀各种改良算法。瓜熟蒂落、水到渠成,2009年6月,在MPEG举行的call-for-evidence活动中,历经6年锤炼的KTA被证明:针对高分辨率的视频源,KTA能够将H.264/AVC的压缩性能提高约30%。
2010年1月,被“30%提升”激励的委员们终于挺直腰杆宣布组建联合工作组,此次的名号是JCT-VC(Joint Collaborative Team on Video Coding),同时向天下好汉派发英雄帖——征集编码方案。这种仪式感极强的动作有个术语,称为CfP(Call for Proposals, CfP)。同年4月,JCT-VC举行了第一次工作组会议。共有27路好汉,也即27份编码方案参与了这场论剑华山、决战紫禁之巅的激烈角逐。为了全面评估这些编码方案,JCT-VC共指定了5类测试视频源(见表格 1),涵盖了从WQVGA到720P/1080P HD直至Ultra HD在内的各种图像分辨率以及各种典型的图像帧率和码率。另外,JCT-VC还将所有的测试序列分为两类:其一为Random Access,允许参与评估的编码方案使用长度为8的GOP进行图像排列,其典型场景是数字电视广播应用;另一为Low Delay,此时禁止图像编码顺序重排列,其典型场景是对时延有严格限制的实时会话业务应用。
表格 1 JCT-VC CfP使用的测试源
Class |
Rate1 |
Rate2 |
Rate3 |
Rate4 |
Rate5 |
A: 2560x1600p 30 |
2.5 Mbit/s |
3.5 Mbit/s |
5 Mbit/s |
8 Mbit/s |
14 Mbit/s |
B1: 1080p24 |
1 Mbit/s |
1.6 Mbit/s |
2.5 Mbit/s |
4 Mbit/s |
6 Mbit/s |
B2: 1080p50-60 |
2 Mbit/s |
3 Mbit/s |
4.5 Mbit/s |
7 Mbit/s |
10 Mbit/s |
C: WVGAp30-60 |
384 kbit/s |
512 kbit/s |
768 kbit/s |
1.2 Mbit/s |
2 Mbit/s |
D: WQVGAp30-60 |
256 kbit/s |
384 kbit/s |
512 kbit/s |
512 kbit/s |
1.5 Mbit/s |
E: 720p60 |
256 kbit/s |
384 kbit/s |
512 kbit/s |
512 kbit/s |
1.5 Mbit/s |
不能不说JCT-VC是重口味的,严苛的测试条件,强劲的竞争对手。27份提案彼此竞争的同时还需要与H.264/AVC进行对比。这场天王山战役理应被载入视频编码标准化的历史,不仅因为其前戏(KTA)跌宕起伏、高潮部分(CfP)一叹三咏,更因为其拥有一个圆满的大结局。
经过细致评估分析,最后发现:对比H.264/AVC,在基于几乎相同的主观图像质量的前提下,参与测评方案中的佼佼者能够节省40%~60%的码率!换言之,对比现有的H.264/AVC,新提出的编码提案能够将压缩效率提高一倍左右。面对这个祥和愉快的结论,JCT-VC无法淡定了,于是“下一代视频编码”工作正式启动,并冠名为HEVC(High Efficiency Video Coding)——一个High字吐露多少风情!与此同时,那些性能拉风的编码提案被纳入TMuC(Test Model under Consideration),成为HEVC最终方案的候选,在随后的时间内被不断测试、挑战和改进。这部主题为“下一代视频编码方案是怎样炼成的”的连续剧,从2010年开始上演,至2011年1月发布了HEVC工作草案第一版(编号JCTVC-D503),预计全部工作完成在2013年。2012年春天,本文导读开头的一幕上演:其硬件芯片高调亮相MWC 2012,HEVC第一次向世人昭告其存在。——而且,是结结实实地踩在其前任者的肩膀上。