为什么叫
H.264
H.264
是一种视频高压缩技术,全称是
MPEG-4 AVC
,用中文说是“活动图像专家组
-4
的高等视频编码”,或称为
MPEG-4 Part10
。它是由国际电信标准化部门
ITU-T
和规定
MPEG
的国际标准化组织
ISO/
国际电工协会
IEC
共同制订的一种活动图像编码方式的国际标准格式,这是我们叫惯了的
MPEG
中的一种,那为什么叫
H.264
呢?
原来国际电信标准化部门从
1998
年就
H.26L
的
H.26S
两个分组,前者研制节目时间较长的高压缩编码技术,后者则指短节目标准制订部门。
H.26S
的标准化技术的名称为
H.263
,听起来很耳生,但实质上却早在用了,还被骂得很激烈。因为,
H.263
先入为大,一直以
MPEG-4
大内涵的名字在用。
H.263
的全称为
MPEG-4 Visual
或
MPEG-4 Pall
Ⅱ,即
MPEG-4
视频简单层面的基础编码方式。
2001
年后,国际电信标准化部门
ITU-T
和
MPEG
的上级组织国际标准化组织
ISO/
国际电气标准会议
IEC
成立了联合视频组
JVT
,在
H.26L
基础进行
H.264
的标准化。
2002
年
12
月
9
日
~13
日,在日本香川县淡路岛举行的
MPEG
聚会上确定了相关技术的规格。规格书定稿后,
2003
年
3
月
17
日,
H.364
的技术格式最终稿国际标准规格(
FDIS
)被确立。目前软件和
LSI
芯片,服务及设备也都进入了使用阶段。格式书中,列出了比特流规定,解码必要格式,和可供参考的编码记载。
为了不引起误解,
ITU-T
推荐使用
H.264
作为这一标准的正式名称。实际上,
MPEG-4
里还有
MPEG-4 Audio
和
MPEG-4 System
的不同规格。
MPEG-4
挨骂是因为
MPEG-4 Visual
许可收费离谱引起的。别以为有了专利就可以随意向人要钱了,专利的最终目的的是使全社会的智力资料更合理地使用,防止重复劳动,并不是犒赏最先发明者。按唯美史观,当社会技术发展到某一阶段时,新技术必然会出现。不是你、就是他总会发明出来,只是细节、时间、成本上的微小差别。历史上,这样不约而同的发明很多,无线电的发明者是马可尼还是波波夫,一直在西方和东方技术史界争论。
而当专利技术成为国际标准的一部份后,问题就更加复杂了。国标标准是强制的,向其中的专利付费是否有垄断之嫌?标准中的技术专利请求,是否合理?如何区分正当的请求和不正当的请求?等等一系列的理论、法律和道德问题都出来了。要尊重专利法,也要遵守反垄断法。这两年国际上围绕
MPEG-4
收费问题的大争论就是由此而起。
在标准化进程中,专利的争端正在增加,任何黑白两极的判断都无法令人满意。但奇怪的是标准中的专利争端发展到要求判决的案例几乎没有,都是当事者幕后交易解决,这使得不明确的法理更陷入恶性循环之中。同时也助长了用户对盗版的宽容,一边是抢我的剪径强盗,另一边是偷你的小贼,怎么讲道德?!
MPEG-4
的收费问题主要是从向传输环节收费引起的。
MPEG-4
对解码器和编码器的收费已经比
MPEG-2
低了很多,这是各种压缩技术竞争的结果。但
MPEG-2
不对传输
MPEG-2
压缩图像的服务环节收费,而
MPEG-4
则要对内容配送者收取每分钟
0.0333
美分的许可费。钱数听起来不大,但伦理上却有很大的差别。打个比方,你买了台彩电,必要的专利费用已经通过彩电厂转交到专利技术持有者的手中。而当你打的把这台彩电运回家的时候,出租车主也要向专利持有者交费!能不引起轩然大波吗。
现在的专利收费结构已经相当商业化。一种产品、一个系统或一套技术标准中,包含有许许多多公司的专利技术,使用企业很难与一个个技术的发明者直接交涉签约,这样就出现了一种专利管理公司的企业。它把某一产品的一个个技术从专利持有者手中买下来,约定好收益的分配方案,再由它人使用技术的企业中收取许可费。需要用这一产品技术的企业就只需与专利管理公司打交道,操作方便多了。但专利管理公司和著作权保护企业一样,实际上是一个中间商,两头赚钱,未必把社会效益放在最高地位。
现在的
MPEG-4
,也即
MPEG-4 Visual
是由美国
MPEG LA
公司进行专利许可管理的,他同时也在管理
MPEG-2
的专利,目前还在争取
H.264
的专利许可权。
MPEG LA
公司于
2002
年
9
月就开始募集
H.264
的主要专利,想采取先入为主的手段取得管理权。由于大量企业对
MPEG-4
收费制度不满,
2003
年
6
月,
MPEG-4
的支持团体
M4IF
(
MPEG-4
工业论坛),决定数据流标准格式的美国
ISMA
(国际数据流媒体协会)和多媒体通信有关业界团体
IMTC
(国际多媒体通信协会)发起召开
H.264
的许可制度说明会。总共有专利持有者和使用者团队
45
个,
56
人参加,对有关
H.264
许可问题进行早期意见交换,希望协调各方面的要求和利益。关于方面其它信息,我们稍后再细述,先看看
H.264
的特色吧。
H.264
用大运算量来换取高压缩率、高画质
H.264
受人追捧有三大原因:高性能、国际标准和公正的无差别许可制度。
首先是超高压缩率,其压缩率为
MPEG-2
的
2
倍以上,
MPEG-4
的
1.5
至
2
倍。这样的高压缩率是以编码的大运算量来换取的,
H.264
的编码处理计算量有
MPEG-2
的十多倍。不过其解码的运算量并没有上升很多,故对用户接收播放来说没有什么难度。
从另一角度,编码的大运算量现在也不是什么大问题。
MPEG2
是
1994
年推出的,当时微处理器的工作频率才
100MHz
,主存储器容量也不满
10MB
。
MPEG-2
那样的压缩运算适应了当时的技术水平。而现在
CPU
的工作频率可上升到
3GMz
,
DRAM
用到
256MB
,提升了
30
倍上下,运算量也不怕。实验表明在奔腾
4
处理器的
3GHz
电脑上,可用软件实现
D1
(
720
×
80
)格式图像的
H.264
实时编码。
而且
H.264
才标准化,运算顺序还有改善的空间。当作为国际标准确立后,还能结集起全世界的精英来优化处理。这也反应出技术发展的必然性,唯物史观。
高压缩率使图像的数据量减少,给存储和传输带来了方便。加上基本规格公开的国际标准和公正的许可制度,所以,电视广播、家电和通信三大行业都进入到
H.264
的实际运用研发中心,见图
1
。
H.264
可用于手机电视广播,打开手机就可以收看数字电视节目。美国高等电视系统会议和日本无线电工业和事务协会都准备把
H.264
作为地面便携式数字电视广播的编码方式。欧洲数字电视广播标准化团体也正在将
H.264
作为数字电视的一种编码方式来采用。
家电行业中的视频存储设备厂商也看中了
H.264
。东芝的
HD DVD-ROM
就靠
H.264
赢得了时间。硬盘录像机
HDD
和
DVD
录像机的长时间录像功能也会采用
H.264
编码,
H.264
能使
HDTV
节目录像和
SDTV
的长时间录像成为可能。因而,生产
LSI
芯片的厂商也十分重视
H.264
。
甚至
DVD
论坛也在动作。
D9
型
DVD
碟片只有
8.5GB
容量,不够放入
2
小时的
HDTV
节目,如用
H.264
来压缩就有可能。这就是
HD-DVD9
格式,其画质评价已经结束,标准正在制订之中,等待许可条件的出台。
在通讯领域,互联网工程任务已开始将
H.264
作为实时传输协议流的格式进行标准化。互联网和手机的视频传送也会有
H.264
作为编码方式。美国
Polycom
公司用基线层面
H.264
格式压缩图像的电视会议系统已开始生产。
图
2
是
H.264
编码原理框图,图中,只要去除左上角的帧内预测块和右下角的环路滤波器,及对某些方框的补充说明,此图同样可用于表示
MPEG-2
和
MPEG-4
的操作流程。所以,图中很容易看出
H.264
和
MPEG
的各种早期格式的主要差别。
对
H.264
来说,整个运算量在各部分的分配如下:帧间预测和帧内预测占
60%~70%
,整数变换约占
10%
,纠错编码约占
20%
,环路滤波的
10%
。
MPEG
的每秒
25
或
30
帧的画面被分为构成方式不同的三种画面:帧内编码
I
画面,前向预测编码
P
画面和双向预测编码
B
画面。
I
画面用原始数据直接编码,不与其它画面比较。所以,
I
画面的编码量信息量大,数据量大,但可以仅用自身的数据独立还原画面。如果视频画面中出现马赛克或其它紊乱,只要有一帧
I
画面出现就能中止错误的画面继续下去。
P
画面用最近的
I
或
P
画面作为比较基准进行运动预测,只记录下这帧画面与基准画面的不同之处。所以,编码效率较高,数据量小,但还原画面就需要前面的基准帧数据。若基准画面已经有错,那么这个画面上的错误会被传下去,直到
I
画面到来。
B
画面可以同时用前面和后面的画面作为比较基准进行运动预测。编码压缩率最大,数据量最小,而且不会传递错误。但需要附加存储器,时间上有迟后,还不能作为以后的预测基准。
H.264
的变化之一是在帧内编码
I
画面中,又加入了帧内预测编码技术,即解码时可用周围数据的差分值来重构画面。帧内预测以特定大小的块作为基准单元,从周围像素中预测编码化的模板。
H.264
的基准块大小分
4
×
4
和
16
×
16
两种,前者有
9
种预测模式,预测方向见图
3
。后者也有
4
种模式。因为原图像左右、上下都有一定的相关性,不同部分的差分值总比不进行帧内预测的原始值要少,故量化后的编码量就减少了,而且高频成分也比原图像为少。
运动预测块中采用了全面预测技术,效果极好。
H.264
在运动矢量的检出时,能选定最合适的大小来进行,因而运动矢量检出的精度较高。见图
4
。
MPEG- 2
只有一个运动矢量检出模式,
MPEG-4
有
2
个,而
H.264
有
7
个之多。运动矢量探索单元分得细,就能找到更多的静态部分,真正的运动矢量就能单独求出,抑止了运动细节的编码量。
在预测中,可以利用的参考帧帧数也增加了。在
H.264
中,根据画面清晰度的不同能有
4
到
6
个校正帧可用,因而能搜索到突然消失那样的蒙太奇画面。
H.264
中,
720
×
480
像素的
D1
格式画面可以从前
4
帧的不同位置中预测第
5
帧画面。
全面预测和帧内预测在
MPEG-2
时代并非想不到,因当画面像素数和画面品质要求提高时,运算处理量就会爆发性地增加,实时运用时有可能出现中断。为此,
MPEG-2
和
MPEG-4
的运动预测规格都指定了最低限,运动矢量检出编码时的自由度不能太大。
H.264
采用全面运动预测和
I
画面帧内预测后,编码量得到削减,但
LSI
的运算处理量增大。为此,引入了
DCT
变换的简化处理技术,来减轻
LSI
的负担,画质也有所改善。
具体技术是把原来的离散余弦变换
DCT
改变为近似的整数变换,即把
DCT
正交变换时用的系数
1
,
0.414
变成
2
,
1
;
cos
(π
/8
),
cos
(π
/8
)
2
变成
1/
(
5
)
1/2
,
1/5
。使原来必须用浮点运算进行的余弦函数运算,可用整数运算进行。同时还削减了系数的种类,使运算量减少。由于不必严格规定运算精度,还可以用
SIMD
(单指令多流数据)等操作快捷命令来执行。
H.264
又一项减少运算量的方法是在很多地方引入层次化运算,把在矩阵数据块变成小块运算,使计算式变得更加简单,见图
5
。
在
DCT
中采用时,
8
×
8
像素块层次化到
2
×
2
像素块,变换就变得快捷。运动补偿中也可利用。检出运动矢量时,最初的模块大,运动矢量的检出范围大,搜索快捷。当检出到有动作的部分再调入小模块细分析。
H.264
进行运动预测的模板多,一旦先进全面检索,需要的时间就很长,运算量也大。用层次化处理,先进行模板的收缩,接着小范围检索,就能减少计算量。在帧内预测中利用层次化后,残差计算的范围就能变小,同样有利于减少计算量。
H.264
与
MPEG-2
和
MPEG-4
的不同还存在于纠错编码块中,
H.264
的纠错编码为内容自适应可变长度码(
CAVLC
)和内容自适应二进制算法编码(
CABAC
),能提高纠错能力。而
MPEG-2
和
MPEG-4
杰霍夫曼编码。另外,还加入了
MPEG-2
和
MPEG-4
没有环路滤波器,有降低噪声的效果。
H.264
的整数变换以
4
×
4
像素块为单位,已比原来的
8
×
8
像素块的块噪声少,再次降低,画质得到了进一步提高。
从应用角度看,
H.264
有三个层面,分为主要用于电视会议等通信的基线层面,面向高画质用途和录像的主层面以及面向内容配送的扩展层面。各层面的清晰度和编码速度取值不同。
基线层面的主要技术为图像只含有
I
画面,
P
画面,系统内有环路滤波,
1/4
帧间预测,
4:2:0 YUV
格式输入,基于
VLC
的纠错编码,弹性宏块指令等。主要层面则在基线层面基础上加入了
CABAC
运算编码技术和基于双向预测的
B
画面,滤波(接口)等技术,但不含弹性宏块指令。扩展层面则在基线层面里加入
B
画面和滤波编码等。
H.264
分有
4.1
种不同样式的图像水平。水平
1
的编码速度较小,最大只能达
64kbps
,像素格式为
QCIF
(
176
×
144
),
30
帧
/
秒和
Sub QCIF
(
128
×
96
),
60
帧
/
秒。适合手机、
PDA
等屏幕播放视频用。水平
2
的编码速度可达
2Mbps
,图像的像素格式为
CIF
(
352
×
288
),
30
帧
/
秒。水平
3
、水平
4
分别对应
SDTV
、
HDTV
图像格式,编码速度为
10Mbps
,
20Mbps
。另外,还有能支持更高清晰度的水平
5
,编码速度高达
135Mbps
。故总称为
4.1
水平。在各水平更细的分类中,最大编码速度也还有不同规定。
最后,把
H.264
与
MPEG-2/MPEG-4
主要的不同技术比较与下表
1
。
针对
H.264
的特点,编码软件和编码
LSI
开发的厂家都把编码
/
解码运算量的减少作为方向来研究,所以,实用前景大好。大多数半导体厂认为在
H.264
中使用削减运算量方法后,能获得相当于
MPEG-2
编码
LSI
的
2
倍左右的处理能力。
由于技术的日益成熟,半导体厂商已在进行
H.264
的编码
/
解码
LSI
的开发。特别是
HDD
录像机和
DVD
录像机等设备中,采用
H.264
的实例已很多,更引起了半导体厂商的关心。加之,
H.264
采用的动画编码方式和音频编码方式具有多样化特性,今后几乎将会是全部厂商的主要规格之一。
以目前芯片将
H.264
实用化的研究也在进行之中。用德州仪器(
TI
)公司制造的
DSP[TMS320C64
××
]
对以
H.264
预先编码的图像已证实能进行实时解码。
TI
公司正在开发的
C6
×系列
DSP LSI
,将在视频编码电路和存储控制电路中,加入对应
H.264
和
MWV
等的编码
/
解码功能。
TI
公司推出的可以对
MPEG-4
编码
/
解码的用于便携机开发的
TMS320DM270
,只要用上新的
CPU
提高处理能力,就可用于
H.264
的编码
/
解码。
已经有
MWA9
的编码
/
解码
DSP
样品出厂的美国模拟设备公司也在向
H.264
前进。
图
6
是美国
InStat/MDR
公司对
H.264
功能
LSI
产量的预测。预测还只基于
H.264
的许可制度与
MPEG-2
一样的前提下进行的。
H.264
的许可制度有望较友善
H.264
替代
MPEG-4
的呼声很高,除了其高性能外,作为国际标准和公正的无差别许可制度也至关重要。
MPEG-4
的许可体系引起了几大行业,特别是信息配送行业的强烈反对,使得新国际标准的许可收费不得不向更为友善的方向发展。表
2
是几种视频压缩技术的许可收费价格。
表中可见,
MPEG LA
公司提出的
MPEG-4
配送过程也要付费是空前绝后的。视频压缩产品只对终端收费合乎常情,因而招至了很大反抗,直到今日仍在遭人反对。而且对采用
MPEG-4
的产品和服务还分成
6
种标准:用户记录视频,互联网视频,车载移动视频,特有用户视频,存储视频和企业视频。连简单的移动电视服务,如从现场到电视中心通讯时,若使用
MPEG-4
视频的话,也需支付移动视频的许可费。
因此,连原定在地面数字电视的编码方式中采用
MPEG-4
的日本
ARIB
,也因许可费问题而开始研讨是否改用
H.264
。拥有各种内容服务业者的移动内容论坛
MCF
也于
2003
年
5
月
23
日,致涵
MPEG LA
公司反对内容收费,要求重新考虑许可条件。
MPEG LA
也已松口表示希望以能相互满意的形式交涉。
随着掌握压缩技术的企业增加和用户巨增,
H.264
的许可管理收费受到二个方面的压力。一、用户要求低价格,最好免费使用;二、持有压缩技术的企业增加,供应空间大,不得不低价出售。目前具有高压缩率特征的活动图像编码技术的企业不少,如,美国数据流公司的
XVD
,能在一片
CD-R
碟片上放入
2
小时图像,并能实时编码。美国
On2
技术公司的活动图像编码技术
VP5
和新版本
VP6
,国内推出的
EVD
就采用这种编码技术。美国
AOL
(
America Online
)公司也有新压缩技术在进行许可操作。微软的
WMV 9
也在向家电产品扩展,如美国工艺家庭娱乐公司使用
WMV 9
压缩,将
HDTV
画质的“终结者
2
:审判日”放入
DVD-ROM
内。
为此,
H.264
的许可制度设计有两点引人之处:第一,部分格式将无偿使用,
H.264
的基线层面全员免费,无偿使用;其二,许可体系要比
MPEG-4
单纯,公正无差别对待用户和专利持有者。以及其它能促进普及的优惠政策,如早期低价格许可等。
基线层面的免费是以
ITL-T
主要活动的企业为中心推动的。现得到美国苹果公司和美国
Cisco
系统公司、中国联想公司、芬兰诺基亚、美国
On2
技术公司、德国西门子、美国德州仪器公司等的支持,并有美国政府为其撑腰。
基线层面免费的最大目的是加速
H.264
的普及。当基线层面普及以后,收费的主层面和扩展层面就能带动起来。尽管主要层面和扩展层面要收费,但从趋势看,许可费应较为便宜,因为各种编码技术的许可费都有不断下降的趋势,目前很热门的美国微笑
WMV 9
的许可费就比
MPEG-2
和
MPEG-4
要低,见表
2
。而且微软的契约期为
10
年,比
MPEG-2
和
MPEG-4
还长。
从
MPEG-2
向
MPEG-4
的发展看,编码器(电路加软件)和解码(电路加软件)的费用就降到
1/10
,
WMV9
更低。可以预计
H.264
的许可费用会比
WMV 9
还低。
前文提到的
45
个团体的联合会传出说法,如果
H.264
采用
MPEG-4 Visual
一样的许可体系,
H.264
就可能不被采用,态度强硬。标准中的专利收费收益已远不止收回投入的开发成本,而是在不断地获取暴利,故降低收费在所必然。
当然,只要没有定局,变化依然存在。专利持有者的想法也各有不同,采用无差别对待原则是否行得通。专利实施充满着大量利益诱惑,追名逐利者大有人在。目前已经有两家公司申称对
H.264
具有许可管理权。在专利应用前就开始抢专利管理权的现象是前所未有的,两家公司还都有渊源。一家是实际持有
MPEG-2
和
MPEG-4 Visual
许可管理的美国
MPEG LA
公司。另一家是进行
MPEG-2 AAC
和
MPEG-4 Audio
许可管理的美国杜比实验室的子公司美国
Vialicensing
公司。最终有哪一家公司管理,还是分割管理,现在都不清楚。
但又好、又便宜,始终是技术发展的方向。