视频编码标准汇总及比较

 MPEG-1

类型:Audio&Video

制定者:MPEG(Moving Picture Expert Group)

所需频宽:2Mbps

特性:对动作不激烈的视频信号可获得较好的图像质量,但当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。它主要用于家用VCD,它需要的存储空间比较大。

优点:对动作不激烈的视频信号可获得较好的图像质量。

缺点:当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。

应用领域:Mixer

版权方式:Free

备注:MPEG-1即俗称的VCD。MPEG是ISO/IEC JTC1 1988年成立的运动图像专家组(Moving Picture Expert Group)的简称,负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作。MPEG-1制定于1992年,它是将视频数据压缩成1~2Mb/s的标准数据流。对于清晰度为352×288的彩色画面,采用25帧/秒,压缩比为50:1时,实时录像一个小时,经计算可知需存储空间为600MB左右,若是8路图像以每天录像10小时,每月30天算,则要求硬盘存储容量为1440GB,则显然是不能被接受的。

MPEG-2

类型:Audio&Video

制定者:MPEG(Moving Picture Expert Group)

所需频宽:视频上4.3Mbps,音频上最低的采样率为16kHz

特性:编码码率从每秒3兆比特~100兆比特,是广播级质量的图像压缩标准,并具有CD级的音质。MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。作为MPEG-1的兼容性扩展,MPEG-2支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。但是MPEG-2标准数据量依然很大,不便存放和传输。

优点:MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道,具有CD级的音质。可提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。

缺点:压缩比较低,数据量依然很大,不便存放和传输,如用于网络方面则需要较高的网络带宽,因此不太适合用于Internet和VOD点播方面。

应用领域:Mixer

版税方式:按个收取(最初的收费对象为解码设备和编码设备,中国DVD制造商每生产一台DVD需要交纳专利费16.5美元。向解码设备和编码设备收取的专利授权费每台2.5美元)

备注:MPEG-2是其颁布的(活动图像及声音编码)国际标准之一,制定于1994年,是为高级工业标准的图像质量以及更高的传输率而设计,为了力争获得更高的分辨率(720×486),提供广播级视频和CD级的音频,它是高质量视频音频编码标准。在常规电视的数字化、高清晰电视 HDTV、视频点播VOD,交互式电视等各个领域中都是核心的技术之一。

由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放 MPEG-1格式的数据,如VCD。

MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。我们平时所说的 DVD就是采用MPEG-2编码压缩,所以可有8种语言的配音。

除了作为DVD的指定标准外,MPEG-2的应用前景非常的广阔,MPEG-2还可用于广播、有线电视网、电缆网络以及卫星直播 (Direct Broadcast Satellite) 提供广播级的数字视频。

MPEG-2的另一特点是可提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。对于最终用户来说,由于现存电视机分辨率限制,MPEG-2所带来的高清晰度画面质量在电视上效果并不明显,不过其音频特性非常引人注目,如加重低音,多伴音声道等。

MPEG-4

类型:Video

制定者:MPEG(Moving Picture Expert Group)

所需频宽:128Kbps~38.4Mbps(600kb/s左右)

特性:支持对象型态编码及合成图像的压缩、适用于高阶交互功能与特殊视频制作、容错性编码技术及细微式可调性编码技术,可适用于频宽变化剧烈的网络,更适于交互AV服务以及远程监控。

MPEG-4是第一个使你由被动变为主动(不再只是观看,允许你加入其中,即有交互性)的动态图象标准;它的另一个特点是其综合性;从根源上说,MPEG-4试图将自然物体与人造物体相溶合(视觉效果意义上的)。 MPEG-4的设计目标还有更广的适应性和可扩展性。MPEG4 试图达到两个目标:

1.低比特率下的多媒体通信;

2.是多工业的多媒体通信的综合。据此目标,MPEG4 引入AV 对象(Audio/Visaul Objects),使得更多的交互操作成为可能。

MPEG-4标准是面向对象的压缩方式,根据图像内容,将其中的对象(物体、人物、背景)分离出来分别进行帧内、帧间编码压缩,并允许在不同的对象之间灵活分配码率,对重要的对象分配较多的字节,对次要的对象分配较少的字节,从而大大提高了压缩比,使其在较低的码率下获得较好的效果。

优点:压缩率高,质量优,容错性好,视频质量分辨率比较高,而数据速率相对较低,采用面向对象的压缩方式。

缺点:专利收费不合理。

应用领域:Mixer

版税方式:按个收取(分别向运营商和终端用户收费,消费者使用解码设备,除购买设备时需要缴纳的一次性专利费外,还将按使用时间进行收费),每台解码设备需要交给MPEG-LA 0.25美元, 编码/解码设备还需要按时间交费(4美分/天=1.2美元/月=14.4美元/年)

备注: MPEG-4是为交互式多媒体通讯制定得压缩标准。MPEG4于1998 年11 月公布,原预计1999 年1月投入使用的国际标准MPEG4不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG专家组的专家们正在为 MPEG-4的制定努力工作。

MPEG-4标准主要应用于视像电话(Video Phone),视像电子邮件(Video Email)和电子新闻(Electronic News)等,其传输速率要求较低,在4800-6?000bits/sec之间,分辨率为176X144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求得最少的数据获得最佳的图象质量。

MPEG-4的视频质量分辨率比较高,而数据速率相对较低。主要原因在于,MPEG-4采用ACE(高级译码效率)技术,它是一套首次使用于 MPEG-4的编码运算规则。

与ACE有关的目标定向可以启用很低的数据率。它与MPEG-2相比,可节省90%的储存空间。MPEG-4还可以在声频与视频流中广泛的升级。当视频在5kb/s与10Mb/s之间变化时,声频信号可以在2kb/s与24kb/s之间进行处理。特别要强调的是MPEG-4标准是面向对象的压缩方式,不是像MPEG-1和MPEG-2简单地将图像分为一些像块,而是根据图像内容,将其中的对象(物体、人物、背景)分离出来分别进行帧内、帧间编码压缩,并允许在不同的对象之间灵活分配码率,对重要的对象分配较多的字节,对次要的对象分配较少的字节,从而大大提高了压缩比,使其在较低的码率下获得较好的效果。

MPEG-4的面向对象的压缩方式也使图像探测功能和准确性更充分体现,该图像探测功能使硬盘录像机系统具有较好的视频移动报警功能。总之MPEG-4是一种崭新的低码率、高压缩比的视频编码标准,传输速率为4.8~6?kbit/s,使用时占用的存储空间比较小,例如:对于清晰度352×288的彩色画面,其每帧占用空间为1.3KB时,选25帧/秒,则每小时需120KB、每天10小时、每月30天,则每路每月需 36GB。若是8路则需288GB,这显然是能接受的。

MPEG-7(Multimedia Content Description Interface,多媒体内容描述接口)

类型:Video

制定者:MPEG(Moving Picture Expert Group)

所需频宽:-

特性:MPEG并不对应用标准化,但可利用应用来理解需求并评价技术,它不针对特定的应用领域,而是支持尽可能广泛的应用领域。 MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推送模型)的应用而制定的,并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时,信息是与内容相关的。像其他 MPEG家族成员一样,MPEG-7是满足特定需求的视听信息的标准表示。MPEG-7建立在其他标准表示的基础之上,例如PCM、 MPEG-1、MPEG-2和MPEG-4。因此,MPEG-7会引用部分现有标准。但MPEG-7描述子将不依赖于被描述内容的编码和存储方式。 MPEG-7可以独立于其他MPEG标准使用,在MPEG-4 中定义的表示方式也非常适合MPEG-7标准的建立。

优点:广泛的多媒体运用,可以在存储形式、流形式,实时或非实时中运用。

缺点:-

应用领域:Mixer

版税方式:-

备注:MPEG-7是为互联网视频检索制定的压缩标准。

国际标准化组织(ISO)在制定MPEG-1、MPEG-2及MPEG-4的标准基础上,推出了新的标准MPEG-7,该标准的正式名称为“多媒体内容描述接口”(Multimedia Content Description Interface), 其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推-拉应用的需求,它既不同于基于波形和基于压缩的表示方式如MPEG-1和MPEG -2,又不同于基于对象的表示方式如MPEG-4,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。

MPEG-7将扩展现有标识内容的专用方案及有限的能力,包含更多的多媒体数据类型。换句话说,它将规范一组“描述子”,用于描述各种多媒体信息,也将对定义其他描述子以及结构(称为“描述模式”)的方法进行标准化。这些“描述”(包括描述子和描述模式)与其内容关联,允许快速有效地搜索用户感兴趣的资料。

MPEG-7将标准化一种语言来说明描述模式,即“描述定义语言”。带有MPEG-7数据的 AV资料可以包含静止图像、图形、3D模型、音频、语音、视频,以及这些元素如何在多媒体表现中组合的信息。这些通用数据类型的特例可以包含面部表情和个人化特性。

MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、 MPEG-2和MPEG-4是内容本身的表示,而MPEG-7是有关内容的信息,是比特的比特。

MPEG-21 Multimedia Framework

类型:Video

制定者:MPEG(Moving Picture Expert Group)

所需频宽:

特性:MPEG-21 Multimedia Framework是致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。MPEG-21致力于为多媒体传输和使用定义一个标准化的开放框架。这种框架将在开放的市场中为内容提供商和业务提供商创造同等的机会。同时,这将在一种互操作的模式下为用户提供更丰富的信息,用户将因此而受益。

MPEG-21景象可以总结如下:一个多媒体框架,它可以在广阔的范围里,为不同的网络用户提供透明的和可不断扩展的多媒体资源。 MPEG-21基于两个基本概念:分布和处理基本单元DI(the Digital Item)以及DI与用户间的互操作。 MPEG-21也可表述为:以一种高效、透明和可互操作的方式支持用户交换、接入、使用甚至操作DI的技术。

优点:

①将不同的协议、标准、技术等有机地融合在一起;

②制定新的标准;

③将这些不同的标准集成在一起。

MPEG-21标准其实就是一些关键技术的集成,通过这种集成环境就对全球数字媒体资源进行透明和增强管理,实现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告等功能。

缺点:-

应用领域:Mixer

版税方式:-

备注:MPEG(ISO/IEC JTCI SC29 WGII)从2000年6月开始着手定义21世纪多媒体应用的标准化技术:MPEG-21 “Multimedia Framework”。MPEG-21是一个可互操作和高度自动化的框架,而且这个框架还考虑到了DRM(digital rights management)的要求、对象化的多媒体接入以及使用不同网络和终端进行传输等问题。DI是MPEG-21框架中,一个具有标准表示、身份认证和相关元数据的数字对象。这个实体是框架中分布和处理的基本单元。在MPEG-21中,一个用户是指与MPEG-21进行环境交互或者使用DI的任何实体。这些用户包括个人、消费者、社团、组织、公司和政府部门。从单纯技术的角度来说,MPEG-21认为“内容提供商”和“使用者(consumer)”之间没有分别——他们都是用户。一个单独的实体可以以几种方式使用网络的内容,同时所有这些与MPEG-21交互的实体都被平等对待。然而,一个用户可以根据与之交互的其他用户的不同来承担特定的角色,发挥不同的作用。在最基本的层次上,MPEG-21可以被看成是提供用户间交互的一个框架。

WMV(WINDOWS MEDIA VIDEO)

类型:Video

制定者:微软公司

所需频宽:128Kbps~38.4Mbps(600kb/s左右)

特性:一种流媒体格式,WMV格式的体积非常小,适合在网上播放和传输。

优点:在同种视频质量的条件下,WMV的文件非常小

缺点:非开放性标准,时延非常大。

应用领域:media

版税方式:按个收费

备注:WMV是微软推出的一种流媒体格式,它是在“同门”的ASF(Advanced Stream Format)格式升级延伸来得。在同等视频质量下,WMV格式的体积非常小,因此很适合在网上播放和传输。由于微软本身的局限性其WMV的应用发展并不顺利。第一, WM9是微软的产品它必定要依赖着Windows,Windows 意味着解码部分也要有PC, 起码要有PC机的主板。这就大大增加了机顶盒的造价,从而影响了视频广播点播的普及。第二,WMV技术的视频传输延迟非常大,通常要10几秒钟,正是由于这种局限性,目前WMV也仅限于在计算机上浏览WM9视频文件。

H.261

类型:Video

制定者:CCITT(即以后的ITU-T)

所需频宽:6?kbps至1.92Mbps

特性:最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。

优点:在实时编码时比MPEG所占用的CPU运算量少得多。

缺点:剧烈运动的图像比相对静止的图像质量要差

应用领域:media

版权方式:Free

备注:于1990年完成和批准了CCITT推荐书 H.261,用于电视会议、可视电话。

H.263

类型:Video

制定者:ITU-T

所需频宽:低达20K到24Kbps带宽

特性:灵活性、节省带宽和存储空间、安装方便、可方便的进行二次开发。H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的压缩编码模式。

优点:能提供更好的图像质量、更低的速率、安装方便、可方便的进行二次开发。H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的压缩编码模式。

缺点:限制了其应用的图像输入格式,仅允许5种视频源格式。

应用领域:media(IP视频通信方面)

版税方式:按个收取

备注:1996年ITU-T完成了H.263编码标准。H.263使用户可以扩展带宽利用率,可以低达128Kbps的速率实现全运动视频(每秒30 帧)。H.263以其灵活性以及节省带宽和存储空间的特性,具有低总拥有成本并提供了迅速的投资回报。H.263是为以低达20K到 24Kbps带宽传送视频流而开发的,基于H.261编解码器来实现。但是,原则上它只需要一半的带宽就可取得与H.261同样的视频质量。

H.263+

类型:Video

制定者:ITU-T

所需频宽:低达20K到24Kbps带宽

特性:允许更大范围的图像输入格式,自定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。采用先进的帧内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码能力。

优点:允许更大范围的图像输入格式,增强的PB-帧模式,增强了帧间预测的效果,去块效应滤波器不仅提高了压缩效率,增加了时间分级、信噪比和空间分级,片结构模式、参考帧选择模式。

缺点:

应用领域:media

版税方式:按个收取

备注:ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。

H.263++

类型:Video

制定者:ITU-T

所需频宽:低达20K到24Kbps带宽

特性:H263++在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。

优点:提高了抗误码性能,增强编码效率。

缺点:

应用领域:media

版税方式:按个收取

备注:H263++在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。这3个选项为:

①选项U——称为增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图像;

②选项V——称为数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量;

③选项W——在H263+的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。

H.264/MPEG-4 AVC

类型:Video

制定者:ITU-T VCEG 和ISO/IEC MPEG

所需频宽:1Mbps的频宽

特性:H264标准使运动图像压缩技术上升到了一个更高的阶段,H.264压缩能力比H.263更强(在相同的重建图像质量下,H.264比 H.263+和MPEG-4(SP)减小50%码率),但相对H.263有更惊人的运算量,连带影响省电、散热等议题。在较低带宽上提供高质量的图像传输是H.264应用亮点。

H.264推广应用对视频终端、网守、网关、MCU等系统的要求较高,将有力地推动视频会议软、硬件设备在各个方面的不断完善。但是现在的处理器还没有足够的运算能力处理H.264影片,象Athlon 6? FX、双核心的Athlon 6? X2、Pentium 4甚至双核心Pentium D都力不从心。同时,要播放H.264影片,需要有强劲的显卡。ATI即推出的R520是目前唯一能搞定这一高难度任务的显卡。而NVIDIA的G70、 Geforce 7800 GTX都无法达到播放H.264影片的要求。

优点:高压缩比、高图像质量、良好的网络适应性,在较低带宽上提供高质量的图像传输。

①在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率;

②对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等;

③提高网络适应性,采用“网络友好”的结构和语法,加强对误码和丢包的处理,提高解码器的差错恢复能力;

④在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以适应不同复杂度的应用;

⑤相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。

缺点:对视频终端、网守、网关、MCU等系统的要求较高,在小型手持装置市场的发挥空间,恐怕不如H.263。

应用领域:media

版税方式:按个收取。

①MPEG LA对H.264授权,量产使用H.264技术的产品每件收取0.2美元,每年量产超过500万件每件收取0.1美元,最低至少要授权10万件,若为营运商使用则每年收取350万~500万美元,播放使用H.264技术的电视节目运营商,用来编码须支付2,500美元(仅需付一次),然后再依据收视户数收费,10万户以下免费,10万~50万户收取2,500美元,50万~100万户收取5,000美元,超过100万户收取1万美元,针对订阅性收视则为 10万户以下免费,10万~50万户收取25,000美元,50万~75万户收取50,000美元,75万~100万户收取75,000美元,超过100 万户收取10万美元。而针对付费性收视则每次点击收取0.02美元!!(或者是收费额的2%)。

②Via授权公司对H.264技术的授权,每件运用产品收取0.25美元,营运总体收费一年250万美元,PC随附软件每年400万美元。对付费性收视方面依据播放时间收费,30分钟内收取0.005美元,30~90分钟收取0.015美元,超过则0.025美元。

③与过去相比,H.264降低了解码器的专利费,但开始增收编码器的专利费。如果视频节目运营商提供采用H.264/MPEG-4 AVC(2006年1月1日开始收费)标准的视频节目,则还需要支付加盟费(Participation fee)。而最令人泄气的是,终端用户也需要交纳不同形式的费用,这笔费用将由运营商代收,打入收费成本。另外,两个专利代理组织的存在也使得问题更加的复杂化,甚至在某些情况,用户不得不同时面对这两个组织,原因是他们各自代表一部分专利拥有者。

备注:H.264是为新一代交互视频通讯制定的标准。该标准也被称为AVC(Advanced Video Coding)标准,是MPEG-4的第10部分。

--------------------------------------------------------------------------------------------- 

AVS(数字音视频编解码技术标准/MPEG中国代表团)

类型:Audio&Video

制定者:数字音频编解码技术标准工作组

所需频宽:码率覆盖几十kbps的低带宽通信到数十Mbps的高清晰度电视广播特性:适应面十分广阔,包括数字电视、激光视盘、网络流媒体、无线流媒体、数字音频广播、视频监控等等领域。码率覆盖几十 kbps的低带宽通信到数十Mbps的高清晰度电视广播,可以支持低延迟模式的视频会议应用,也支持高压缩效率的视频存储应用等。与MPEG-2等现有压缩标准相比,在相同的视觉质量下,码率至少可以降低50%。编码效率比传统的MPEG-2国际标准提高近3倍。

优点:编码效率高、实现复杂度低、专利收费合理

缺点:实现上有一定难度,要实现由国家标准转为国际标准还需要时间。

应用领域:Mixer

版税方式:按个收取(每台终端1元人民币)

备注:属于信源编码技术,和信道编码及显示技术一起构成数字电视的技术体系,用以解决海量音视频数据的压缩问题。AVS是一个最基础的标准,不仅对数字电视产业至关重要,也广泛应用于激光视盘机、多媒体通信、互联网流媒体等数字音视频产业,它的编码效率比传统的MPEG-2国际标准提高近3 倍。


H.264/AVC

H.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG 共同开发的视频处理标准,ITU-T作为标准建议H.264,ISO/IEC作为国际标准14496-10(MPEG-4 第10部分)高级视频编码(AVC)。

  MPEG-2视频编码标准(又称为ITU-T H.262[2])已有10年的历史了,由MPEG-1扩充而来,支持隔行扫描。使用十分广泛,几乎用于所有的数字电视系统,适合标清和高清电视,适合各种媒体传输,包括卫星、有线、地面等,都能有效地传输。然而,类似xDSL、UMTS(通用移动系统)技术只能提供较小的传输速率,甚至DVB-T,也没有足够的频段可用,提供的节目很有限,随着高清电视的引入,迫切需要高压缩比技术的出现。

  应用于电信的视频编码经历了ITUT H.261、H.262(MPEG-2)、H.263、H.263+、H.263++,提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN /INTERNET网。

  最近MPEG-4 第二部分进入了实用领域,提供了视频形状编码,目标是与MPEG-2一样获得广泛的数字电视应用。

  1998年,视频编码专家组(VCEG-ITU-T SG16 Q.6)启动了H.26L工程,旨在研制出新的压缩标准,与以前的任何标准相比,效率要提高一倍,同时具有简单、直观的视频编码技术,网络友好的视频描述,适合交互和非交互式应用(广播、存储、流煤体)。

  2001年12月,VCEG和运动图像专家组(MPEG-ISO/IEC JTC 1/SC 29/WG 11)组成了联合视频组(JVT,Joint Video Team),研究新的编码标准H.264/AVC,该标准于2003年3月正式获得批准。

  视频的各种应用必须通过各种网络传送,这要求一个好的视频方案能处理各种应用和网络接口。H.264/AVC为了解决这个问题,提供了很多灵活性和客户化特性。H.264/AVC的设计方案包含两个层次,视频编码层(VCL,Video Coding Layer)和网络抽象层(NAL,Network Abstraction Layer)。视频编码层主要致力于有效地表示视频内容,网络抽象层格式化VCL视频表示,提供头部信息,适合多种传输和存储媒体。

  VCL的设计同以前的ITU-T和 ISO/IEC JTC一样,基于块的混合视频编码方法。基本的源编码算法是:利用时间统计的相关性,开发帧间预测算法;利用预测残留变换编码,开发空间统计的相关性。在提高编码效率方面,没有一个单一的算法做出特别的贡献,而是大量的小的改善算法综合产生的结果。

一 主要特性

  1. H.264/AVC相对以前的编码方法,以MPEG-2为例,在图像内容预测方面提高编码效率,改善图像质量的主要特点如下:
  ● 可变块大小运动补偿: 选择运动补偿大小和形状比以前的标准更灵活,最小的亮度运动补偿块可以小到4×4。
  ● 1/4采样精度运动补偿:以前的标准最多1/2精度运动补偿,首次1/4采样精度运动补偿出现在MPEG-4第二部分高级类部分,但H.264/AVC大大减少了内插处理的复杂度。
  ● 运动矢量可跨越图像边界:在以前的标准中,运动矢量限制在已编码参考图像的内部。图像边界外推法作为可选技术首次出现在H.263中。
  ● 多参考图像运动补偿:在MPEG-2及以前的标准中,P帧只使用一帧,B帧只使用两帧图像进行预测。H.264/AVC使用高级图像选择技术,可以用以前已编码过且保留在缓冲区的大量的图像进行预测,大大提高了编码效率。
  ● 消除参考图像顺序和显示图像顺序的相关性:在以前的标准中,参考图像顺序依赖显示图像顺序,H.264/AVC消除了该限制,可以任意选择。
  ● 消除参考图像与图像表示方法的限制:在以前的标准中,B帧图像不能作为预测图像,H.264/AVC 在很多情况可以利用B帧图像作为参考。
  ● 加权预测: H.264/AVC采用新技术,允许加权运动补偿预测和偏移一定量。在淡入淡出场景中该技术极大提高编码效率,该技术还可用于其他多种用途。
  ● 改善"跳过"和"直接"运动推测:在以前的标准中,预测编码图像的"跳过"区不能有运动。当编码有全局运动的图像时,该限制非常有害。H.264/AVC 对"跳过"区的运动采用推测方法。对双预测的B帧图像,采用高级运动预测方法,称为"直接"运动补偿,进一步改善编码效率。
  ● 帧内编码直接空间预测: 将编码图像边沿进行外推应用到当前帧内编码图像的预测。
  ● 循环去块效应滤波器: 基于块的视频编码在图像中存在块效应,主要来源于预测和残余编码。自适应去块效应滤波技术是非常著名的技术,能有效消除块效应,改善视频的主观和客观质量。

  2. 除改善预测方法外,其他改善编码效率的特性如下:
  ● 小块变换: 以前的标准变换的块都是8×8,H.264/AVC主要使用4×4块变换,使编码器表示信号局部适应性更好,更适合预测编码,减少"铃"效应。另外图像边界需要小块变换。
  ● 分级块变换: H.264/AVC通常使用小块变换,但有些信号包含足够的相关性,要求以大块表示,H.264/AVC有两种方式实现。低频色度信号可用8×8,;对帧内编码,可使用特别的编码类型,低频亮度信号可用16×16块。
  ● 短字长变换: 所有以前标准使用的变换要求32位运算,H.264/AVC只使用16位运算。
  ● 完全匹配反变换: 所有以前标准反变换和变换之间存在一定容限的误差,因此,每个解码器输出视频信号都不相同,产生小的漂移,最终影响图像的质量,H.264/AVC实现了完全匹配。
  ● 基于上下文的熵编码: H.264/AVC使用两种熵编码方法,CAVLC(上下文自适应的可变长编码)和CABAC(上下文自适应二进制算术编码),两种都是基于上下文的熵编码技术。

  3. H.264/AVC具有强大的纠错功能和各种网络环境操作灵活性,主要特性如下:
  ● 参数集结构:H.264/AVC参数集结构设计了强大、有效的传输头部信息。在以前的标准中,如果少数几位关键信息丢失,可能解码器产生严重解码错误。 H.264/AVC采用很灵活、特殊的方式,分开处理关键信息,能在各种环境下可靠传送。
  ● NAL单元语法结构:H.264/AVC中的每一个语法结构放置在称为NAL的单元中,以前的标准采用强制性特定的位流接口。NAL单元语法结构允许很自由的客户化,几乎适合所有的网络接口。
  ● 灵活的像条大小:在MPEG-2中,规定了严格的像条结构,头部数据量大,降低预测效率,编码效率低。在H.264/AVC可采用非常灵活的像条大小。
  ● 灵活宏块排序(FMO):H.264/AVC可以将图像划分为像条组,又称为图像区,每个像条可以独立解码。FMO通过管理图像区之间的关系,具有很强的抗数据丢失能力。
  ● 任意像条排序:因为每个像条几乎可以独立解码,所以像条可以按任意顺序发送和接收,在实时应用中,可以改善端到端的延时特性,特别适合于接收顺序和发送顺序不能对应的网络中,如使用INTERNET网络协议的应用。
  ● 冗余图像:为提高抗数据丢失的能力,H.264/AVC设计中包含一种新的能力,允许编码器发送图像区的冗余表示,当图像区的主表示丢失时仍可以正确解码。
  ● 数据划分:视频流中的编码信息的重要性不同,有些信息(如运动矢量、预测信息等)比其他信息更为重要。H.264/AVC可以根据每个像条语法元素的范畴,将像条语法划分为3部分,分开传送。

二 网络层


  NAL规范视频数据的格式,主要是提供头部信息,以适合各种媒体的传输和存储。NAL支持各种网络,包括:
  ● 任何使用RTP/IP协议的实时有线和无线Internet 服务。
  ● 作为MP4文件存储和多媒体信息文件服务。
  ● MPEG-2系统。
  ● 其他网。

  1. NAL 单元

  编码的视频流组织成NAL单元,视频数据放置在网络单元中传输,每个网络单元包含整数个字节,第一个字节是头部信息,指示NAL单元的数据类型,其余是净荷。
  净荷数据与仿真预防字节做交织处理,仿真预防字节是特殊值字节,防止偶然在净荷中出现同步字节图样。
  NAL规定一种通用的格式,既适合面向包传输,也适合流传送。实际上,包传输和流传输的方式是相同的,不同之处是流传输前面增加了一个起始码前缀。

  2. NAL单元在字节流中的应用
  类似H.320和MPEG-2/H.222.0等传输系统,传输NAL作为有序连续字节或比特流,同时要依靠数据本身识别NAL单元边界。在这样的应用系统中,H.264/AVC规范定义了字节流格式,每个NAL单元前面增加3个字节的前缀,即同步字节。在比特流应用中,每个图像需要增加一个附加字节作为边界定位。还有一种可选特性,在字节流中增加附加数据,用做扩充发送数据量,能实现快速边界定位,恢复同步。

  3. NAL单元在面向包传送中的应用
  在类似Internet/RTP面向包传送协议系统中,包结构中包含包边界识别字节,在这种情况下,不需要同步字节。

  4. VCL和非VCL的NAL单元
  NAL单元分为VCL和非VCL两种,VCL NAL单元包含视频图像采样信息,非VCL包含各种有关的附加信息,例如参数集(头部信息,应用到大量的VCL NAL单元)、提高性能的附加信息、定时信息等。

  5. 参数集
  参数集是很少变化的信息,用于大量VCL NAL单元的解码,分为两种类型:
  ● 序列参数集,作用于一串连续的视频图像,即视频序列。
  ● 图像参数集,作用于视频序列中的一个或多个个别的图像。
  序列和图像参数集机制,减少了重复参数的传送,每个VCL NAL单元包含一个标识,指向有关的图像参数集,每个图像参数集包含一个标识,指向有关的序列参数集的内容,因此,只用少数的指针信息,引用大量的参数,大大减少每个VCL NAL单元重复传送的信息。
  序列和图像参数集可以在发送VCL NAL单元以前发送,并且重复传送,大大提高纠错能力。序列和图像参数集可以在"带内",也可以用更为可靠的其他"带外"通道传送。

  6. 存储单元
  一组指定格式的NAL单元称为存储单元,每个存储单元对应一个图像。每个存储单元包含一组VCL NAL单元,组成一个主编码图像,VCL NAL单元由表示视频图像采样的像条所组成。存储单元前面可以加一个前缀,分界存储单元,附加增强信息(SEI)(如图像定时信息)也可以放在主编码图像的前面。
  主编码图像后附加的VCL NAL单元,包含同一图像的冗余表示,称为冗余编码图像,当主编码图像数据丢失或损坏时,可用冗余编码图像解码。

  7. 编码视频序列
  一个编码视频序列由一串连续的存储单元组成,使用同一序列参数集。每个视频序列可独立解码。编码序列的开始是即时刷新存储单元(IDR)。IDR是一个I 帧图像,表示后面的图像不用参考以前的图像。一个NAL单元流可包含一个或更多的编码视频序列。

三 视频编码层

  视频编码层在原理上与MPEG2是一致的,采用变换编码,使用空间和时间预测的混合编码。图1是一个宏块的视频编码层的框图。总之图像划分成块,一个序列的第一个图像,即随机存取点,典型是帧内编码,帧内每个采样的预测只利用帧内已编码的空间相邻的采样,选择哪些相邻采样进行预测,以及如何预测,这些附加信息必须同时被传送到解码器同步处理。随机存取点之间的图像使用帧间编码。

  为了实现下一块或下一个图像的预测,编码器包含一个解码器,对量化变换系数进行与解码器解码相同的反量化和反变换过程,导出解码预测残余,解码残余与预测相加,结果送到去块效应滤波器,产生解码视频输出。

  1. 图像、帧和场
  一个编码视频序列由连续的编码图像组成,编码图像可以是整个一帧图像,也可以是一场图像。H.264/AVC编码是基于几何概念的表示方法,而不是基于定时的概念。

  2. YcbCr色度空间和4:2:0采样
  人的视觉特性按照亮度和色度信息分别感知世界。视频的传输可以利用该特性减少色度信息传送。H.264/AVC目前采用与MPEG-2主类相同的 4:2:0采样结构、8比特精度,高精度颜色和高比特精度的建议正在讨论中。

  3. 宏块划分
  每个视频图像帧或场都可以划分为固定大小的宏块,宏块是解码的基本模块单元,通常是一个16×16亮度像素和两个8×8彩色分量像素的长方型区域。所有宏块的亮度和色度采样在空间或时间上进行预测,对预测残余进行变换编码。

  4. 像条和像条组
  像条由宏块组成,像条是图像的子集,包含图像参数集,语法元素可以被分析,图像可以被独立解码。按照宏块映射表规定的顺序,在位流中安排宏块的传输顺序,而不是按光栅扫描顺序。
  利用像条组的概念,H.264/AVC支持灵活宏块排序特性(FMO)。FMO改变了图像划分为像条和宏块的方式。每个像条组是多个宏块集合,通过宏块到像条组的影射表定义,该影射表在图像参数集中指定。每个宏块有一个像条组标识号,所有像条组标识号构成宏块到像条组影射表。每个像条组由一个或多个像条组成,因此像条是一个宏块序列,同一像条组中的宏块,按光栅顺序处理。
  利用FMO,图像可以划分为许多宏块扫描图样,例如交织图样、点缀图样,一个或多个前景像条组、剩余像条组,或棋盘型图样影射等。每个像条组分别传送,后两种如图2所示,左边宏块到像条组的影射证明在关注局部型的编码应用中非常有用。右边宏块到像条组的影射证明适合保密型会议系统等应用。


  无论是否使用FMO,H.264/AVC支持5种像条编码类型:
  I像条:最简单的编码类型,所有的宏块不参考视频序列中其他的图像。
  P像条:除了I像条编码类型外,P像条的部分宏块可以利用帧间预测,每个预测块至多可使用一个运动补偿预测信号。
  B像条:除了P像条编码类型外,B像条的部分宏块可以利用帧间预测,每个预测块可使用两个运动补偿预测信号。

  以上三种与以前的标准相似,主要是参考图像不同,其余两种像条类型是SP(切换P) SI(切换I),是新的类型,用于在不同位率编码码流之间进行有效切换。
  SP像条: 称作切换P像条,能在不同编码图像之间有效地切换。
  SI像条:称作切换I像条,允许SP像条的宏块完全匹配,达到随机读取数据进行解码和恢复错误的目的。

  5. 宏块的编解码过程
  所有宏块的亮度和色度采样要进行空间或时间的预测,对预测的残余进行变换编码,为了实现变换编码,每个颜色分量的预测残余要再划分为更小的4×4块,每块利用整数变换,变换系数被量化,最后是熵编码。
  如图1所示,一个宏块视频编码层的方框图,输入的视频信号划分为宏块,映射宏块和像条组的关系,逐个选择像条,处理像条中每个宏块。

  6. 自适应帧/场编码操作
  在隔行扫描帧中,当有移动的对象或摄像机移动时,与逐行相比,两个相邻行倾向减少统计的相关性,这种情况应比每场分别压缩更为有效。为了达到高效率,H.264/AVC在编码帧时,有以下可选方案:
  ● 结合两场成一个完整帧,作为帧编码,称为帧模式。
  ● 两场分别编码,称为场模式。
  ● 结合两场成一个完整帧,作为帧压缩。在编码时,划分垂直相邻的两个宏块对成两个场宏块对或帧宏块,再进行编码。

  每帧图像可自适应选择3种模式之一进行编码。在前两种之间进行选择称为图像自适应帧/场编码(PAFF),当一帧作为两场编码时,每场划分为宏块,编码方式与帧编码方式很相似,主要有下面的例外:
  ● 运动补偿用参考场,而不是参考帧。
  ● 变换系数的"之字型"扫描方式不同。
  ● 宏块水平边沿去块滤波器的强度不选用"强",因为场行在空间上是两倍帧行的距离。

  在研制H.264/AVC标准时,据报道,采用ITU-601分辨率,PAFF编码技术与帧编码相比可减少码率16%到20%。

  如果图像由运动区和非运动区混合组成,非运动区用帧模式、运动区用场模式是最有效的编码方法。因此每个垂直宏块对(16×32)可独立选择编码(帧/场)模式。这种编码选择称为宏块自适应帧/场编码(MBAFF)。对于帧模式宏块对,每个宏块包含帧行,对于场模式宏块对,顶部宏块包含顶场行,底部宏块包含底场行。

  处理场宏块对的每个宏块与帧PAFF模式相似,然而,因为在MBAFF帧中发生场/帧宏块对混合,需要修改用作下列用途的方法:
  ● 之字型扫描。
  ● 运动矢量预测。
  ● 帧内预测模式的预测。
  ● 帧内预测帧采样精度。
  ● 去块效应滤波器。
  ● 上下文模型的熵编码。

  主要思想是尽可能保留多的空间一致性,MBAFF帧的空间相邻的规范相当复杂,下面讲到的空间相邻都是指非MBAFF帧。
  MBAFF 和PAFF的另一个重要区别是:使用MBAFF方法, 一个场不能使用同一帧的另一个场中的宏块作为运动补偿参考。这样,有时PAFF比MBAFF编码更有效,特别是在快速全局运动、变换场景、图像刷新等情况下。
  在开发MBAFF标准期间,据报道,采用ITU-601分辨率,MBAFF编码技术比PAFF相比可减少码率14%到16%。

  7. 帧内预测

  根据像条编码类型,每个宏块可以选择几种编码类型之一。所有像条类型支持两级帧内编码,称为INTRA-4×4 和 INTRA-16×16。

  INTRA-4×4模式基于分别预测每个4 ×4亮度块,适合表现图像细节部分。而INTRA-16×16模式将整个16×16亮度块进行预测,适合平滑图像区。此外对这两种亮度预测类型,色度单独进行预测。作为INTRA-4×4和INTRA-16×16的另一种选择,I_PCM编码类型允许编码器简单跳过预测和变换编码过程,直接发送采样值。 I_PCM允许编码器精确地表示采样,通常表示一些反常图像,而没有明显增加数据量。

  8. 帧间预测

  ● p像条帧间预测
  除了帧内宏块编码类型外,P像条宏块使用多种预测类型,即运动补偿编码类型。为了方便运动描述,每个P型宏块对应于指定的固定大小的宏块划分。亮度块的划分大小为:16×16、16×8、8×16、8×8。
  语法允许运动矢量跨越图像边界,这种情况参考帧需用外插法推算出图像外的采样值。利用邻近块的平均或方向预测,用差分编码计算运动矢量。
  语法支持多图像运动补偿预测,以前编码的多个图像都可用作运动补偿参考,每个运动补偿需要指示参考图像的索引。一个8×8块划分成的小于8×8块的运动补偿使用同一参考图像索引,该功能要求编码和解码器具有多帧图像缓冲器,解码器通过位流中的管理控制操作信息与编码器同步。
  除了运动补偿宏块模式外,P宏块可使用P_Skip模式,这种模式没有量化预测误差、不用传送运动矢量和参考索引参数。信号重建与P_16×16宏块类型预测信号类似,采用多帧缓冲区索引0的图像作为参考图像。重建P_Skip宏块的运动矢量与16×16块运动矢量预测类似。P_Skip编码类型适合没有变化或固定运动的区域,如摇镜头等,有极高的压缩率。

  ● B像条的帧间预测
  B像条相对P像条的概念与以前的标准类似,但有些不同,B像条可以作为运动补偿预测的参考图像,B像条可以对两个补偿预测值进行加权运算。

  9. 变换和量化
  与以前的视频编码标准类似,H.264/AVC利用预测残余变换编码。然而,H.264/AVC变换施加4×4块上,不用离散余弦变换(DCT),采用与离散余弦变换相似特性的整数变换。因为使用整数运算,所以反变换没有误差。

  10. 熵编码
  H.264/AVC支持两种熵编码方法,最简单的熵编码方法是:对所有的语法元素,除了量化系数外,使用单一无限可扩展的码字表。这样不必为每个语法元素设计一个专用的VLC表,只需要按照数据的统计特性,客户化影射到单一码字表。使用exp-Golomb码建立单一码表,具有很简单、有规则的解码特性。
  为了有效传送量化的变换系数,CAVLC(上下文自适应的可变长编码)是很有效的方法。在该方案中,对于各种语法元素的VLC码表按照已传送的语法元素可以进行切换。因为VLC表设计匹配相应的条件统计,改善了熵编码的性能。
  在H.264/AVC中的算术编码引擎,与概率相关的估计等都不使用乘法操作,而是使用简单的移位和查找操作,与CAVLC操作相比,CABAC典型减少码率5%~15%。在隔行扫描视频,效果更明显。

  11. 去块循环滤波器
  基于块编码的压缩算法的特点是偶尔产生可见的块结构,由于块边沿的精度比内部差,块效应是目前压缩算法的常见人工瑕疵。H.264/AVC定义了一个自适应循环滤波器,滤波的强度通过几个语法元素控制。
  滤波的基本思想是: 如果块边沿的绝对差值相对比较大,出现块人工瑕疵的可能性就很大,因此需要进行相应处理。然而,如果差值幅度很大,编码量化过程的误差不能解释,边沿很可能反映了源图像的实际样值,不需处理。
  经过滤波处理,减少了块效应,而图像的质量基本不受影响,因此主观质量大大改善。如果不滤波,同样的主观质量,需要多出5%~10%的码率。图3说明了块滤波器的效果。
 

  12. 假想参考解码器模型
  标准的好处在于保证所有符合标准的解码器能够解码出一致的视频质量。要实现标准,仅仅提供编码算法的描述是不够的,在实时系统中,指定如何馈送码流比特给解码器,解码的图像如何移出解码器等都是很重要的。要实现该功能,必须指定输入/出缓冲器模型和开发与实现无关的接收机模型。这样的接收机模型称为假想参考模型(HRD)。编码器不允许产生假想参考模型不能解码的位流。因此如果所有接收机都模拟假想参考模型的行为,可以保证所有解码器解出的码流具有很好的一致性。

四 类和级及其应用

  1. 类和级
  类和级指定符合点,这些符合点用于实现各种标准应用之间的互操作性。类定义一组编码工具和算法,用于产生一致性的比特流,级限定比特流的部分关键参数。
  所有的解码器符合指定的类必须支持该类定义的所有特性,编码器不必要求使用该类支持的任何特定的特性集,但必须提供一致性的比特流,即使支持该类的解码器能实现解码。

  H.264/AVC定义了3类:基类、主类和扩展类。
  基类支持除下面两组特性外的所有的H.264/AVC特性:
  (1)B像条、加权预测、CABAC、场编码、图像或宏块在帧场编码之间自适应切换。
  (2) PI/SI像条和像条数据分割。

  主类支持第一组特性,但主类不支持FMO、ASO和冗余图像特性,扩展类支持除CABAC外所有H.264/AVC特性,序列参数中包含了一些标志指示解码该码流要求解码器支持的类。
  在H.264/AVC,所有类使用相同的级定义,但个别实现时,可能每个支持的类支持的级不完全相同。H.264/AVC定义了15个级。

  2. 新标准类的使用领域
  H.264/AVC的高压缩效率,扩充了现有的应用领域,至少包含以下领域:
  (1)交互视频服务,通常速率1Mbps以下,低延迟。ITU-T SG16正在修改有关系统建议, IETF正在设计RTP净荷打包器,以支持H.264/AVC在交互视频方面的应用。近期主要利用基类,然后过渡到另两类。主要应用如下:
  H.320 交互式视频服务,利用基于ISDN视频会议的电路交换;
  3 GPP交互式H.324/M服务;
  H.323交互式视频服务,基于INTERNET,利用IP/RTP协议。

  (2)娱乐视频应用,1Mbps~8Mbps码率,0.5 到 2秒中等时延。H.222.0|MPEG-2正在被修改以支持这方面的应用,这些应用主要利用主类,主要应用如下:
  有线、卫星、地面、DSL等广播电视;
  标清和高清DVD;
  通过各种媒体的视频点播。

  (3)流媒体服务,典型50kbps 到1.5Mbps,2秒以上的时延,这些应用主要利用基类或扩展类。有线或无线使用情况有所不同,主要应用如下:
  3GPP 流, 利用IP/RTP传输,RTSP作会话设置,3GPP规范的扩充部分可能仅使用基类;
  有线INTERNET 流,利用IP/RTP传输,RTSP作会话设置。

  (4)其他服务,主要是低码率,以文件传送方式,不考虑时延,根据不同应用,可能用到3类,主要应用如下:
  3GPP 多媒体信息服务;
  视频邮件。

  六 结论

  H.264代表了当前业界最先进的视频压缩技术,且具有以下无可比拟的优越性。

  1. 码率低:和MPEG-2等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG-2的1/2~1/3。显然,H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。

  2. 图像质量高:H.264能提供连续、流畅的高质量图像。

  3. 容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

  4. 网络适应性强:H.264提供了网络适应层, 使得H.264的文件能容易地在不同网络上传输。

  H.264超越以往的视频编解码标准,成为各个厂商竞争的焦点。目前,各主流厂商纷纷宣布,已经或将在明年推出产品化的H.264。在视频广播领域,美国哈雷公司宣布其产品MV100编码器可以支持H.264协议,哈雷原来的MPEG-2编码器MV100硬件平台已经兼容H.264能力,只需从软件升级即可。在欧洲,有两个用户已经选用了此种编码器。其中一个是法国的卫星及直播星运营商CanalSatellite,它采用哈雷高性能的数字前端系统在 ADSL上传输视频业务,MV100超低码率编码能力可以实现在多种电信网上传输广播级视频节目。另外是第一个即将投入正式商业运营的英国Video network limited。
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
特此鸣谢: http://www.360doc.com/content/11/0922/11/496343_150310986.shtml


你可能感兴趣的:(视频处理,视频编码,编码标准)