介绍各种压缩格式MPEG1--MPEG4--MPEG7—MPEG21-H.264

MPEG是Moving Pictures Experts Group(动态图象专家组)的缩写。这个专家组始建于1988年,专门负责为CD建立视频和音频标准,其成员均为视频、音频及系统领域的技术专家。最早MPEG的缔造者们原先打算开发四个版本:MPEG-1、MPEG-2、MPEG-3、MPEG-4,以适用于配合不同带宽和数字影像质量的要求。后由于MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。所以现存只有三个版本:MPEG-1,MPEG-2,MPEG-4。如果说,MPEG-1“文件小,但质量差”;而MPEG-2则“质量好,但更占空间”的话,那么MPEG-4则很好的结合了前两者的优点。它于1998年10月定案,在1999年1月成为一个国际性标准,随后为扩展用途又进行了第二版的开发,于1999年底结束。
1.MPEG-2
技术特点:MPEG-2制定于1994年,设计目标是高级工业标准的图像质量以及更高的传输率。MPEG-2所能提供的传输率在3MB-10MB/s间,在NTSC制式下的分辨率可达720×486,MPEG-2能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达七个伴音声道。MPEG-2的另一特点是,可提供一个较广范围的可变压缩比,以适应不同的画面质量、存储容量以及带宽的要求。
应用范围:MPEG-2技术就是实现DVD的标准技术,现在DVD播放器也开始在家庭中普及起来了。除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。
2.MPEG-3
由于MPEG-2的出色性能表现,已能适用于HDTV(高清晰度电视),使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。
3.MPEG-4
技术特点:MPEG-4 于1998 年11 月公布,它不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800-64000bits/s之间,分辨率为176×144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。
应用范围:经过这两年的发展,现在最热门的应用是利用 MPEG-4 的高压缩率和高的图像还原质量来把 DVD 里面的 MPEG-2 视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用 CD-ROM 来保存 DVD 上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放将大有用武之地。
MPEG4主要应用于视像电话(VideoPhone),视像电子邮件(VideoEmail)和电子新闻(Electronicnews)等,对传输速率要求较低,在4800-64000bits/sec之间。利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图像质量。MPEG-4的特点是其更适于交互AV服务以及远程监控。这是一个有交互性的动态图像标准。从目前的情况看,MPEG-4很可能会被用于三个领域内:数字电视、交互式的图形应用(包括内容上的合成技术)、交互式多媒体领域等。MPEG-4提供了标准的技术使其能被整合到产品、分类、内容访问等过程中去。继MPEG-4之后,人们又对解决日渐庞大的图像、声音 MPEG-4标准提供了一系列的技术来满足作者、服务提供商以及最终用户的需要。对于作者而言,MPEG-4能够很大限度的保证内容的可重复使用,它比当今我们看到的技术比如数字电视、动画等更具有弹性;对网络服务提供商,MPEG-4提供了技术来支持将信息解释或者翻译成适当的本地化信息的功能;而终端用户们,MPEG-4可以带来更多的交互性。
前面我们已经提到过MPEG-4有两个版本,第二版是在第一版的基础上建立起来的,它可以向后兼容。一般情况下MPEG-4提供了一个标准的方法来描述场景,其中场景的描述依靠了虚拟,这正是建模语言(VRML)中的许多概念
MPEG-4标准由以下几个部分组成。1DMIF(The Dellivery Multimedia Integration Framework)即多媒体传送整体框架,它主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。2数据平面,MPEG4中的数据平面分为两部分:传输关系部分和媒体关系部分。为了使基本流和AV对象在同一场景中出现,MPEG4引用了对象描述(OD)和流图桌面(SMT)的概念。3缓冲区管理和实时识别,MPEG4定义了一个系统解码模式(SDM)。该解码模式通过有效地管理,可以更好地利用有限的缓冲区空间。4音频编码,MPEG4不仅支持自然声音,而且支持合成声音。5视频编码,与音频编码类似,MPEG-4也支持对自然和合成的视觉对象的编码。6场景描述,主要用于描述各AV对象在一具体AV场景坐标下,如何组织与同步等问题。
4.MPEG-7
MPEG提出了解决方案MPEG-7。该工作于1998年提出,在2001年初最终完成。MPEG-7将对各种不同类型的多媒体信息进行标准化描述,以实现快速有效的搜索。该标准不包括对描述特征的自动提取,也没有规定利用描述进行搜索的工具或任何程序。其正式称谓是“多媒体内容描述接口”。MPEG-7可独立于其它MPEG标准使用,但MPEG-4中所定义的对音、视频对象的描述适用于MPEG-7,这种描述是分类的基础。另外我们可以利用MPEG-7的描述来增强其它MPEG标准的功能。总体来说,MPEG有三方面的优势。首先,它是做为一个国际化的标准来研究制定的,所以,具有很好的兼容性。其次,MPEG能够比其他算法提供更好的压缩比,最高可达200:1。更重要的是,MPEG在提供高压缩比的同时,对数据的损失很小。与同样是音频压缩标准的AC系列标准相比,MPEG标准系列由于不存在专利权的问题,它更适合于大力推广。MPEG-1使得VCD取代了传统的录像带;而MPEG-2将使数字电视最终完全取代现有的模拟电视;随着MPEG-4和MPEG-7新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。
准确说来, MPEG-7 并不是一种压缩编码方法,而是一个多媒体内容描述接口。继 MPEG-4 之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。MPEG7就是针对这个矛盾的解决方案。MPEG-7 力求能够快速且有效地搜索出用户所需的不同类型的多媒体影像资料,比如在影像资料中搜索有长江三峡镜头的片段。这个方案于2001年初最终完成并公布。
5.MPEG-21
MPEG-21将由MPEG-7发展而来,刚刚才开始启动。据透露,MPEG-21主要规定数字节目的网上实时交换协议。
6.相关视频格式
看过了MPEG系列的音像压缩格式后,我想大家一定还关心其他相关压缩格式的发展状况,以及各地自的优缺点。我想也只有知道了这些,才能更好地掌握整体的状况。
ASF
ASF是Advanced Streaming format的缩写,这是Microsoft为了和Real Player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式!采用MPEG-4的压缩算法,作为视频“流”格式在网上即时观赏的时候,比 VCD差一点点,但比其他视频“流”格式的RAM格式要好。如果你不考虑在网上传播,选最好的质量来压缩文件的话,其生成的视频文件比 VCD要好。但这样的话,就失去了ASF本来的发展初衷。
n AVI
n AVI是new AVI的缩写,不过这个并不是微软发展而来的。它是一个名为 ShadowRealm的地下组织发展起来的一种新视频格式,由Microsoft ASF压缩算法的修改而来,牺牲了ASF的视频流特性,改善了原始的ASF 格式的一些不足,简单说就是非网络版本的ASF!

国际标准组织MPEG即将批准一项新的数字视频压缩格式,有望为新兴的多媒体技术带来改进,但同时也增加了一些不确定因素。
  新格式被称作H.264。据称,它可以通过互联网发送DVD质量的视频,所使用的网络资源明显少于竞争对手。
  据MPEG要求组织(MPEG Requirements Group)主席Robert Koenen称,该格式(或称多媒体数字信号编解码器)是由美国和欧洲标准组织合作组建的"联合视频小组"创建的,将作为MPEG-4(移动图像专家组)多媒体标准的一部分在年底获得通过。
  MPEG-4标准的主要许可交换中心--MPEG LA已要求各公司在星期五之前将它们认为涉及H.264格式的专利呈递上去,便于他们加以考虑。
  压缩大量数据文件是实现视频在线发送和发送至无线设备的关键所在,各媒体公司对这两个市场觊觎已久,但部分因为成本和质量问题未能如愿以偿。
  没有几家高速互联网接入提供商能保证数据传输速度高于500千位/秒,使视频文件的尺寸成为好莱坞的互联网视频分销计划的最大障碍。
  H.264花了很长时间才将此问题解决。测试时,在略低于1兆比特每秒的传输速度下播放质量达到DVD水平。
  尽管这并不意味着普通消费者很快就可以通过标准宽带连接欣赏到DVD质量的视频流,但与其它格式相比,它确定了一个重要的性能基准。
  H.264,即MPEG-4第10部分所实现的数据节省可以加快互联网和无线视频点播服务的发展速度。
它也许将证明自己对那些希望通过他们的管道播放更多频道的有线运营商和寻求在DVD等数字媒体中装入更多更高质量的视频文件的发行人非常有价值。
  目前,这些行业通常仍在采用较老的MPEG-2视频标准,文件大小比新标准高4倍。
  H.264还有望比目前根据MPEG-4实现的视频格式在性能方面提高33%。H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组(JVT:joint video team)开发的一个新的数字视频编码标准,它既是ITU-T的H.264,又是ISO/IEC的MPEG-4的第10 部分。1998年1月份开始草案征集,1999年9月,完成第一个草案,2001年5月制定了其测试模式TML-8,2002年6月的 JVT第5次会议通过了H.264的FCD板。2003年3月正式发布。
H.264和以前的标准一样,也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比H.263++好得多的压缩性能;加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输(存储)场合的需求;它的基本系统是开放的,使用无需版权。
在技术上,H.264标准中有多个闪光之处,如统一的VLC符号编码,高精度、多模式的位移估计,基于4×4块的整数变换、分层的编码语法等。这些措施使得H.264算法具有很的高编码效率,在相同的重建图像质量下,能够比H.263节约50%左右的码率。H.264的码流结构网络适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用。
H。264的技术亮点
(1) 分层设计
H.264的算法在概念上可以分为两层:视频编码层(VCL:Video Coding Layer)负责高效的视频内容表示,网络提取层(NAL:Network Abstraction Layer)负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成。
VCL层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样,H.264没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。
NAL负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,NAL支持视频在电路交换信道上的传输格式,支持视频在Internet上利用RTP/UDP/IP传输的格式。NAL包括自己的头部信息、段结构信息和实际载荷信息,即上层的VCL数据。(如果采用数据分割技术,数据可能由几个部分组成)。
(2) 高精度、多模式运动估计
H.264支持1/4或1/8像素精度的运动矢量。在1/4像素精度时可使用6抽头滤波器来减少高频噪声,对于1/8像素精度的运动矢量,可使用更为复杂的8抽头的滤波器。在进行运动估计时,编码器还可选择“增强”内插滤波器来提高预测的效果。
在H.264的运动预测中,一个宏块(MB)可以按图2被分为不同的子块,形成7种不同模式的块尺寸。这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形状,大大提高了运动估计的精确程度。在这种方式下,在每个宏块中可以包含有1、2、4、8或16个运动矢量。
在H.264中,允许编码器使用多于一帧的先前帧用于运动估计,这就是所谓的多帧参考技术。例如2帧或3帧刚刚编码好的参考帧,编码器将选择对每个目标宏块能给出更好的预测帧,并为每一宏块指示是哪一帧被用于预测。
(3) 4×4块的整数变换
H.264与先前的标准相似,对残差采用基于块的变换编码,但变换是整数操作而不是实数运算,其过程和DCT基本相似。这种方法的优点在于:在编码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式。也就是说,这里没有“反变换误差”。 变换的单位是4×4块,而不是以往常用的8×8块。由于用于变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动物体边缘处的衔接误差也大为减小。为了使小尺寸块的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异,可对帧内宏块亮度数据的16个4×4块的DC系数(每个小块一个,共16个)进行第二次4×4块的变换,对色度数据的4个4×4块的DC系数(每个小块一个,共4个)进行2×2块的变换。
H.264为了提高码率控制的能力,量化步长的变化的幅度控制在12.5%左右,而不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理以减少计算的复杂性。为了强调彩色的逼真性,对色度系数采用了较小量化步长。
(4) 统一的VLC
H.264中熵编码有两种方法,一种是对所有的待编码的符号采用统一的VLC(UVLC :Universal VLC),另一种是采用内容自适应的二进制算术编码(CABAC:Context-Adaptive Binary Arithmetic Coding)。CABAC是可选项,其编码性能比UVLC稍好,但计算复杂度也高。UVLC使用一个长度无限的码字集,设计结构非常有规则,用相同的码表可以对不同的对象进行编码。这种方法很容易产生一个码字,而解码器也很容易地识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。
图3显示了码字的语法。这里,x0,x1,x2,…是INFO比特,并且为0或1。图4列出了前9种码字。如:第4号码字包含INFO01,这一码字的设计是为快速再同步而经过优化的,以防止误码。
(5) 帧内预测
在先前的H.26x系列和MPEG-x系列标准中,都是采用的帧间预测的方式。在H.264中,当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外),每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测,即此像素所在块的左上角的17个像素。显然,这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。
如图4所示,4×4方块中a、b、...、p为16 个待预测的像素点,而A、B、...、P是已编码的像素。如m点的值可以由(J+2K+L+2)/ 4 式来预测,也可以由(A+B+C+D+I+J+K+L)/ 8 式来预测,等等。按照所选取的预测参考的点不同,亮度共有9类不同的模式,但色度的帧内预测只有1类模式。
(6) 面向IP和无线环境
H.264 草案中包含了用于差错消除的工具,便于压缩视频在误码、丢包多发环境中传输,如移动信道或IP信道中传输的健壮性。
为了抵御传输差错,H.264视频流中的时间同步可以通过采用帧内图像刷新来完成,空间同步由条结构编码(slice structured coding)来支持。同时为了便于误码以后的再同步,在一幅图像的视频数据中还提供了一定的重同步点。另外,帧内宏块刷新和多参考宏块允许编码器在决定宏块模式的时候不仅可以考虑编码效率,还可以考虑传输信道的特性。
除了利用量化步长的改变来适应信道码率外,在H.264中,还常利用数据分割的方法来应对信道码率的变化。从总体上说,数据分割的概念就是在编码器中生成具有不同优先级的视频数据以支持网络中的服务质量QoS。例如采用基于语法的数据分割(syntax-based data partitioning)方法,将每帧数据的按其重要性分为几部分,这样允许在缓冲区溢出时丢弃不太重要的信息。还可以采用类似的时间数据分割(temporal data partitioning)方法,通过在P帧和B帧中使用多个参考帧来完成。
在无线通信的应用中,我们可以通过改变每一帧的量化精度或空间/时间分辨率来支持无线信道的大比特率变化。可是,在多播的情况下,要求编码器对变化的各种比特率进行响应是不可能的。因此,不同于MPEG-4中采用的精细分级编码FGS(Fine Granular Scalability)的方法(效率比较低),H.264采用流切换的SP帧来代替分级编码。
H.264的性能测试
TML-8为H.264的测试模式,用它来对H.264的视频编码效率进行比较和测试。测试结果所提供的PSNR已清楚地表明,相对于MPEG-4(ASP:Advanced Simple Profile)和H.263++(HLP:High Latency Profile)的性能,H.264的结果具有明显的优越性,如图5所示。
H.264的PSNR比MPEG-4(ASP)和H.263++(HLP)明显要好,在6种速率的对比测试中,H.264的PSNR比MPEG-4(ASP)平均要高2dB,比H.263(HLP)平均要高3dB。6个测试速率及其相关的条件分别为:32 kbit/s速率、10f/s帧率和QCIF格式;64 kbit/s速率、15f/s帧率和QCIF格式;128kbit/s速率、15f/s帧率和CIF格式;256kbit/s速率、15 f/s帧率和QCIF格式;512 kbit/s速率、30f/s帧率和CIF格式;1024 kbit/s速率、30f/s帧率和CIF格式。

你可能感兴趣的:(介绍各种压缩格式MPEG1--MPEG4--MPEG7—MPEG21-H.264)