自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
1-1 什么是采样率和采样大小(位/bit)。
声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。
1-2 有损和无损
根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。
1-3 为什么要使用音频压缩技术
要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。
1-4 频率与采样率的关系
采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。
1-5 流特征
随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实
2-1 PCM编码
PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。
2-2 WAVE
这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。
在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
2-3 MP3编码
MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。
VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪里,即使是文件有部分损坏。虽然mp3可以有文件头,但对于mp3格式的文件却不是很重要,正因为这种特性,决定了MP3文件的每一段每一帧都可以单独的平均数据速率,而无需特别的解码方案。于是出现了一种叫VBR(Variable bitrate,动态数据速率)的技术,可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate,这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的,但要运用确实是一件难事,因为这要求编码器知道如何为每一段分配bitrate,这对没有波形分析的编码器而言,这种技术如同虚设。正是如此,VBR技术并没有一出现就显得光彩夺目。
专家们通过长期的声学研究,发现人耳存在遮蔽效应。声音信号实际是一种能量波,在空气或其他媒介中传播,人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小,我们称它为响度,表示响度这种能量的单位为分贝(dB)。即使是同样响度的声音,人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率,不管频率是否增高或降低,即使是响度在相同的情况下,大家都会觉得声音在变小。但响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值。
可以看到这条曲线基本成一个V字型,当频率超过15000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略,例如:在白天我们很难听到电脑中散热风扇的声音,晚上却成了噪声源,根据这种原理,编码器可以过滤掉很多听不到的声音,以简化信息复杂度,增加压缩比,而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽,如果A处于B为中心的遮蔽范围内,遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样,频率越高的临界带宽越宽。
频率(Hz) 临界带宽(Hz) 频率(Hz) 临界带宽(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根据这种效应,专家们设计出人耳听觉心理模型,这个模型被导入到mp3编码中后,导致了一场翻天覆地的音质革命,mp3编码技术一直背负着音质差的恶名,但这个恶名现在已经逐渐被洗脱。到了此时,一直被埋没的VBR技术光彩四射,配合心理模型的运用便现实出强大的诱惑力与杀伤力。
长期来,很多人对MP3印象不好,更多人认为WMA的最佳音质要好过MP3,这种说法是不正确的,在中高码率下,编码得当的MP3要比WMA优秀很多,可以非常接近CD音质,在不太好的硬件设备支持下,没有多少人可以区分两者的差异,这不是神话故事,尽管你以前盲听就可以很轻松区分MP3和CD,但现在你难保证你可以分辨正确。因为MP3是优秀的编码,以前被埋没了。
2-4 OGG编码
网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。
Ogg Vorbis是高质量的音频编码方案,官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质!Ogg Vorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件(目前这种软件还没有)的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。
和MP3一样,Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR。
2-5 MPC 编码
MPC是又是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。
2-6 mp3PRO 编码
2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。
2-7 WMA
WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中著名的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。
2-8 RA
RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。
2-9 APE
APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
主流音频格式的特点及其适应性
各种各样的音频编码都有其技术特征及不同场合的适用性,我们大致讲解一下如何去灵活应用这些音频编码。
4-1 PCM编码的WAV
前面就提到过,PCM编码的WAV文件是音质最好的格式,Windows平台下,所有音频软件都能够提供对她的支持。Windows提供的WinAPI中有不少函数可以直接播放wav,因此,在开发多媒体软件时,往往大量采用wav,用作事件声效和背景音乐。PCM编码的wav可以达到相同采样率和采样大小条件下的最好音质,因此,也被大量用于音频编辑、非线性编辑等领域。
特点:音质非常好,被大量软件所支持。
适用于:多媒体开发、保存音乐和音效素材。
4-2 MP3
MP3具有不错的压缩比,使用LAME编码的中高码率的mp3,听感上已经非常接近源WAV文件。使用合适的参数,LAME编码的MP3很适合于音乐欣赏。由于MP3推出年代已久,加之还算不错的音质及压缩比,不少游戏也使用mp3做事件音效和背景音乐。几乎所有著名的音频编辑软件也提供了对MP3的支持,可以将mp3象wav一样使用,但由于mp3编码是有损的,因此多次编辑后,音质会急剧下降,mp3并不适合保存素材,但作为作品的demo确实相当优秀的。mp3长远的历史和不错的音质,使之成为应用最广的有损编码之一,网络上可以找到大量的mp3资源,mp3player日渐成为一种时尚。不少VCDPlayer、DVDPlayer甚至手机都可以播放mp3,mp3是被支持的最好的编码之一。MP3也并非完美,在较低码率下表现不好。MP3也具有流媒体的基本特征,可以做到在线播放。
特点:音质好,压缩比比较高,被大量软件和硬件支持,应用广泛。
适用于:适合用于比较高要求的音乐欣赏。
4-3 OGG
Ogg是一种非常有潜力的编码,在各种码率下都有比较惊人的表现,尤其中低码率下。Ogg除了音质好之外,她还是一个完全免费的编码,这对ogg被更多支持打好了基础。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,128kbps的Ogg比192kbps甚至更高码率的mp3还要出色。Ogg的高音具有一定的金属味道,因此在编码一些高频要求很高的乐器独奏时,Ogg的这个缺陷会暴露出来。OGG具有流媒体的基本特征,但现在还没有媒体服务软件支持,因此基于ogg的数字广播还无法实现。Ogg目前的被支持的情况还不够好,无论是软件的还是硬件的,都无法和mp3相提并论。
特点:可以用比mp3更小的码率实现比mp3更好的音质,高中低码率下均具有良好的表现。
适用于:用更小的存储空间获得更好的音质(相对MP3)
4-4 MPC
和OGG一样,MPC的竞争对手也是mp3,在中高码率下,MPC可以做到比竞争对手更好音质,在中等码率下,MPC的表现不逊色于Ogg,在高码率下,MPC的表现更是独孤求败,MPC的音质优势主要表现在高频部分,MPC的高频要比MP3细腻不少,也没有Ogg那种金属味道,是目前最适合用于音乐欣赏的有损编码。由于都是新生的编码,和Ogg际遇相似,也缺乏广泛的软件和硬件支持。MPC有不错的编码效率,编码时间要比OGG和LAME短不少。
特点:中高码率下,具有有损编码中最佳的音质表现,高码率下,高频表现极佳
适用于:在节省大量空间的前提下获得最佳音质的音乐欣赏。
4-6 WMA
微软开发的WMA同样也是不少朋友所喜爱的,在低码率下,有着好过mp3很多的音质表现,WMA的出现,立刻淘汰了曾经风靡一时的VQF编码。有微软背景的WMA获得了很好的软件及硬件支持,Windows Media Player就能够播放WMA,也能够收听基于WMA编码技术的数字电台。因为播放器几乎存在于每一台PC上,越来越多的音乐网站都乐意使用WMA作为在线试听的首选了。除了支持环境好之外,WMA在64-128kbps码率下也具有相当出色的表现,虽然不少要求较高的朋友并不够满意,但更多要求不高的朋友接受了这种编码,WMA很快的普及开了。
特点:低码率下的音质表现难有对手
适用于:数字电台架设、在线试听、低要求下的音乐欣赏
4-7 mp3PRO
作为mp3的改良版本的mp3PRO表现出了相当不错的素质,高音丰满,虽然mp3PRO是通过SBR技术在播放过程中插入的,但实际听感相当不错,虽然显得有点单薄,但在64kbps的世界里已经没有对手了,甚至超过了128kbps的mp3,但很遗憾的是,mp3PRO的低频表现也象mp3一样的破,所幸的是,SBR的高频插值可以或多或少的掩盖掉这个缺陷,因此mp3PRO的低频弱势反而不如WMA那么明显。大家可以在使用RCA mp3PRO Audio Player的PRO开关来切换PRO模式和普通模式时深深的感觉到。整体而言,64kbps的mp3PRO达到了128kbps的mp3的音质水平,在高频部分还略有胜出。
特点:低码率下的音质之王
适用于:低要求下的音乐欣赏
4-8 APE
一种新兴的无损音频编码,可以提供50-70%的压缩比,虽然比起有损编码来太不值得一提了,但对于追求完美注意的朋友简直是天大的福音。APE可以做到真正的无损,而不是听起来无损,压缩比也要比类似的无损格式要好。
特点:音质非常好。
适用于:最高品质的音乐欣赏及收藏
视频编码基本名词介绍
AAC
AAC全称高级音频编码(Advanced Audio Coding),将是 AC3 音频编码的替代者。在AC3基础上,AAC从多方面对其进行了改进。(不过)当前的播放器和硬件对于这种即将到来的音频格式支持仍旧十分有限。
Authentication 认证
在一部电影能够播放以前,播放器和碟片之间必须建立一种它们能在其中彼此传递真实的电影信息的安全通讯方式。在建立这种方式前, 另一方面它们还需要保证有合法的“观众”-- 这可以经由若干关键的密匙交换、 验证等等方法来完成。
AC3
AC3(全称Audio Coding3音频编码3)是杜比数码的同义词,杜比数码是一种高级音频压缩技术,它最多可以对6个比特率最高为448kbps的单独声道进行编码。要了解更多信息请参阅 杜比网站 Dolby website 。
ASF
全称高级流媒体格式(Advanced Streaming Format),微软与Real Media的流媒体对应的一般格式。
AVI
音频视频互相交错,在Windows操作系统下的个人电脑中使用最广泛的视频格式。它阐明了视频和音频是如何在没有明确指定编码/解码器的情况下彼此互相依附的。
BUP 文件
BUP文件是 IFO 文件的一个备份。这些文件一般出现在DVD碟片上。
Cell (ID)
一个cell是一张DVD上最小的视频单位.通常用来存放一个chapter,也可以用来存放一个章节(chapter),也可以用来存放一更小的单位,譬如多视角或者分支剧情信息。
Codec 编码解码器
编码/解码器是一个软件,通常用于把音频或视频编码成一种特定格式,也可以把用这种特定格式编码的媒体再次解码。流行的编码/解码器有:MPEG1,MPEG2,MPEG-4,Indeo等。AVI,ASF等只是一种格式而不是编码/解码器 -它们可以用不同的codec编码。
DAR
DAR表示显示长宽比,它代表着屏幕的尺寸。大多数电脑屏幕长宽比为4:3,这意味着(荧屏)水平尺寸是垂直尺寸的4/3。对于电视屏幕,传统的4:3显像方式不少,但是现在16:9的显像方式越来越多,众所周知,16:9的显像方式在同一对角线长度的情况下要比4:3的显像方式呈现出更宽的视野。16:9的荧屏更加适合用于表现好莱坞电影,这些电影(图象的长宽比)通常为1:2.35或者1:1.85(意思是图象横向尺寸是纵向尺寸的1.85倍)。
Deinterlace
把 交错 的视频流恢复为 progressive 的过程叫做deinterlacing。
Demultiplexing 反多路复用
与 多路复用 相反,在反多路复用过程中,一个合并过的音频/视频流将被分割成若干个构成它的流(一个视频流,至少一个音频流和一个导航流)。每一个VOB编码器将VOB文件在编码(快速Mpeg编码,mpeg编码到avi,dvd编码到mpg,二次Mpeg2编码)之前反多路复用,同时DVD播放器也做同样的事情(音频和视频将被在个人电脑的不同流程中被处理,或者被不同的解码器解码) 。
Descrambling
DVD通常被CSS(算法)加密过-试想你为每个字母编号,比如用1来表示a。一个句子就会变成一组数字,这就是我们所说的编码,当然了,CSS比这个要好(复杂)的多,但是它也不难破解。解密意味着逆序进行加密的过程,把我们得到的数字重新变成一个句子,或者说把我们的电影重新回放。你可以在你的DVD驱动器被授权之后试着把一部电影拷贝到你的硬盘里然后播放,你会得到一幅混乱(无法观看)的图象因为它(数据)仍旧被加密。一般的CSS解密者们会用一堆所知的解密匙(例如DeCSS或者DODSrip-它们包含着大量的密匙但自然不是全部)或者试着去用算法攻击(破解)密匙(VobDec-它为什么能对大多数光盘起作用的原因是因为它并不依赖于碟片)。
Digital Video 数字视频
数字视频一般被压缩,因为存储一部未经压缩的电影会占用很可观的字节数-上千G字节(用数字來衡量就是十的十二次方字节)。因为一般的无损压缩对于视频(存储)来说是无能为力的,所以视频编/解码器不得不去掉不重要的信息-一些人眼看不到或者不大可能看到的东东。 因为运用关键祯的现代压缩算法仍然不够,所以采用 关键帧(keyframes), I帧和P帧(I and P frames) 来节约空间。
DivX
老天,不要让Circuit City '98所介绍的现在已经过时了的 DIVX (DIgital Video eXpress 数字视频体验) 系统给弄糊涂了。现在有两种不同口味的 DivX : DivX ;) 是已被破解的微软MPEG4编码/译码器(视窗媒体视频V3)的名称。这些codec是微软为他的视窗媒体架构所开发的,它最初可以用来译码AVI以及ASF格式,但是所有非测试版本都被加上了AVI锁,从而使得不能使用他们来进行AVI编码且目前只有极少数工具支持ASF格式。DivX的创作者们所作的是去除AVI锁从而是它们可以重新用于AVI编码,将名字更换为DivX的原因是为了避免与众多codec混淆,这样在同一台电脑上同时使用破解过以及未破解过的 视窗媒体编码器(Windows Media Encoder) 就成为可能了。最新版的DivX还包括了一个已被破解了的视窗音频媒体编码/译码器,称作DivX音频。由于它的破解目前来说不甚完美,所以用它来进行高码率编码会受到限制。这个codec也被称作DivX3。
另一个DivX就是DivXNetworks所开发的崭新的MPEG-4视频编码/译码器。它提供更高级的编码控制以及二次编码。更好的是他还可以播放旧版DivX ;-)(DivX3)电影。这个codec一般被称作DivX4。
DIVX
DIVX基本上去掉了DVD的所有额外功能:附赠的东西、制作组、预告片、多语种、Circuit City跟一大堆好莱坞贪婪律师们充满屏幕的电影介绍从而可以完全控制控制电影分配到最终用户而且在家里播放电影时也可以获得控制权。DIVX是按次付费的,而且能播放DIVX的DVD播放器必须与你的电话线连接在一起,当你播放DIVX的时候播放器就会通过电话接通DIVX中央机进行登记并用你的信用卡付费。下面是看一部电影的开销 : 4.50美元用于48小时的电影观赏时段;2.50美元用于外的观赏时段。DIVX服务在一年内因为得不到授权(华纳,索尼,新干线以及所有其他小一些的制片公司直接拒绝为此格式提供授权--真是太感谢他们了!!)以及主要来自因特网上DVD站点的恶评而被终止了。稍后报纸以及电视新闻对此作出了严肃报道。
因为DIVX使用三重DES加密所以它不怕密匙攻击,非常安全。除非你可以破解它,否则无法rip这些碟片。换句话来说你的DIVX光盘永远成不了主流。
DRC
动态范围压缩(Dynamic Range Compression)。AC3音轨含有与大多数音频设备所能够处理的动态范围相比更大的动态范围,因此大多数DVD播放器以及DVD播放软件会按照实际动态范围在某种程度上压缩这些范围。用非专业术语来说就是,音量在某一时期会被增大。比如杂音不会变得比较大而只是稍微大些,然而一般的对话音量将会增加不少。因为你的播放器也会这么干,这就是增大音量的方法。
Field 场
交错的视频流 (Interlaced video streams) 包含的是场而不是帧 (frames)。
FourCC
FourCC代表四字符代码(four character code),是一种独立标示视频数据流格式的四字符代码。视频播放软件通过查询FourCC代码并且寻找与FourCC代码相关联的视频解码器来播放特定的视频流。比如: DIV3 = DivX Low-Motion, DIV4 = DivX Fast-Motion, DIVX = DivX4.
Formats used for DVD conversion DVD转换时使用的格式
VCD: Video CD,在很多DVD播放器上都可以播放,几乎每个操作系统下都有相应的播放软件。播放这种盘不需要很快的电脑,但是图像质量和VHS差不多。它的视频是1150kbit/s的MPEG1,音频是224kbit/s的MPEG1 audio layer 2。
SVCD:
Super Video CD,在亚洲国家多用。视频部分使用MPEG2,达到了LD的图像质量,同时提供高质量的环绕立体声。另外它也可以借助硬件解码器的优势,很多系统上也有播放软件。但是,只有少数亚洲制造的低端DVD播放机可以播放SVCD,在欧洲和美国没有这种播放机出售,你只能在你的电脑上看。视频使用最高2600kbit/s的MPEG2,音频使用224kbit/s的MPEG1 audio layer 2。虽然也可以用MPEG2多声道音频,但它只能在Linux上编码,而且由于对这种格式的支持很少,很难说大部分的播放器能不能播放这种5.1声道的MPEG2音轨。同时这种盘可以提供菜单。
miniDVD:
可以说是在CD上存放的DVD,码率最高10mbit/s (包括视频和音频)。视频部分采用MPEG2,VBR,音频部分可以是MPEG1 audio layer 2、raw uncompressed PCM或者AC3。如果你愿意接受播放时间的限制的话,视频质量可以和DVD一样。你也可以建立DVD一样的菜单。缺点是miniDVD只能在PC上播放,在Affrey LD 2060上需要你升级播放机来得到播放miniDVD的能力。
DivX/MPEG4:
根据你选择的分辨率和码率的不同,视频质量可以从低于VHS到接近DVD。可以选择很多种音频格式。你可以制作非常像DVD的DivX CD:多语言、字幕、菜单,虽然工作量很大。另外虽然目前还没有播放机可以放DivX,但是基本所有的操作系统都可以播放,包括Mac、Linux、BeOS,当然还有Windows。不过也有很多奇怪的毛病,在慢的机器上工作正常,而在快的机器上跳祯等等。不过如果他在你的机器上工作,那么它当然是你的不二之选。
Frame 帧
电影的基本组成单位。一帧代表一幅图象。电影通常1秒钟播放24帧,所以它1秒钟有24幅不同图象。设想有24幅鸟的图象,在第一幅里鸟在图的左侧,然后它逐渐向右移动。在第24帧鸟已经在图象的最右侧了。设想这24幅图象以足够快的速度按顺序播放,那么人眼看来就好象这鸟从屏幕的左侧飞到了右侧。
I and P Frames I帧和P帧
当前 帧(Frame) 仅仅描述它与前一帧的区别(虽然描述的不甚准确但相信理解含义并非难事)。比如说我们有一幅一只小鸟飞过一片有云彩天空的图象,这是个关键帧(keyframe)。然后我们可以使用I帧来这样描述:将小鸟向左和下方各移动一英寸。
iDCT & Wavelet iDCT和小波
MPEG文件中的视频信息是存储于频域而非空间域(即我们看到的图象)中的。信息通过这种方式得到压缩从而减少了信道中传播的信息量。MPEG通过离散余弦变换DCT(Discrete Cosine Transform)把空间域的信息变换到频域的信息。从MPEG流中提取出空间域的信息时,我们需要使用反离散余弦变换(IDCT)来抵消编码时做的离散余弦变换。
DCT和IDCT
其实就是一种离散傅立叶变换(DFT),只不过我们通过DFT得到的是复数,而DCT/IDCT变换的结果是整数。我们可以在DSP,通信系统等领域的大学课本中查到更详尽的相关信息。
小波是一种基空间。小波基可以有无穷种(比如Daubechies, Haar, Mexican Hat, "Spline", Zebra等等),但小波基的主要特性是它是局部化的。傅立叶函数跨越了整个空间(从负无穷到正无穷),而小波实际上是不同位置、不同尺度上的脉冲波。
压缩以后的数据分成了两部分。一般来说90%以上的数据通过低通滤波器,而高通滤波器会滤出数值非常小的细节数据(当然,如果信息源噪音很大的话这个自然不成立)。对于图像来说,使用这种方法的最大价值在于基的局部化,因此我们可以用小波来很好的模拟像边缘这些非连续的部分。使用小波以后就不会再出现那些奇怪的JPEG光环了。
IFO 文件
信息文件 (InFOrmation file) 通常存在与DVD中。这些文件包含了为DVD播放器导航的信息。
Interlaced 隔行扫描
Interlaced (隔行扫描)是一种视频存储模式一个交错的视频流不包含帧而是一些场,每个场包含了一帧里的一半数量的行(全部是odd或全部是even)。
Interleaving 交错
想象一下在一个特定点把音频和视频结合在一起,就是我们所说的交错。播放器会识别交错点,确保音频和视频在整部电影中按照粘合的点的规律来播放。
更详细地解释:假设我们有10秒钟的视频和10秒钟的音频片断。每一秒钟的视频用V表示 ,音频用A表示,那么如果你的交错设置为10秒,磁盘上的文件将是VVVVVVVVVVAAAAAAAAAA的形式。如果交错设置为1秒这里将是:VAVAVAVAVAVAVAVAVA。
Inverse Telecine
Telecine 的反向工程。此过程将29.97fps的片源还原为本来的24fps。
Keyframe 关键帧
一个完整的帧 (frame),但是此帧被尽可能的压缩了。
m1v/m2v
这两个术语分别被作为MPEG-1和MPEG-2视频数据的扩展(仅仅是视频,不包含任何音频)。
MPEG
MPEG意思是动态影像专家组 (Motion Picture Expert Group),通常它是视频格式的来源。这个专家组解释数字视频的标准(或规范),包括MPEG1标准(VCD)、MPEG2标准(用于DVD以及SVCD)、MPEG4标准以及若干音频标准包括MP3和AAC。使用MPEG-1或者MPEG-2标准的视频通常以.mpg或者.mpeg作为扩展名。
MPEG4
MPEG4是MPEG专家组 (MPEG Group) 所确定的一系列标准(或者规范),它将成为数字视频的下一标准(主要用于视频电话、因特网上的流媒体以及更多方面)。MPEG4允许运用多种编码方式,比如一个关键帧可以使用 ICT 或者 小波 以得到不同的输出质量。
MPG
MPG可以看作 MPEG 的缩写,也可以作为MPEG-1以及MPEG-2视频数据的扩展名。
MM4
Multiple MPEG 4: 不同比特率编码文件的组合.比如你能把2000kbit/s和910kbit/s编码的文件组合起来,采用比特率较低的文件,取代文件中由于和2000kbit/s的部分作用太多而导致严重失真的画面.这里也可以是两种DIVX编码的组合:你可以把低MOTION和高MOTION的文件合并起来(这里也可以使用不同的比特率)。
Multipass encoding 多通路编码
在你阅读之前:目前真正的多通路编码只存在WM8和MPEG-2(SCVD和miniDVD)中。M4C并不是真正的多通路编码(阅读M4C指南去寻找它究竟是什么和如何工作的)。一个支持多通路的编码将在第一个通路中分析将要被编码的视频流并把它遇到的任何东西都记录下来。假设我们有一个以对话场景开始的小片断,这其中有很少的剪切而且摄像机保持静止。然后它变成一场空手道打斗,这其中有大量的快速剪切和动作(人们在天空中飞行、踢、拳打等等)。在正常的CBR编码中每秒会获得大约相同的比特率(很难说保持100%的CBR但那是枝节了)但是在多通路VBR模式中编码将根据视频流的信息来使用相应的比特率,这就是说对话部分获得足够的比特率而打斗部分获得更高的比特率。通路越多比特率的分配就越细致。在单通路VBR中编码必须只根据它前面所编码东西的知识来决定使用多少的比特率。
Multiplexing 复用
通常视频和音频是分别编码的。然后你必须将他们合起来这样才能变成可以播放的电影(你当然能在两个播放器中分别播放音频和视频,但是同步将会变得相当困难)。在复用中音频和视频轨道合成为一个音频/视频流。音频和视频流似乎交织在一起,并在其中加入导航信息,使播放器能在快进/速退的采样中保持AV同步。
Normalizing 标准化
标准化包括找到一个音轨的容量峰值,然后增加音轨其余部分至同样等级。这通常在WAV等级完成,那就是说所有的变量都是整数因此不如DRC精确。所以在标准化中DRC更受喜爱。
OGM
OGM表示OGg媒体,是Tobias Waldvogel为Ogg container所做的增补,OGM可以看作是另一种 AVI container,它可以含有Ogg Vorbis、MP3、AC3音频、各种各样的视频格式、段落信息以及字幕。
PGC
PGC表示ProGram Chain。它是一个在DVD编写中经常使用的术语,基本上是一个同时回放东西。举例说电影主要部分有它自己的PGC,DVD上的每一个预告片通常有自己的PGC。当你播放碟片时出现的工作室标志有自己的PGC等等。SmartRipper的电影模式和DVD Decrypter的IFO模式将向你展示一张DVD上所有的PFC。要想进一步获得关于PGC的信息参阅 MPUCoder's DVD information site 网站。
Progressive 逐行扫描
与隔行扫描 (interlaced) 相对。一个只包括全帧 (frames) 的视频流被认为是逐行扫描的.逐行/隔行扫描的知识详见 video basics 。
Quantizer 量化因子
要想真正理解这个术语你必须学习信号处理的课程。在一般人的术语中它表示压缩因子。这个值越大一幅图象就压缩的越多(因此高量化因子意味着低图象质量和占空间小而低量化因子意味着高的图象质量和占用空间大)。
rff/tff 标记
RFF表示repeat first frame(重复第一帧),这是一项用来把源头以每秒24帧记录的电影转化称为需要的每秒29.97帧的技术。采用rff标记编码的电影-标记告诉播放器重复一场。Tff表示首先是顶上的场而且被用来实现telecine从而将24fps的电影制作为29.97fps的。
Ripping
关于这方面有很多的混乱。基本上ripping表示把DVD电影拷贝到你的硬盘上。这包括DVD驱动器的认证 (authentication) 过程(试图从DVD上拷贝下一个文件时,你将会看到一条消息:如果你的驱动器还没有被认证那么该操作是不受支持的)和真正的CSS解码 (Descrambling) 过程。CSS(Contentated Scrambling System数据干扰系统)是一种设计用来防止未授权地拷贝DVD电影的防拷贝方案,虽然许多人争论说它也是设计用来控制哪里的DVD电影可以播放,因为没有CSS许可要想播放DVD电影你实质上必须将其加密crack掉-我非常同意这一点。ripping这个词也经常用于(甚至在本站点)描述解码DVD的整个过程,然后把音频和视频转化称为另一种-更少的-格式。
SBC
Smart Bitrate Control智能比特率控制。一种新的称为Nandub的DivX编码器能在压缩过程中动态修改很多内部参数,给你更好的质量和更多的编码控制。更多信息可以参见 DivX指南部分中的SBC指南。
Streamlist 流目录
流目录是一个包括路径名和你的VOB文件名的ASCII测试文件,一行一个文件。这里有一个小例子:
e:\video_ts\vts_01_1.vob
e:\video_ts\vts_01_2.vob
e:\video_ts\vts_01_3.vob
e:\video_ts\vts_01_4.vob
e:\video_ts\vts_01_5.vob
把该文件保存为streamlist.txt或者streamlist.lst。确保你存成为未格式化的ASCII文本,我建议你用记事本来编辑你的流目录,因为记事本不会存成为另一种格式。MPeg2avi要求流目录的扩展名是lst,然而在其他程序使用流目录的时候你可以自由选择任意的扩展名。但是GUI在选择输入文件名/扩展名是有所限制,所以如果流目录没有在文件选择对话框中出现的话,那么你必须重命名你的流目录。
Telecine
把24fps的片源转换成29.97fps或29.97x2交错场/秒。
VBR
变码率。将音频和视频均以VBR模式编码是可能的,在整个文件中码率将不会固定不变(就像在CBR中固定不变一样),视频/音频中较复杂的部分将会使用更高的码率以获得更佳的视/听觉感受,而其它部分则获得较少的码率。
VKI
可变关键帧间隔。其基本意思即在需要关键帧的地方不再象通常的DivX编码解码器那样按照固定的间隔插入。有两种实现VKI的方法:第一种方法是编码器解开压缩的帧,将其与原始的比较,如果品质差别高于一个设定的极限值就重新编码。这种编码方法只适用于一种特定程序:M4C。有一种基于命令行的版本和一种可供AviUtl使用的插件(后者在AviUtl向导中有详细介绍)。如果有把极限值设定的过高那么你最后将得到许多关键帧还有第二种方法,其主要是在场景变换的时候插入关键帧。为了达到这个目的编码程序或者编码解码器会侦测到哪个位置有一个所谓的“cut”(就象电影制作者所使用的)存在并且使新场景的第一帧成为关键帧。这可以通过使用mpeg2aviAr(AviRevolution的一部分),m4c或者通过安装DivX VKI编码解码器来实现。如果你使用后者就不用担心编码器。每个可以进行DivX编码的程序都可以使文件在场景变换处有关键帧。当VKI被合理地使用时(只适用于第一种方法),可以帮助你增减关键帧数量,从而再次得到更高品质,这是因为尤其在低比特率时,太多的关键帧将会带来更糟糕的品质。
VM2
VKI + MM4 + VBR MP3的缩写
VOB ID
VOB ID用来将DVD中一个PGC内的Cell归为一组。
VOB Files
所有的DVD影片都存储在vob文件中。vob文件通常包含混在一起的杜比数码音频和MPEG2格式的视频。vob文件按以下形式命名:vts_XX_y.vob,这里的XX代表标题Y代表这一标题的某一部分。总共可以有99个标题和10个部分,虽然 vts_XX_0.vob 从来不包括任何视频,通常只是菜单或者导航信息。有两种方法来找出哪个文件包含着电影的主体:
方法一:用DVD播放器播放电影,然后观察单机的指示灯或者软件播放器的状态窗口;
方法二:电影的主体是数字连续的VOB文件中数字最大的那个。比如有vts_05_1.vob;
vts_05_2.vob……vts_05_8.vob(我从来没有看到过包含9部分文件的电影,但那并不意味着不存在)。
VTS
VTS是视频标题集的简称,也就是说是一连串VOB文件和相应的IFO和BUP文件的合集。举例来说,VTS2将会包含VTS_02_0.VOB(包含菜单)、VTS_02_1.VOB、VTS_02_2. VOB等等,以及VTS_02_0.IFO和VTS_02_0.BUP等文件。VTS用来将视频材料以及其附属文件归为一组。举例来说,一个VTS通常来说用于主影片(而有时还会包括预告片和某些影片公司的logo),别的VTS用于花絮。
Windows Media
Microsoft版权所有的个人电脑音频和视频体系.它是基于一系列的编码,这些编码被WindowsMedia Player用来播放任何其所支持的格式文件.最新版本的WindowsMedia Player是7.0版.WindowsMedia 7.0提供了一系列的新的编码,其中包括一个完全兼容ISO的MPEG4编码(名为Windows Video V1),一个名为MS Video V7的改进了的MPEG-4编码(尽管我并没有发现它和DivX基于的MS Windows Video V3相比有任何的改进),这种编码支持Deinterlacing和Inverse Telecine.
XCD
eXtended CD是一种即将到来的(能否译作下一代?感觉不太合适)CD格式,这种格式允许用mode2的第二种形式来刻录你的CD,这基本上就意味着它含有较少的校验码,从而你可以在单张CD上存储更多的数据。XCD允许你在一张普通的700MB CD里存储800MB的数据。正如我所说得那样,由于只有较少的校验码,XCD不是非常可靠所以建议你只把container中具有附加校验的数据(比如说OGM)放到这种CD中。
XviD
XviD是个文字游戏。把它倒过来读,你就会看到一个熟悉的词。XviD是一种开放源码的MPEG-4编码解码器,通过它你能得到比最好的DivX编码解码器更佳的效果。XviD的主页可以查阅这里