什么是MP3文件比特率[转贴]

Technorati 标签: mp3, bit ratio

摘自：http://digi.maddiy.com/mp3/diy/2007-05-22/2600.html

数字音频格式即以数字形式进行记录、处理和播放的音频信号。数字音频格式的出现，是为了满足高保真复制、存储、传输的需求。简单的说，早期的模拟音频格式，存在着复制失真和因为介质磨损而失效的问题。从CD盘的问世开始，数字格式音频文件开始普及，但又产生了一个问题——存储体积上的限制，同时CD盘仍然存在磨损的现象。如果保存到硬盘上（相对存储时间更长），在当时存储介质（主要是硬盘）仍然昂贵的情况下，也不是好的解决方法。而互联网的出现，更产生了远距离传输文件的要求，在带宽的制约下，缩小文件体积的需求变得更加强烈，这些都从外部因素上导致了有损压缩数字音频格式产生！

而从内部因素来说，随着电脑运算、编码能力的提高，各种声学心理模式的进步，促进了各种有损压缩数字音频格式的层出不穷。以下简要介绍一些在MP3随身听上广泛使用的音频格式——MP3（CBR、VBR、ABR）、WMA、WAV、ADPCM，以及新兴的音频格式AAC、ASF和OGG。

在介绍几种数字音频格式之前，我们先来明晰一个概念——Bit Rate（比特率）。

在计算机领域中，所有的资料都是被数字化的，比特（Bit）是电脑中最小的数据单位，指一个0或者1的数，也就是数学上的二进制数字，一个“0”或“1”，就是一个位。例如当我们说一个2位的数字，就是指它是一个两位数的二进制数字，有“00”、“01”、“10”、“11”这4种组合，分别代表十进制中的0、1、2、3四个数字。

比特率是一种数字音乐压缩效率的参考性指标，比特率表示单位时间（1秒）内传送的比特数bps（bit per second，位/秒），通常我们使用kbps（通俗地讲就是每秒钟1000比特）作为单位。CD中的数字音乐比特率为1411.2kbps（也就是记录1秒钟的CD音乐，需要1411.2×1024比特的数据）。音乐文件的比特率越高，意味着在单位时间（1秒）内需要处理的数据量（Bit）越多，也就表明音乐文件的音质越好。但是，比特率高时文件大小变大，会占据很多的存储容量，MP3音乐文件最常用的bit rate是128kbps，MP3文件可以使用的比特率一般是8～320kbps。

--------------------------------------------------------------------------------

1、 WMA（Windows Media Audio，视窗媒体音频）

作为微软公司的多媒体压缩方式，它是在Windows Media Technologies中只压缩音频数据的那一部分技术，音质类似MP3，能以MP3一半的技术完成压缩。它具有版权所有的Windows Media Rights Manager，可通过安装在WMP（Windows Media Player，视窗媒体播放器）进行播放。由于微软和Windows的强大影响力，以及最重要的版权原因，美国的主要唱片公司EMI和BMG公司等正式确定使用由微软公司开发生产的WMA方式。相信，今后这种先进方式会得到进一步的普及。

2、 MP3（CBR、VBR、ABR）

MP3是目前使用用户最多、应用最为广泛的有损压缩数字音频格式，在前文已经做过解释，在此不再复述。

CBR（Constant Bit Rate，固定比特率）

CBR是最古老最简单的MP3编码（压缩）方式。采用此法编码时，整个文件的比特率都是一样的，换言之，MP3文件每秒使用的比特率都是一样。尽管音乐文件有复杂程度不同的段落，编码器始终把比特率保持一致，除非你用最高音质，否则，MP3文件中不同段落的音质会有变化。越是复杂的段落，其音质就越差。它的最大优点是文件的尺寸固定，便于计算存储的空间。

VBR（Variable Bit Rate，可变比特率）

VBR是一种可变编码速率的MP3压缩方式，其原理就是将一首歌的复杂部分用高比特率编码，简单部分用低比特率编码，通过这种动态调整编码速率的方式，进一步得到音质和文件体积之间的平衡。它的主要优点是可以让整首歌都能大致达到我们的音质要求，缺点是编码时无法估计压缩出来的文件体积大小。

现在推出的MP3随身听大部分都支持VBR了，不过有些机器虽然能够播放VBR格式的歌曲，但是不能够正确显示播放时间，目前许多高品质的MP3音乐都是采用VBR编码的。

ABR（Average Bit Rate，平均比特率）

ABR是VBR的一种插值参数，它是在VBR的基础上发展出来的一种编码方式，是针对CBR较大的文件体积和VBR生成文件体积大小不定的特点创造了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以作为VBR和CBR的一种折中选择。

3、 WMA（Windows Media Audio，视窗媒体音频）

WMA是微软公司的多媒体压缩方式，它是在微软视窗媒体技术中只压缩音频数据的技术，音质类似MP3。从压缩比角度来说，在低于192kbps的编码速率条件下，WMA可以在同样音质条件下获得比MP3文件更小的体积——甚至一半（但当编码速率高于192kbps时，普遍的反映是MP3的音质要好于WMA）。微软官方宣布的资料中称WMA格式的可保护性极强，甚至可以限定播放机器、播放时间及播放次数，具有相当的版权保护能力。

4、 WAV（声音资源文件）

WAV是一种波形文件，直接记录声音的波形，未被压缩，从CD抓取的音轨就是wav文件，体积大。

5、 ADPCM

ADPCM是Adaptive Differential Pulse Code Modulation的缩写，全名为自适应差分脉冲编码，也是一种有损压缩数字音频格式。这个格式常用在MP3随身听的录音方面，它可以提供极高的压缩比，一般128MB的MP3随身听最长可以记录16小时的录音，但追求录音时间过长是以牺牲音质为代价的。

6、 AAC（Advanced Audio Coding，高级音频编码）

AAC是由Fraunhofer研究院（MP3格式的创造者）、杜比（DOLBY）试验室和AT&T（美国电话电报公司）共同研发出的一种有损压缩音频格式，是MPEG-2规范的一部分。与MP3相比，AAC增加了对立体声的完美再现、码流效果音扫描、多媒体控制、降噪优化等MP3音频格式所没有的特性，同时还支持更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30％的前提下提供更好的音质。

不过，在目前的MP3随身听上，仅有少数几家应用了这一格式。

7、 ASF（Advanced Streaming Format，高级流动格式）

ASF是微软公司针对Real公司开发的新一代网上流式数字音频压缩技术。这种压缩技术的特点是同时兼顾了保真度和网络传输需求，所以具有一定的先进性。也是由于微软的影响力，这种音频格式现在正获得越来越多的支持。

8、 OGG Vorbis格式

OGG是一个庞大的多媒体开发计划的项目名称，涉及视频音频等方面的编码开发。OGG Vorbis是高质量的音频编码方案，它比MP3先进在于可以支持多声道编码。官方数据显示，OGG Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。但由于随身听使用耳机播放的局限，即便是经过多声道（两声道以上）编码的OGG Vorbis格式音频文件，用耳机收听也感受不到环绕效果，因为耳机只提供双声道输出。

什么是MP3

摘自：http://zhidao.baidu.com/question/2839473.html?fr=qrl

MP3的全称是Moving Picture Experts Group, Audio Layer III,它所使用的技术是在VCD

MPEG声音标准提供三个独立的压缩层次：层1(Layer 1)、层2(Layer 2)和层3(Layer 3)，用户对层次的选择可在复杂性和声音质量之间进行权衡。
① 层1的编码器最为简单，编码器的输出数据率为384 kb/s，主要用于小型数字盒式磁带(digital compact cassette，DCC)。
② 层2的编码器的复杂程度属中等，编码器的输出数据率为256 kb/s～192 kb/s，其应用包括数字广播声音(digital broadcast audio，DBA)、数字音乐、CD-I(compact disc-interactive)和VCD(video compact disc)等。
③ 层3的编码器最为复杂，编码器的输出数据率为64 kb/s，主要应用于ISDN上的声音传输。

Mpeg-1 lay 3支持的采样率为32,44.1,48khz,比特率支持32---320kbps
Mpeg-2 lay 3支持的采样率为16,22.05,24khz,比特率支持8---160kbps
Fraunhofer对此又进行扩展，将原来MPEG-2所支持的低采样率再除以2，得到： 8, 11.025, 和 12 kHz，比特率跟MPEG-2相同，称为 "MPEG 2.5"。
MP3文件可以以不同比特率进行编码，比特率越小，压出来的文件也越小，当然失真也越大。至于它的品质，只要不是太夸张的压缩比，一般人的耳朵是听不出来的，一般来说128kbps已经相当于CD的音质了。
Mp3是怎样压缩数据的
MP3 压缩时运用到五个重要的技巧，分别是最小听觉门槛判定 (The minimal audition threshold) ，遮蔽效应 (The Masking effect) ，位元储存槽 (The reservoir of byres) ， The Joint Stereo ，和 Huffman 编码。
最小听觉门槛判定是一种减少资料量的手段，因为人耳对不同频率的声音听到的音量反应不是平直的，因此我们可以将大部分的纪录资讯集中在人耳最灵敏的 2kHz 到 5kHz ，其余频率分配比较少的容量纪录。
遮蔽效应也是听觉心理学模型 (Psychoacoustic models)的一种，它是指一个声音A能感知的阀值因另一个声音B的出现而提高的现象，这时B叫遮蔽声，A叫被遮蔽声；在视觉上呈现的效果就是在大太阳下你比较难看到天空中飞翔的鸟，听觉上的涵义就是当有一个音量或音色特别突出的声音出现，其他细小的声音就比较难被察觉，就像是管弦乐团齐奏时我们很难发现有观众的咳嗽声，尽管咳嗽的音量与没有其他声音时其实是相同的。因此在编码时我们不需要把所有的声音细节都编进去，而该把资料拿去纪录比较突出容易引起注意的声音。
在解释前位元储存槽之前要先说明 MP3 的几个属性 CBR 和 VBR 。 CBR 是 Constant Bitrate 的缩写，也就是说该 MP3 每秒钟的资料流量是固定的，常见的 MP3 都是以 CBR 编码，好处是压缩速度快。相对的 VBR 是 Variable Bitrate的缩写，每秒钟的流量是可以变化的，好处是在讯号复杂时用比较多的容量去纪录，波型简单时就用比较低的流量，以有效利用空间。 CBR 的缺点就是每秒钟的流量都相同，很容易造成空间的浪费，因此有 reservoir of byres 的出现，用途就是当波型简单时就不要用那么大的流量，把多余的空间保留下来储存将来比较复杂的波性资料，维持流量的大小，达到类似 VBR 的效果。 VBR 的 MP3 并不需要 reservoir of byres 。
Joint Stereo 是一种立体声编码技巧，主要分为 Intensity Stereo(IS) 和 Mid/Side (M/S) stereo 两种。 IS 的是在比较低流量时使用，利用了人耳对于低频讯号指向性分辨能力的不足，将音讯资料中的低频分解出来合成单声道资料，剩余的高频资料则合成另一个单声道资料，并另外纪录高频资料的位置资讯，来重建立体声的效果。例如钢琴独奏的录音就可以利用这种方法在有限的资料流量中减少音场资讯却大幅增加音色资讯。Mid/Side (M/S) stereo 在左右声道资料相似度大时常被用到，纪录方式是将左右声道音讯合并 (L+R) 得到新的一轨，再将左右声道音讯相减 (L-R) 得到另外一轨，然后再将这两轨资料用上面提到听觉心理学模型与滤波器处理。 Mid/Side (M/S) stereo 与 IS 一样的是利用部分相位 (phase) 资讯的损失来换得较高的音色纪录资讯。一般的 MP3 是 Mid/Side stereo 和 Intensity Stereo 交替使用的，视资料内容与流量而定。如果是更高流量如 160kbps 以上的 MP3 ，则可以单独将立体声的两个声道独立编码，以保存相位资讯。
Huffman 编码 (coding) 是一种常见的无失真压缩方案。当 PCM 讯号被分成好几个频段并经过以上的处理之后，最后就是经过一种类似 FFT(Fast Fourier Transforms) 的运算称为 MDCT(Modified Discrete Cosine Transform) ，将波型转换为一连串的系数。这些系数最后就要经过 Huffman 编码来做最后的压缩。 Huffman 编码的原理是将比较常出现的字串用特定的符号表示，压缩后就得到一个纪录每个符号代表的字串的编码表以及一连串由各符号组成的资料内容。 Huffman 编码可以节省约 20% 的空间，而也因为经过了 Huffman 编码，我们可以发现用 WinZip 、 WinRAR 之类的压缩软体并没有办法把 MP3压缩小多少，理由就是因为这些压缩软体也是利用类似 Huffman 编码的技巧，因此压缩程度有限。(以上关于 MP3 编码的资料取自 http://www.mp3-tech.org/tech.html 。)
MP3 播放时的运算远比编码时简单，只要先经过 Huffman 解码再由 MDTC 的逆运算重建波型就可以了，值得注意的是 MP3不同于PCM没有bits的概念，我们可以自由使用 16bits 或是 20bits 甚至 24bits 的运算精度来重建波型。

什么是MP3文件比特率[转贴]

你可能感兴趣的:(什么是MP3文件比特率[转贴])