由于原始音频数据(PCM数据)体积很大,不利于存储和传输,所以需要压缩。压缩技术也被称为编码技术(Encode),二者基本上是同样的意思。编码技术有很多种,比如 MP3 技术,将 PCM 数据编码之后,会形成新的文件,一般来说使用哪种编码技术,生成的文件就被称为这种格式的文件,有对应的后缀名。例如 MP3 编码生成的文件就是 .mp3 文件,反过来说,.mp3 文件就是使用了 MP3 编码技术生成的文件。
音乐播放器在播放 .mp3 文件时,需要按照一定的方式读取其中的数据,这个过程就叫做解压缩或解码(Decode)。一种编码技术必然包含对应的解码技术,就如同你可以使用压缩软件进行压缩,也可以用它进行解压缩。编解码合起来的英文单词是 Codec。
比特率(bitrate)也叫码率,是音视频当中非常重要的一个概念。音频的比特率是指将模拟声音信号转换成数字声音信号后,单位时间内的二进制数据量,单位是 bit/s 或bps,注意是小写的 b,即 bit。视频的比特率我们后面讲到的时候会再说。
假设采样频率为44.1kHz,比特深度为 16,立体声双声道,这样录制的 PCM 原始音频的比特率为:44100 * 16 * 2 = 1411200 bps = 1411.2 Kbps。
PCM在录制的时候,比特率为 1411.2 Kbps,约 1.4 Mbps 每秒,那么在播放的时候,同样得是这个比特率,本地播放还好,但是如果是在线播放,带宽压力就很大了。以今天动不动就 100Mbps的带宽来看,这不是什么问题,但是当年的带宽可是只有现在的几十分之一甚至百分之一,所以必须压缩。
音频压缩技术有两种压缩方式,分别是有损压缩和无损压缩。常见到的 MP3、WMA 都是有损压缩,有损压缩会降低原始音频的采样频率和比特深度,并且会移除原始音频中不容易被人耳听到的声音,例如极高频和极低频,以及被强低频遮蔽的高频声音等等。
另一种音频压缩被称为无损压缩,无损压缩能够在100%保存原始音频的所有数据的前提下,将音频文件的体积压缩的更小,而将压缩后的音频文件还原后,能够实现与源文件相同的大小、相同比特率。
无论有损压缩还是无所压缩,都使用了复杂的算法,将原始音频中的数据按照一定的格式重新组织,以此来降低数据量,从而减小比特率。只不过有损压缩无法完全还原,而无法压缩可以完全还原。
常见的无损压缩有如下几种:
常见的有损压缩格式有:MP3,WMA,AAC,OGG。后面会更详细的介绍。
MPEG(Moving Picture Experts Group,动态图像专家组)是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。
该专家组建于1988年,专门负责为 CD 建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。后来,他们制定出 MPEG-X 标准,令音视频传播方面进入了数字时代,现在大家说的指的 MPEG-X 版本,就是由 这个组织所制定而发布的视频、音频、数据的压缩标准。广为人知的 MP3,MP4,AAC,以及一些视频编码技术都和这些标准相关。
总之,研究音视频编解码技术,MPEG 是个绕不开的组织,后面还会多次提到。
MP3 全称是 Moving Picture Experts Group Audio Layer III,即 MPEG Audio Player3,简称为MP3。它被设计用来大幅度地降低音频数据量。MP3 压缩技术可以将音乐以1:10 甚至 1:12 的压缩率压缩成容量较小的文件,而对于大多数用户来说,压缩后的音质与原始音频相比没有明显的下降。
MP3 利用人耳对高频声音信号不敏感的特性,将 PCM 数据中的声音按照频率划分成多个频段,对不同的频段使用不同的压缩率,对高频加大压缩比(甚至忽略信号),对低频使用小压缩比,保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音,只保留能听到的低频部分,从而将声音用1:10甚至1:12的压缩率压缩。MP3 的比特率一般介于128kbps和320kbps之间,完全可以满足在线播放的需求。
用MP3形式存储的音乐就叫作MP3音乐,能播放MP3音乐的机器就叫作MP3播放器。在刚刚问世时,MP3 非常流行,网上能下载到的大部分音乐都是 MP3 格式,MP3 播放器也非常流行,深受音乐爱好者的欢迎,在国内可以说是90后的集体回忆。然而随着新的压缩技术的出现,以及消费者转向智能手机等原因,现在 MP3 播放器已经慢慢消亡。
WMA(Windows Media Audio)是微软在互联网音视频领域的力作。WMA 格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的 ,其压缩率可以达到1:18。
以前我们只要提到下载音乐,第一反应就是MP3,其实 MP3 已经不如当年流行,WMA 在压缩比和音质方面都超过了MP3,现在绝大多数在线音频试听网站都使用 WMA。
只可惜 WMA 有两个缺点:一是当比特率小于128Kbps时,WMA 几乎在同级别的所有有损编码格式中表现得最出色,但是超过 128Kbps 后,音质提升就不大了;二是 WMA 标准不开放,完全掌握在微软手里。
AAC(Advanced Audio Coding),中文名:高级音频编码。出现于1997年,由Fraunhofer IIS、杜比实验室、AT&T、索尼、诺基亚等公司共同开发,目的是取代MP3格式。与MP3不同,它采用了全新的算法进行编码,更加高效,相对于 MP3,AAC格式的音质更佳,文件更小。
苹果的iPod和iPod mini都能播放16-320Kbps的AAC文件,在加上苹果倾力打造的iTunes音乐播放器,为AAC格式文件的传播提供了便利。之后多家公司跟进,AAC 现在是除了 MP3 和 WMA 之外最流行的音频格式。
总的来讲,AAC可以说是极为全面的编码方式,高码率下音质非常出色,低码率下也能保持不错的音质,非常适合移动通讯、网络电话、在线广播等领域,此外,AAC 经常用于视频中音频轨的编码。
Ogg全称是OGG Vorbis, Ogg是完全免费、开放和没有专利限制的音频编码技术。OggVorbis文件的扩展名是".ogg"。Ogg文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。
可惜 Ogg 出现得太迟了,在播放设备支持方面不如 MP3 和 AAC,在流媒体方面,WMA 已经是垄断地位,所以 Ogg 一直没有普及开来。
我们介绍了一些音频压缩技术,简单说了下原理,但是没有介绍具体的算法。具体算法都很复杂,暂时不是我们研究的重点,以后有机会详细讲。
还是要注意一个关键的概念:比特率,即码率,后面我们在视频部分还会遇到比特率的概念。