数字音频以及音频编码

1 导言

上一篇讲了声音的物理性质,了解了与声音有关的术语。这篇就讲讲如何将声音模拟成数字信号，然后再还原出来。

采样是在时间轴上对信号进行数字化的过程，根据奈奎斯特定理（采样定理）使用比声音最高频率的两倍以上的频率对声音进行采样(AD转换)。人耳能够识别声音的最高频率为20kHz,它的两倍多一点就是44.1kHz，所以人们通常使用44.1kHz来作为声音的采样频率，它1秒可采样44100次。

量化是指在幅度轴上对信号进行数字化，用来表示每一个采样的数据。如果用 16bit 的二进制信号来表示声音的一个采样它就有 65536 个可能取值，最终模拟的音频信号在幅度上分为 65536 层。

假设我们现在记录了一段长达一秒的声音，将其分成了 44100 份放在了二维坐标的横坐标上，而纵坐标放的就是对采样数据的量化，分为 65536 层。编码就可以理解为将声音信号按照类似上的方法数字化的过程，通常有顺序存储和压缩存储。

编码涉及很多格式，主要有以下几个概念。

以 CD 音质为例

量化格式：16bit = 2B

采样率：44100Hz = 44.1kHz

声道数：2

比特率：16 * 44100 * 2 = 1411.200 kbps

使用比特率可以计算出一分钟 CD 音质的音频大小
1411.2 / 8 / 1024 * 60 = 10.336 Mb

我们可以通过音乐播放器查看音频文件的相关信息。

通过编码我们成功的将声音转化成了数字信号，但是每一分钟就需要大约 10M 的存储空间的音频显然不合适在网络上进行广泛的传播的，这时我们可以对原始数据进行压缩处理,原理是压缩掉冗余信号（不被人耳感知），冗余信号也分为频域冗余和时域冗余。

压缩的指标：压缩比（通常比 1 小）

压缩算法分为以下两类

常见的音频压缩算法