数字音频

数字音频以及音频编码

目录

  • 1 导言
  • 2 采样
  • 3 量化
  • 4 编码
  • 5 压缩
  • 参考

1 导言

上一篇讲了声音的物理性质,了解了与声音有关的术语。这篇就讲讲如何将声音模拟成数字信号,然后再还原出来。

2 采样

采样是在时间轴上对信号进行数字化的过程,根据奈奎斯特定理(采样定理)使用比声音最高频率的两倍以上的频率对声音进行采样(AD转换)。人耳能够识别声音的最高频率为20kHz,它的两倍多一点就是44.1kHz,所以人们通常使用44.1kHz来作为声音的采样频率,它1秒可采样44100次。

数字音频_第1张图片

3 量化

量化是指在幅度轴上对信号进行数字化,用来表示每一个采样的数据。如果用 16bit 的二进制信号来表示声音的一个采样它就有 65536 个可能取值,最终模拟的音频信号在幅度上分为 65536 层。

数字音频_第2张图片

4 编码

假设我们现在记录了一段长达一秒的声音,将其分成了 44100 份放在了二维坐标的横坐标上,而纵坐标放的就是对采样数据的量化,分为 65536 层。编码就可以理解为将声音信号按照类似上的方法数字化的过程,通常有顺序存储和压缩存储。

编码涉及很多格式,主要有以下几个概念。

  • 脉冲编码调制数据(PCM 音频的裸数据)
    • 量化格式(位深度):纵坐标
    • 采样率:横坐标
    • 声道数:左右耳听到的声音
    • 比特率:一秒时间内的比特数目

以 CD 音质为例

  • 量化格式:16bit = 2B
  • 采样率:44100Hz = 44.1kHz
  • 声道数:2
  • 比特率:16 * 44100 * 2 = 1411.200 kbps

使用比特率可以计算出一分钟 CD 音质的音频大小
1411.2 / 8 / 1024 * 60 = 10.336 Mb

我们可以通过音乐播放器查看音频文件的相关信息。


数字音频_第3张图片

5 压缩

通过编码我们成功的将声音转化成了数字信号,但是每一分钟就需要大约 10M 的存储空间的音频显然不合适在网络上进行广泛的传播的,这时我们可以对原始数据进行压缩处理,原理是压缩掉冗余信号(不被人耳感知),冗余信号也分为频域冗余和时域冗余。

压缩的指标:压缩比(通常比 1 小)

压缩算法分为以下两类

  • 无损压缩:解压后可以完全复原
  • 有损压缩:解压后不可复原,压缩比越小丢失的信息越多。

常见的音频压缩算法

  • PCM:
  • WAV:原始数据,音质好
  • AAC:低码率下表现优异,多用于视频中音轨编码。
  • MP3:体积小,中高码率听感上接近 WAV ,兼容性高。
  • Ogg:免费,算法好,相比MP3低码率也能便显出更好的音质,缺点兼容性不高,多用于语音聊天。

参考

  • 音视频开发进阶指南:基于Android与iOS平台的实践
  • 字节、字、位、比特

你可能感兴趣的:(数字音频)