声音如何保存成数字信号

声音如何从外界采集?
以麦克风为例,
声音如何保存成数字信号_第1张图片

  1. 首先,声波通过空气传播到麦克风的振膜。
  2. 然后,振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号(Analog Signal)。
  3. 最后,通过 A/DC(模数转换器)将模拟信号转换成数字信号(Digital Signal)。即通过 PCM(Pulse Code Modulation)脉冲编码调制对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号。

这样我们就实现了音频信号的采集,我们常说的 PCM 文件就是未经封装的音频原始文件或者叫做音频“裸数据”。那么具体音频的数字信号是怎么构成的呢?这就涉及到下面的 3 个基本概念:采样位深、采样率和通道数。

  1. 采样位深
    采样位深也就是每个采样点用多少 bit 来表示。比如位深是 16 就代表每个采样点需要 16bit 来进行存储。
    从物理意义上来说,位深代表的是振动幅度的表达精确程度或者说粒度。假设数字信号是一个 1 到 -1 的区间,如果位深为 16bit,那么第 1 个 bit 表示正负号,并且剩下的 15 个 bit 可以表征 0~32767 个数,那么振幅就可以精确到 1/32768 的粒度了。我们一般在网络电话中用的就是 16bit 的位深,这样不太会影响听感,并且存储和传输的耗费也不是很大。
    而在做音乐或者更高保真度要求的场景中则可以使用 32bit 甚至 64bit 的位深来减少失真。8bit 时
    失真
    就比较严重了。早期受到音频技术条件限制,很多音频都是 8bit 的,声音会显得比较模糊,如今也只有一些电话和对讲机等设备还有使用。

  2. 采样率
    采样率就是 1 秒内采集到的采样点的个数,一般用赫兹 Hz 来表示。比如 1 秒有 48000 个采样点那么采样率就是 48000Hz(48kHz)。
    根据奈奎斯特采样定理在进行模拟 / 数字信号的转换过程中,当采样频率 fs 大于信号中最高频率 fmax 的 2 倍时(fs > 2fmax),采样之后的数字信号才可以完整地保留原始信号中的信息。也就是说采样率和保留的声音频率基本上是 2 倍的关系。
    声音如何保存成数字信号_第2张图片
    由图 可知,16kHz 采样率的音频在 8kHz 以上的频谱基本是没有能量的(黑色),也就是说这部分高频的信息由于采样率不够已经丢失了。从听感上来说人耳可以听到的频率范围大概是 50~20kHz 之间。如果采样率不够,那么和实际听感比起来声音就会显得“低沉”或者说“”。

那么采样率是不是越高越好呢?

  • 如果只是为了听见人声、听懂对方在说什么,那么为了节省传输码率我们可以把采样率降到 8kHz(比如打电话)。
  • 而在网络音视频会议场景需要平衡音质和传输带宽消耗,我们一般可以使用 16kHz 或者 32kHz 的采样率。
  • 如果是开线上音乐会或者音乐直播,我们通常会用较高的采样率来保证音质,比如 44.1kHz 或者 48kHz。更极端一点,在音乐制作录音的时候,我们会采用 96kHz 甚至更高的采样率来方便后续的调音和制作(注意,是采样率,不是声音频率)。

通道数

  • 你可能在平时买音响的时候听过 2.1 声道或者 5.1 声道等名词,这些数字代表了有多少个播放单元。比如,2.1 声道中的 2 指的是左右两个音箱,1 指的是中间一个低音音箱(如图 4 所示)。每个音箱都会播放一个单独的音频,这时候就需要同时有 3 路音频信号同时播放,或者叫通道数为 3。
    声音如何保存成数字信号_第3张图片

  • 除了播放需要多声道以外,采集也可能采集到多通道的数据。比如麦克风阵列采集到的原始信号,有多少个麦克风就会有多少个通道的音频信号。

因此,这里通道数的物理含义其实就是同一时间采集或播放的音频信号的总数。

由此衍生出另外两个数值,存储空间,比特带宽

  • 一个 PCM 音频文件的存储大小就是采样位深、采样率、通道数和持续时间的累乘。
  • 实时传输所需的带宽就是它每秒所需的比特带宽。因此也就比前者少乘一个持续时间。

由此可见,原始声音数据会耗费大量空间和带宽,因此一种压缩文件的算法势在产生,也是就需要一种解/编码工具

以解码后数据是否有损,可以把这些压缩算法分为有损/无损音频编码封装格式
声音如何保存成数字信号_第4张图片
其中wav是一种可以快速封装pcm文件的压缩算法。

你可能感兴趣的:(音视频)