音频学习笔记

1. 声音基础知识

1.1 声音的产生

外界传来的声音引起人耳鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经传给大脑，这样就听到了声音。

1.2 人耳听觉的频率范围约20Hz-20KHz。

1.3 声音三要素：音调、响度、音色。

音调：声音的高低，由频率决定，频率越高音调越高。
响度：又称音量、音强，由振幅和距离声源的距离决定。
音色：又称音品，由发声物体本身材料、结构决定。

1.4 声道：是分开录音然后结合起来以便同时听到的一段声音。

单声道：单声道是指把来自不同方位的音频信号混合后统一由录音器材把它记录下来，再由一只音箱进行重放。在单声道的音响器材中，你只能感受到声音、音乐的前后位置及音色、音量的大小，而不能感受到声音从左到右等横向的移动。
双声道：双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置，在电路上它们往往各自传递的电信号是不一样的，电声学家在追求立体声的过程中，由于技术的限制，在最早的时候只有采用双声道来实现。
立体声：就是指具有立体感的声音。是一个几何概念，是指在三维空间中占有位置的事物。因为声源有确定的空间位置，声音有确定的方向来源，人们的听觉有辨别声源方位的能力，尤其是有多个声源同时发声时，人们可以凭听觉感知各个声源在空间的位置分布状况。

2. 认识数字音频

2.1 模拟信号

模拟信号：音频信号是典型的连续信号，在时间和幅度上都是连续的。在任何一个特定的时间点都有一个对应是幅值。我们把时间和幅度上都是连续的信号称为模拟信号。

2.2 数字信号

数字信号：在某些特定的时刻对这种模拟信号进行测量叫做采样。在有限个特点时间的采样得到的信号叫做离散时间信号。采到的幅值是一个实数，因此幅度还是一个连续的值，当我们将幅值限定为有限个数值，就称为离散数值信号。我们把时间和幅值都用离散的值表示的时候，此时表示的信号就是数字信号。

2.3 数字音频相关知识

人们日常生活听到的各种声音信息是典型的连续信号，它不仅在时间上连续，而且在幅度上也连续，我们称之为模拟音频。在数字音频技术产生之前，我们只能用磁带或胶木唱片来存储模拟音频，随着技术的发展，声音信号逐渐过渡到了数字化存储阶段，可以用计算机等设备将它们存储起来。
模拟音频数字化：对于计算机来说，处理和存储的只可以是二进制数，所以在使用计算机处理和存储声音信号之前，我们必须使用模数转换（A/D）技术将模拟音频转化为二进制数，这样模拟音频就转化为数字音频了。所谓模数转换就是将模拟信号转化为数字信号，模数转换的过程包括采样、量化和编码三个步骤。模拟音频向数字音频的转换是在计算机的声卡中完成的。
采样：采样是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本，把连续的模拟量用一个个离散的点表示出来，使其成为时间上离散的脉冲序列。
著名的采样定理（Nyquist 定理）中给出有明确的答案：要想不产生低频失真，采样频率至少应为所要录制的音频的最高频率的2 倍。例如，电话话音的信号频率约为3.4 kHz ，采样频率就应该≥6.8 kHz ，考虑到信号的衰减等因素，一般取为8kHz 。
量化：将采样后离散信号的幅度用二进制数表示出来的过程称为量化。每个采样点所能表示的二进制位数称为量化精度，或量化位数。量化精度反映了度量声音波形幅度的精度。
编码：采样和量化后的信号还不是数字信号，需要将它转化为数字编码脉冲，这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。
PCM编码： PCM（Pulse Code Modulation），即脉冲编码调制，指模拟音频信号只经过采样、模数转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。

3. 音频的传输

3.1 非平衡音频信号

非平衡音频：使用两根线（一根信号线，一根地线）传送一路（单声道）音频信号。非平衡音频传输过程中信号不稳定，举例说明：比如我们需要将音频信号A从一段传送到另一端，这个过程会有其他型号进入到这一根线，比如电脑的wifi信号B，手机产生的信号C等。等到音频接收端收到的信号就变为了信号A+B+C。

3.2 平衡音频信号

平衡音频信号：使用三跟线（分别是热端、冷端、地线）来传送一路音频信号。传输原理：热端和冷端传送的信号是同一个信号，信号的发送端把一个声音信号分成两路，一路正相进入热端，一个反相后进入冷端。在信号的接收端把冷端进行反相和热端合并，得到最终的信号。
抗干扰原理：我们将音频信号A从一端发送另一端。在发送前，先兵分两路，让原始的A进入热端，把A做一个反相之后进入冷端，变成-A，然后出发！路上遇到了变压器来的干扰B进入线路，。热线上的信号变成了A+B，冷线上的信号变成了-A+B。还有手机干扰C，热线上变成了A+B+C，冷线上变成了-A+B+C。现在到接收端了，先把冷端做一个反相-（-A+B+C）=A-B-C 。然后，把这个反相过的冷端和热端的信号混合，也就是（热端）+（冷端）：（A+B+C）+（A-B-C）。
结果呢，不用我说了吧，B和C这两个干扰源在这里正好被完全抵消了！消得干干净净！剩下的只有我们要传送的信号A！

3.3 AES/EBU 接口标准

AES/EBU 是一种无压缩的数据音频格式，以单向串行码来传送两个声道的高质量数字音频数据（最高24bit量化），及传送相关的控制信息 ( 包括数字信道的源和目的地址、日期时间码、采样点数、字节长度和其它业务信息) 并有检测误码的能力。
AES/EBU信号数字格式

AES信号数字格式.PNG

同步符的位置.PNG

同步符：也称引导符，占据每个子帧开头的4bit，用以标识每一个子帧的开始。子帧的开始：分三种情况，分别是一般子帧A，一般子帧B，既是块的开始也是子帧A的开始；用于区分上述三种情况，AES/EBU规定了X、Y、Z三种同步符，用以分别标识。
音频数据：AES/EBU 支持 16- 24 bit 的音频样本数据。在音频样本大于 20 bit 时, 数据同时占据辅助和音频数据域; 在等于、小于 20
bit 时, 仅存放在音频数据域中, 4 bit 辅助域可用于存放其它数据。
V（合法标记）位：合法标记位表示此音频采样是否正确、有无包错误、是否适合作为数模转换。
U(用户)位：没有定义，可以用户定义使用。
C（通道状态）位：每一个子帧的音频样本都对应一个C（通道状态）位，所以一个块中的A、B子帧各送了192个bit C（通道状态）位；在节目端，各自的192bit被分别记忆组合，形成了两个24字节的数据集合，称为通道状态块。子帧 A、B 的通道状态块是独立的, 与 A、B 声道的音频样品对应。通道状态块每192 帧更新一次。
P（奇偶校验）位：为偶校验位, 可检出子帧中奇数个错。
通道状态块数据结构：

通道状态块的数据结构.PNG

通道状态块的数据结构1.PNG

通道状态块字节0.PNG

通道状态块字节1.PNG

通道状态块字节2.PNG

通道状态块字节3.PNG

3.4 AES 数据直通模式

AES_no_pcm1.PNG

同步符：也称引导符，占据每个子帧开头的4bit，用以标识每一个子帧的开始。子帧的开始：分三种情况，分别是一般子帧A，一般子帧B，既是块的开始也是子帧A的开始；用于区分上述三种情况，AES/EBU规定了X、Y、Z三种同步符，用以分别标识。
音频数据：AES/EBU 支持 16- 24 bit 的音频样本数据。在音频样本大于 20 bit 时, 数据同时占据辅助和音频数据域; 在等于、小于 20 bit 时, 仅存放在音频数据域中, 4 bit 辅助域可用于存放其它数据。
V（合法标记）位：合法标记位表示此音频采样是否正确、有无包错误、是否适合作为数模转换。
U(用户)位：没有定义，可以用户定义使用。
C（通道状态）位：每一个子帧的音频样本都对应一个C（通道状态）位，所以一个块中的A、B子帧各送了192个bit C（通道状态）位；在节目端，各自的192bit被分别记忆组合，形成了两个24字节的数据集合，称为通道状态块。子帧 A、B 的通道状态块是独立的, 与 A、B 声道的音频样品对应。通道状态块每192 帧更新一次。
P（奇偶校验）位：为偶校验位, 可检出子帧中奇数个错。

通道状态块：