音视频小结（一）：音频基础

5G 时代音视频的地位越来越重要，直播、音乐、在线教育、短视频等相关APP 层出不穷，对于开发者而言，掌握音视频相关知识可很好提升自己的竞争力。本系列文章会总结一些音视频知识，从零开始记录总结音视频相关知识。
本篇文章是对音频基础知识的总结介绍。

声音是振动产生的声波，通过介质（空气、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。
声音是由物体的振动所引起，振动频率一般会以赫兹表示，记为Hz，指每秒周期性震动的次数。

• 波长，指波在一个振动周期内传播的距离。
音调越高，波长越短；音调越低，波长越长。（频率高波长短）
• 振幅，指在波动或振动中距离平衡位置或静止位置的最大位移。
音量（响度）越大，振幅越大；音量越小，振幅越小。

人耳可以感知到的声音，其频率范围为20 Hz至20,000 Hz，在标准状况下的空气中，上述音波对应的波长从17 m至17 mm之间。

声音是怎么处理变成计算机中的数据呢？
我们经常见到的 mp3、wav 音频文件又是什么呢？

现实中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

脉冲编码调制（Pulse-code modulation，PCM）是一种模拟信号的数字化方法。PCM将信号的强度依照同样的间距分成数段，然后用独特的数字记号（通常是二进制）来量化。

在下图中，一个正弦波（红色曲线）被取样和量化为PCM。正弦波在每段固定时间内被取一次样，即x轴的刻度。而每一个样本则依照某种运算法（在这个例子中是ceiling function 取整），选定它们在y轴上的位置。这样便产生完全离散的输入信号的替代物，很容易编码成为数字数据，以作保存或操作。

PCM 中涉及到的一些概念：

声道：录制和播放时，音频信号的数量。如双声道，立体声。
采样率：每秒从连续信号中提取并组成离散信号的采样个数，单位是赫兹（Hz）。
奈奎斯特采样定理：当采样频率大于声音最高频率的两倍，能完整的保留声音的信息。
采样深度：量化的二进制位数，即采样点数据的位数，常为16位。
码率：音频流每秒的大小，单位常用bps。如一个采样率为44.1KHz，采样深度为16bit，双声道的PCM编码的文件，码率为 44.1K×16×2 =1411.2 Kbps

通过上面的调制，声音音波就从模拟信号，转化为数字信号的原始音频数据。
原始音频数据需要占用很大的存储空间和带宽的，不适合运输和传送，所以我们需要对原始声音进行加工，压缩变小，这一过程称为编码。

格式(format)，或者说容器(container)，是为了运输和传送的。对音频来说就是将编码压缩后的数据进行打包，常见的音频格式比如 mp3 等。

https://www.jianshu.com/p/80a140cf3d99
https://blog.csdn.net/leixiaohua1020/article/details/84598542
https://zhuanlan.zhihu.com/p/69901270