音视频开发-音频基础知识

音视频开发-音频基础知识

  • 1 声音基础知识
    • 1.1 声音产生
    • 1.2 声音的传播
    • 1.3 声音的三要素
  • 1.4 回声
  • 2 数字音频
    • 2.1 采样率
    • 2.2 采样位数
    • 2.3 声道
    • 2.4 码率
    • 2.5 音频帧
    • 2.6 数据存储方式
  • 3 专业术语
    • 3.1 增益
    • 3.2 信噪比
    • 3.3 PCM
  • 4 音频编码原理

1 声音基础知识

1.1 声音产生

声音:本质是由于物理振动产生的。
声音也是一种能量波,随着振动开始发声,到振动结束终止。

1.2 声音的传播

声音的传播介质:

  • 空气:传播速度340m/s
  • 液体:传播速度1497m/s
  • 固体:传播速度与密度有关,铁棒上是5200m/s

注意:

  • 真空中无法传播声音
  • 跨越介质传播,两者密度相差越大损失速度越快

1.3 声音的三要素

频率
频率:单位时间振动的次数,用HZ表示

  • 频率越高越高,波长越短。低频率波长则长,容易越过障碍物。
  • 人耳能感知的频率范围是 20Hz-20000Hz,老人年能感知的频率范围会缩小。
  • 童声频率范围为 196-880Hz
  • 女声频率范围为 200-1100Hz
  • 男声频率范围为 80-523Hz
  • 次声波:低于 20Hz
  • 超声波:高于 20000Hz

振幅
振幅:单一波形的高度,用能量值DB表示

  • 反映了能量的大小,通常利用分呗来表示
  • 10dB-20dB 很安静几乎感觉不到
  • 20dB-40dB 相当于轻声说话
  • 40dB-60dB 相当于普通室内谈话
  • 60dB-70dB 大声喊叫
    音视频开发-音频基础知识_第1张图片

音色
音色:单一频率的振幅决定音色

  • 音色是一个抽象的特性,每一种发声体的音色都不一样,可以总结为在某一个频率点的振幅决定了音色
  • 均衡器是调节音色的一个重要的工具
  • 低频部分如果振幅相对较大就会让人感觉声音饱满有磁性

1.4 回声

回声:声音在传播过程中遇到障碍物再次反弹回来被我们所听到。

  • 人耳辨别两次声音的间隔大于0.1s时就会被辨别,因此空旷地方产生回声的距离是34m。

2 数字音频

采样:把模拟音频转成数字音频的过程,在时间轴上对信号数字化

  • 奈奎斯特定理: 按比声音最高频率高2倍以上的频率对声音进行采样

2.1 采样率

采样频率:指录音设备在一秒钟内对声音信号的采样次数

  • 根据奈奎斯特定理:8KHz 采样率只能采集到 4KHz 及以下频率的声音,48KHz 采样率只能采集到 24KHz 及以下频率的声音。22.05 只能达到 FM 广播的声音品质,44.1KHz 则是理论上的 CD 音质界限

2.2 采样位数

采样值的精度取决于它用多少位来表示,这就是量化。例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。
采样位数:一个采样点的数值用几个比特位来存储

  • 8位采样的数值范围是0-255, 16位采样的数值范围是0-65535, 所以位数越高越能准确还原本来的声音。

2.3 声道

声道:声音录制或播放中在不同位置采集或者回放的相互独立的音频信号
声道数:就是音源数,或者播放的扬声器数。

  • 常见:单声道、立体声道、4声道、5.1声道、7.1声道。

2.4 码率

每秒传输的bit数,单位为:bps(Bit Per Second)间接衡量声音质量的一个标准。
码率 = 采样率 * 采样位数 * 声道数
如:16000 * 16 * 2 = 512 kbps
音视频开发-音频基础知识_第2张图片

2.5 音频帧

每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

2.6 数据存储方式

交错模式:数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录…
音视频开发-音频基础知识_第3张图片
非交错模式:首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本
在这里插入图片描述

3 专业术语

3.1 增益

增益:将输入信号放大K倍,功率比的常用对数的 10 倍——缩写为dB。

  • 对于音量,增益也叫分贝,0dB 的标准设定,是根据听力正常的人所能听到的最小声音,所以 10 分贝就是这个最小声音的 10 倍,20 分贝就是这个最小声音的 100 倍。

3.2 信噪比

信噪比:有用信号与噪声之比的简称
-噪音可分为环境噪音和设备噪音,信噪比越大,音质越好。

3.3 PCM

PCM:未经编码音频数据,脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。

  • PCM没有帧的概念,只需要采样精度和采样位数既可以播放。
  • PCM比特率:采样率 * 采样位数 * 声道

4 音频编码原理

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。
此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应时域掩蔽效应

频谱掩蔽效应:掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。比如在很嘈杂的场景中很难清晰地听到正常的说话声。 应用此原理,人们发明了mp3 等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间。
音视频开发-音频基础知识_第4张图片

时域掩蔽效应:当强音信号和弱音信号同时出现时,还存在时域掩蔽效应。即两者发生时间很接近的时候,也会发生掩蔽效应。时域掩蔽过程曲线如图所示,分为前掩蔽、同时掩蔽和后掩蔽三部分。
音视频开发-音频基础知识_第5张图片

你可能感兴趣的:(音视频开发,linux,c语言,音频编码解码)