音频处理——音频处理的基本概念

目录

  • 声音的本质
  • 声音的物理性质
    • 波形
    • 频率
    • 一个例子
  • 数字音频
    • 采样率
    • 采样量化(采样精度、采样深度)
    • 音频帧
  • 常见名词解释
    • 举例

声音的本质

声音是一种由物体震动引发的物理现象,如小提琴的弦声等。物体的震动使其四周空气的压强产生变化,这种护墙沪弱变化以波的形式向四周传播,当被人耳锁接收时,我们就听见了声音。

声音的物理性质

波形

声音是由物体的振动产生的,这种震动引起了周围空气压强的震荡,我们称这种震荡的函数表现形式为波形
音频处理——音频处理的基本概念_第1张图片
振幅——音量调整

频率

声音的频率是周期的倒数,它表示的是声音再1秒时间内的周期数,单位是赫兹(Hz)、千赫(kHz),即1000Hz,表示每秒震动一千次。
声音按频率可做如下划分
音频处理——音频处理的基本概念_第2张图片
声音信号采集转为数字信号,参考的原理就是人耳能听见的声音。如果要采集频率非常高的声音信号,那么对采集设备的要求就非常高

一个例子

这是我做的采样率16k,16bit,1kHz的音源
音频处理——音频处理的基本概念_第3张图片
放大后效果如下
音频处理——音频处理的基本概念_第4张图片
这就是音频数据再计算机中的存储方式——数字音频

数字音频

主要从采样率、采样量化、编码来进行讲解

为什么需要采样?
计算机并不直接使用连续平滑的波形来表示声音,他是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音,如下图
音频处理——音频处理的基本概念_第5张图片
PCM(Pluse Code Modulaton)脉冲编码调制。
人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术
音频处理——音频处理的基本概念_第6张图片

采样率

采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,单位用赫兹(Hz)来表示。
采样频率的倒数是采样周期(也称为采样时间),它表示采样之间的时间间隔。这里要注意不要将采样率与位速相混淆。

根据Nyguist(耐奎斯特)采样定律,要从采样中完全回复原始信号波形,采样频率必须至少是信号中最高频率的两倍。

人耳能听到的是[20, 20k]Hz频率的声音,所以采样率一般为40kHZ,为了不使其造成低频失真,所以CD质量采样率使用44.1KHz,z这样就能保证声音到达20kHz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低
音频处理——音频处理的基本概念_第7张图片

采样量化(采样精度、采样深度)

采样是再离散的时间点上进行的,而采样值本身再计算机中夜视离散的。
采样的精度取决于它用多少位来表示,这就是量化。

如8bit量化可以表示256个不同的值,而CD质量的16bit量化可以表示65536个值,范围为[-32768,32767]

下图是一个3bit量化的示意图,可以看出3bit量化只能表示8个值:0.75,0.5,0.25,0,-0.25,-0.5,-0.75和-1,因而量化位数比较少,波形就很难辨认,还原后的声音质量也就越差(可能除了嗡嗡声之外什么都没有)
音频处理——音频处理的基本概念_第8张图片

音频帧

音频和视频不一样,视频每一帧都是一张图像,音频数据是流式的,不同的编码格式各自不同的编码标准,拿PCM和MP3做一个对比。PCM因为没有压缩,根据采样率位宽等数据可以得到每秒的音频数据,并不需要帧的概念;MP3是因为压缩后信息比较多,则有了类似H264的帧概念,每一个帧都有帧头。

每帧的采样点 = 采样率 / 帧率
帧率是我们自己定义的

MP3原理(待更)

常见名词解释

音频处理——音频处理的基本概念_第9张图片
5.1声道常用于电影院,是环绕的立体声
音频处理——音频处理的基本概念_第10张图片
码率就是单位时间内的音频数据量(bit)
音频处理——音频处理的基本概念_第11张图片
音频处理——音频处理的基本概念_第12张图片
以上的两个模式就是左右声道存储的方式
如果是四声道

  • 交错存储方式就是1234 1234 1234 1234
  • 非交错存储方式是1111 2222 3333 4444

举例

音频处理——音频处理的基本概念_第13张图片
如上图
采样频率4410,采样精度16bit,2通道(声道),采集4分钟的数据

4410 x 16 x 2 x 4 x 60 = 338688000 bit
338688000 / 8 / 1024 / 1024 = 40M byte

比特率:采样频率 x 采样精度 x 通道数= 44100 x 16 x2 = 1411200 bit/s

可以看到,如果不做压缩,站控空间还是很多的

你可能感兴趣的:(音频处理,语音识别,python)