1. 【音频基础知识】

声音的基础知识:

1. 人的听觉范围: 20Hz ~ 20KHz, HZ就是一秒钟震动的次数;
20Hz一下是次声波,20000Hz是超声波;

2. 正常人说话的频率为  85Hz - 1100Hz

3. 声音的三要素:

    1. 音调:音频的快慢  由低到高 男生 - 女生 - 儿童 音频越高声音就越好听;

    2. 音量: 物体振动的幅度;

    3. 音色: 谐波  由很多不同的频率的声音组成的,下图中绿色的波是代表主频。
       所有的变化都是在主频上做的一些微调,其中紫色的波是在黄色和浅蓝色结合主频生成的,紫色波中的两个小幅度的变化就是谐波。
       音色的不同主要是通过谐波的不同来决定的;
http://img.mukewang.com/szimg/60827b33096974e206720594.jpg

问题: 这个模拟信号为什么要用正弦波表示?

模数的转换

就是将模拟信号转换成数字信号 即可以将模拟信号转换为计算机能够识别的方波

1. 对声音进行量化采样,例如下图:对一段频率每0.25 进行一次采样。实际上一般的采样率48000次,也就是一秒钟的模拟信号分割成48000个小段数字信号的值进行表示;采样率越大 数据越大 还原度越高,

2. 采样大小(也叫位深):一个采样数字信号用多少bit表示。常用的是16bit,采样越大表示的声音音量范围就越大;

3. 采样率:常用采样:8k 16k 32k 44.1k 48k;采样率越大 数据越大 还原度越高;

4. 声道数:单声道 双声道 多声道(立体声)

5. 数字信号还需要从十进制转换成二进制,让计算机识别,数字电路会形成方波。

一秒钟的PCM数据(kb)  = 采样大小 * 采样频率 * 声道数;
模拟信号转数字信号表

音频原始数据

1. PCM是纯的音频数据,没有任何的格式;

2. WAV是一种多媒体文件格式 , 既可以存储原始数据 也可以存储压缩数据,就是在PCM原始数据上加了一个header,方便识别处理;
WAV头部信息
  • format是固定的WAVE
  • 如果SubChunkID是fmt就是采样的信息,接着才是原始数据,如果SubChunkID是data,就表示后面直接就是原始数据;
  • BlockAlign表示字节对齐数,如果是4字节,那么原始数据的一个采样就是4个字节表示的
一个WAV数据实例

上一篇::总纲
下一篇:音频采集实战

你可能感兴趣的:(1. 【音频基础知识】)