声音的三要素:频率、振幅、波形。
频率:
振幅:
波形:
音频数据的承载方式最常用的是脉冲编码调制 脉冲编码调制,即 PCM。
在自然界中, 声音是连续不断的,是一种模拟信号,那怎样才能把声音保存下来呢?
那就是把 声音数字化,即转换为数字信号。
我们知道声音是一种波,有自己的 振幅和频率,那么要保存声音,就要保存声音在各个时间点上的振幅。而 数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。
根据奈奎斯特采样定理 : 为了不失真地恢复模拟信号, 采样频率应该不小于模拟信号频谱中最高频率的 中最高频率的 2倍。
根据以上分析,PCM 的采集步骤分为以下步骤:
模拟信号 模拟信号 -> 样 采样 -> 化 量化 -> 码 编码 -> 数字信号
音频到底是什么?
音频这个专业业术语, 人类能够听到的所有声音都称之为 音频,它可能包括噪音、 声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成 CD,这时候所有的声音没有改变,因为 CD 本来就是音频文件的一种类型。而 音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡 – 就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。
响度和强度:
声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化,但也受频率的影响。总的说,中频纯音听来比低频和高频纯音响一些。
采样率:
采样率,即采样的频率。
上面提到,采样率要大于原声波频率的 采样率要大于原声波频率的 2 倍,人耳能听到的最高频率为 20kHz,所以为了满足人耳的听觉要求,采样率至少为 40kHz, 通常为 44.1kHz,更高的通常为 48kHz。
注意:人耳听觉频率范围[20Hz, 20KHz]。
采样位数:
涉及到上面提到的振幅量化。 波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数 采样器会采用一个固定的位数来记录这些振幅值,通常有8位 、16 位 、32位。
注意:位数越多,记录的值越准确,还原度越高。但是占用的硬盘空间越大。
比特率:
表示经过编码(压缩)后的音频数据每秒钟需要用多少个比特来表示,单位常为 kbps。
音频编码:
由于数字信号是由 0,1 组成的,因此,需要将 幅度值转换为一系列 0 和 1 进行存储,也就是 编码,最后得到的数据就是数字信号:一串 一串 0 和 和 1 组成的数据组成的数据。
过程如下:
声道数,是指 支持能不同发声(注意是不同声音)的音响的个数。
单声道的声音只能使用一个扬声器发声,或者也可以处理成两个扬声器输出同一个声道的声音,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的,无法判断声源的具体位置。
双声道就是有两个声音通道,其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。
记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。立体声(双声道)存储大小是单声道文件的两倍。
码率:
码率,是指一个数据流中每秒钟能通过的信息量,单位bps(bit per second)。
码率 = 采样率 * 采样位数 * 声道数。
音频帧:
音频跟视频不太一样,视频的每一帧就是一副图像,但是因为 音频是流式的,本身是没有一帧的概念的。而且有些时候确实没有办法说一帧怎么怎么样。比如对于 PCM 流来说,采样率为 44100Hz,采样位数为 16,通道数为 2,那么一秒的音频固定大小的:44100162 / 8 字节。但是人们可以规定一帧的概念,比如 amr 帧比较简单, 它规定每 20ms 的音频 的音频是 一帧。
关于音频文件大小的计算:
文件大小 = 采样率 * 录音时间 * 采样位数 / 8 * 通道数
PCM 流:
PCM 流就是原始收录声音时,数据会保存到一串 buffer 中,这串 buffer,就采用了 PCM 格式存储的。通常把音频采样过程也叫做 脉冲编码调制编码,即 PCM(Pulse Code Modulation)编码,采样值也叫 PCM 值。编码过程:模拟信号 模拟信号-> 抽样-> 量化-> 编码->数字信号 数字信号。在 windows 中,通过 WaveIn 或者 CoreAudio 采集声音,得到的原始数据就是一串 PCM格式的 buffer。
音频格式:
是指要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采 样和量化构成,人耳所能听到的声音,最低的频率是从 20Hz 起一直到最高频率 20KHZ,20KHz 以上人耳是听不到 的,因此音频文件格式的最大带宽是 20KHZ,故而采样速率需要介于 40~50KHZ 之间,而且对每个样本需要更多的量化比特数。
音频数字化的标准是每个样本 16 位-96dB 的信噪比,采用线性脉冲编码调制 PCM,每一量化步长都 具有相等的长度。在音频文件的制作中,正是采用这一标准。
常见的音频格式有 常见的音频格式有:CD 格式、WAVE(*.WAV)、 AIFF、MP3、MIDI、 AAC、WMA。