数字音频基础

 

1.     音频技术基础

声音的产生是物理现象,人对声音的感觉是生理、心理活动。一般,人耳对声音的听觉特性的要素是:响度、音调、音色。

响度是人耳对声音强弱的感觉,首先决定于声音的振幅、其次是频率。

音调是人耳对声音高低的感觉,其变化主要取决于声音频率的对数值。

音色是人耳对音质差异的感觉。

1)模拟音频信号

在模拟音频技术中,通常以磁介质来记录声音。例如话筒则是模拟录音中常用的工具,它把声波信号转换为电信号,随着声波信号的变化,话筒内电流的强弱也产生相应的变化。这种变化经过放大处理后传递到磁头,从而产生连续的强度不同的磁场,进而磁化磁带上的磁性材料。于是声音就这样保存在了磁带上。值得注意的是,模拟音频的记录方式是线性的,这条线是由无数个连续变化的磁场状态组成的。因而我们无法从中找一个代表声波元素的绝对磁场强度,每个点的磁场强度都不是单独存在的。因此,存储介质的磁性变化将会直接影响到模拟音频的回放质量。

2)数字音频信号

数字音频技术,是通过将声波波形转换成一连串的二进制的数据来保存声音的。实现这个步骤主要依靠模/数转换器(ADC,Analog to Digital Converter),它每隔一个时间间隔不停地间断性地在模拟音频的波形上采取一个幅度值,这一过程我们称之为采样。而每个采样所获得的数据与该时间点的声波信号相对应,它称之为采样样本。将一连串样本连接起来,就可以描述一段声波了,而每秒对声波采样的次数我们称之为采样频率,单位是Hz(赫兹)。对于每一个采样,系统会分配一定的储存位数(bit数)来表达声波的振幅状态,称之为采样精度,这一过程也可称之为量化。采样精度越高,声音被还原的就越细腻。数字音频是经过采样和量化后得到的。时间上的离散叫采样,幅度上的离散叫量化。随后按一定的格式将离散的数字信号记录下来,并在数据的前、后加上同步和纠错等控制信号,即完成了转化工作。

一般的,音频信号的频率范围为20Hz至20KHz之间,而语音信号的范围为30Hz至1KHz之间。

2.     音频数字化

音频的数字化过程一般分为取样、量化、编码。

取样

取样是每隔一段时间读一次声音信号的幅度值,即在时间上对模拟信号进行离散。取样频率是每秒钟所抽取声波幅度值样本的次数,单位为KHz,其倒数为取样周期。一般地,取样频率越高,声音失真度越小,但数据量也很大。

取样频率的高低是根据奈奎斯特抽样定理和声音信号本身的最高频率决定的。比如,音频信号的频率范围为20Hz至20KHz,所以根据奈奎斯特抽样定理得知,抽样频率应该至少大于40KHz。在AES国际标准中,定义为48KHz,以此来获得高音质。当然,对于特殊的音频,其抽样频率有特定的值,如广播中的抽样频率就为32KHz,因为广播的音频就是15KHz。具体的,大家可以查看AES国际标准。

量化

量化是对模拟音频信号的幅度进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位数越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。

量化有很多方法,但可归纳为两类。一为线性量化,也就是采用相等的量化间隔来度量采样得到的幅度。这种方法对于输入信号不论大小一律采用相同的量化间隔,其优点在于获得的音频品质较高,而其缺点在于音频文件容量较大;另一为非线性量化,即对输入的信号采用不同的量化间隔进行量化。对于小信号采用小的量化间隔,对于大信号采用大的量化间隔。非均匀量化量化后文件容量相对较小。

在量化的过程中,必然会产生误差,称之为量化误差。量化误差并不全都是噪声。在大信号当中,量化误差称之为噪声,但是一般的话其相关性小,在实际处理中往往没什么影响。在小信号中,量化误差称之为失真,其相关性较大,不能够忽略掉。解决方法是施加抖动。

编码

音频信号的编码通常采用脉冲调制编码,即PCM。

3.     音频压缩

音频压缩方法可分为两类。一为有损压缩,一为无损压缩。

无损压缩由霍夫曼编码、游程编码、算术编码组成。

有损压缩由波形编码、参数编码和混合编码组成。

4.     音频格式

WAV文件:Microsoft公司的音频文件格式,它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的WAV文件,即波形文件。Microsoft Sound System软件Sound Finder可以转换AIF SND和VOD文件到WAV格式。

MIDI文件:Musical Instrument Digital Interface(乐器数字接口)的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI文件中包含音符定时和多达16个通道的乐器定义,每个音符包括键通道号持续时间音量和力度等信息。所以MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令。

Real Audio,扩展名RA:这种格式真可谓是网络的灵魂,强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。

CD Audio音乐CD,扩展名CDA:唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正。但缺点是无法编辑,文件长度太大。

 MPEG-3,扩展名MP3:现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。

你可能感兴趣的:(网络,Microsoft,扩展,音乐,interface,audio)