一.音频基础学习

1.1 声音是怎么产生的？

认识声音

振动的物体能使邻近的空气分子振动，这些分子又引起它们邻近的空气分子振动，从而产生声音(Sound)，声音以声波的形式传递，这种传递过程叫声辐射(Sound Radiation)。声波仅存在于声源周围的媒质中，没有空气的空间里不可能有声波。声音不仅可在空气内传递，也可在水、土、金属等物体内传递。声音在空气中的传播速度为340m/s(15℃时)。

声音三要素

响度
- 响度，又称声强或音量，它表示的是声音能量的强弱程度，主要取决于声波振幅的大小。
- 响度度是听觉的基础
- 听力可及的音域,是从20HZ—20000HZ之間;而能承受的音压的范围是從0dB（分贝）到120dB（分贝）之內.

声音	声音的强弱（dB）	听觉效果（感觉）
树叶微动	10	寂静
轻声交谈	20~30	安静
正常说话	40~50	正常
大声呼喊	70~80	较吵
汽车喇叭	90	很响
载重汽车	100~110	震耳
飞机发动机	120~130	疼痛难忍

音调
- 音高也称音调，表示人耳对声音调子高低的主观感受。
- 客观上音高大小主要取决于声波基频的高低，频率高则音调高，反之则低，单位用赫兹(Hz)表示
- 根据人耳对音高的实际感受，人的语音频率范围可放宽到80Hz-12kHz，乐音较宽，效果音则更宽。
音色
- 音色又称音品。声音波形的基频所产生的听得最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。单一频率的音称为纯音，具有谐波的音称为复音。
- 高保真(Hi—Fi)音响的目标就是要尽可能准确地传输、还原重建原始声场的一切特征，使人们其实地感受到诸如声源定位感、空间包围感、层次厚度感等各种临场听感的立体环绕声效果。

二.数字音频

数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术，它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。数字音频的主要应用领域是音乐后期制作和录音。
计算机数据的存储是以0、1的形式存取的，那么数字音频就是首先将音频文件转化，接着再将这些电平信号转化成二进制数据保存，播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出，数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言，它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。

模拟音频信号数字化过程

模拟音频信号转化为数字音频信号：模拟音频信号是一个在时间上和幅度上都连续的信号，它的数字化过程如下所述。

采样：
在时间轴上对信号数字化。也就是，按照固定的时间间隔抽取模拟信号的值，这样，采样后就可以使一个时间连续的信息波变为在时间上取值数目有限的离散信号。
量化：
在幅度轴上对信号数字化。也就是，用有限个幅度值近似还原原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。
编码：
用二进制数表示每个采样的量化值（十进制数）。
音频编码的格式有很多种,而通常所说的音频裸数据指的是脉冲编码调制(PCM)数据.
如果想要描述一份PCM数据,需要从如下几个方向出发:
- 量化格式(sampleFormat)
- 采样率(sampleRate)
- 声道数(channel)

如果sampleFormat越精确或者sampleRate越密集,那么所占的存储空间就会越大,同时能够描述的声音细节就会更加精确.

典型音频编码技术比较

编码技术	算法	编码标准	码率(kbit/s)	质量	应用领域
	PCM	G.711	64	4.3	PSTN、ISDN
波形编码	ADPCM	G.721	32	4.1	-
	SB-ADPCM	G.722	64/56/48	4.5	-

参数编码	LPC	-	2.4	2.5	保密语音

	CELPC	-	4.8	3.2	-
	VSELPC	DIA	8	3.8	移动通信、语音信箱
混合编码	RPE-LTP	GSM	13.2	3.8	-
	LD-CELP	G.728	16	4.1	ISDN
	MPE	MPE	168	5.0	CD

说明：质量评价共五个等级（1、2、3、4、5），其中5.0为最高分。
上表中各种算法、应用领域中缩略语的中文和英文全称参见下面说明。

PCM：Pulse Code Modulation，脉冲编码调制。
ADPCM：Adaptive Differential Pulse Code Modulation，自适应差分脉冲编码调制。
SB-ADPCM：Subband Adaptive Differential Pulse Code Modulation，子带-自适应差分脉冲编码调制。
LPC：Linear Predictive Coding，线性预测编码。
CELPC：Code Excited Linear Predictive Coding，码激励线性预测编码。
VSELPC：Vector Sum Excited Linear Predictive Coding，矢量和激励线性预测编码。
RPE-LTP：Regular Pulse Excited-Long Term Predictive，规则脉冲激励长时预测。
LD-CELP：Low Delay-Code Excited Linear Predictive，低时延码激励线性预测。
MPE：Multi-Pulse Excited，多脉冲激励。
PSTN：Public Switched Telephone Network，公共交换电话网。
ISDN：Integrated Services Digital Network，综合业务数字网。

音频采样率

音频采样率是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，机械波的波形就越真实越自然。在当今的主流采集卡上，采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质，44100Hz则是理论上的CD音质界限，48000Hz则更加精确一些。

常用的采样率

8,000 Hz - 电话所用采样率, 对于人的说话已经足够
11,025 Hz-AM调幅广播所用采样率
22,050 Hz和24,000 Hz- FM调频广播所用采样率
32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - 商用 PCM 录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 商用数字录音机所用采样率
96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率
2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率

image

音频采样率实例

声波其实是一种机械波，因此也有波长和振幅的特征，波长对应于时间轴线，振幅对应于采样值轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的采样值，很显然，在单位时间中内抽取的点越多，获取得波长信息更丰富，为了复原波形，一个周期中，必须有至少2个点的采样，人耳能够感觉到的最低波长为1.7cm，即20000Hz，因此要满足人耳的听觉要求，则1s采样至少40000次，用40000Hz(40kHz)表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。

采集过程中视频和音频同步是非常重要的，光有波长信息是不够的，我们还必须获得该波长的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16级的采样大小，即2的4次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

三.音频编码

从信息论的观点来看，描述信源的数据是信息和数据冗余之和，即： 数据=信息+数据冗余 。音频信号在时域和频域上具有相关性，也即存在数据冗余。将音频作为一个信源，音频编码的实质是减少音频中的冗余

3.1采样率和采样大小

声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

3.2 有损和无损

根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

3.3 使用音频压缩技术的原因

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过

3.4 频率与采样率的关系

采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

3.5 流特征

随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了；也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。

四.编码分类

根据编码方式的不同，音频编码技术分为三种：波形编码、参数编码和混合编码。一般来说，波形编码的话音质量高，但编码率也很高；参数编码的编码率很低，产生的合成语音的音质不高；混合编码使用参数编码技术和波形编码技术，编码率和音质介于它们之间。

波形编码
波形编码是指不利用生成音频信号的任何参数，直接将时间域信号变换为数字代码，使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。波形编码的基本原理是在时间轴上对模拟语音信号按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。
波形编码方法简单、易于实现、适应能力强并且语音质量好。不过因为压缩方法简单也带来了一些问题：压缩比相对较低，导致较高的编码率。一般来说，波形编码的复杂程度比较低，编码率较高。通常编码率在16 kbit/s以上的音频质量相当高，当编码率低于16 kbit/s时，音质会急剧下降。
最简单的波形编码方法是PCM（Pulse Code Modulation，脉冲编码调制），它只对语音信号进行采样和量化处理。优点是编码方法简单，延迟时间短，音质高，重构的语音信号与原始语音信号几乎没有差别。不足之处是编码率比较高（64 kbit/s），对传输通道的错误比较敏感
参数编码
参数编码是从语音波形信号中提取生成语音的参数，使用这些参数通过语音生成模型重构出语音，使重构的语音信号尽可能地保持原始语音信号的语意。也就是说，参数编码是把语音信号产生的数字模型作为基础，然后求出数字模型的模型参数，再按照这些参数还原数字模型，进而合成语音。
参数编码的编码率较低，可以达到2.4 kbit/s，产生的语音信号是通过建立的数字模型还原出来的，因此重构的语音信号波形与原始语音信号的波形可能会存在较大的区别、失真会比较大。而且因为受到语音生成模型的限制，增加数据速率也无法提高合成语音的质量。不过，虽然参数编码的音质比较低，但是保密性很好，一直被应用在军事上。典型的参数编码方法为LPC（Linear Predictive Coding，线性预测编码）。
混合编码
混合编码是指同时使用两种或两种以上的编码方法进行编码。这种编码方法克服了波形编码和参数编码的弱点，并结合了波形编码高质量和参数编码的低编码率，能够取得比较好的效果。

五.编码格式以及特点

5.1 PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

5.2WAV格式

这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合RIFF (Resource Interchange File Format) 规范。所有的WAV都有一个文件头，这个文件头包含了音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

特点：音质非常好，被大量软件所支持。
适用于：多媒体开发、保存音乐和音效素材。

5.3MP3编码

MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG(MPEG：Moving Picture Experts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。

关于VBR

VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。虽然mp3可以有文件头，但对于mp3格式的文件却不是很重要，正因为这种特性，决定了MP3文件的每一段每一帧都可以单独的平均数据速率，而无需特别的解码方案。于是出现了一种叫VBR（Variable bitrate，动态数据速率）的技术，可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate，这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配bitrate，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。

专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其他媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝（dB）。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是500Hz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

可以看到这条曲线基本成一个V字型，当频率超过15000Hz时，人耳的会感觉到声音很小，很多听觉不是很好的人，根本就听不到20000Hz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如：在白天我们很难听到电脑中散热风扇的声音，晚上却成了噪声源，根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

频率(Hz) 临界带宽(Hz) 频率(Hz) 临界带宽(Hz)

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。

长期来，很多人对MP3印象不好，更多人认为WMA的最佳音质要好过MP3，这种说法是不正确的，在中高码率下，编码得当的MP3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异，这不是神话故事，尽管你以前盲听就可以很轻松区分MP3和CD，但现在你难保证你可以分辨正确。因为MP3是优秀的编码，以前被埋没了。

特点：音质好，压缩比比较高，被大量软件和硬件支持，应用广泛。
适用于：适合用于比较高要求的音乐欣赏。

5.4 OGG编码

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，它可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

特点：可以用比mp3更小的码率实现比mp3更好的音质，高中低码率下均具有良好的表现。
适用于：用更小的存储空间获得更好的音质（相对MP3）。

5.5 MPC编码

MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

特点：中高码率下，具有有损编码中最佳的音质表现，高码率下，高频表现极佳。
适用于：在节省大量空间的前提下获得最佳音质的音乐欣赏。

5.6 mp3PRO编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

特点：低码率下的音质之王。
适用于：低要求下的音乐欣赏。

5.7 WMA格式

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

特点：低码率下的音质表现难有对手。
适用于：数字电台架设、在线试听、低要求下的音乐欣赏。

5.8 RA格式

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

5.9 APE格式

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

特点：音质非常好。
适用于：最高品质的音乐欣赏及收藏。

六.总结

本文详细介绍了声音的产生、声音的三要素、数字音频、音频数字模拟化，音频编码、编码分类及使用场景.

Daily AVFoundation - 音频基础