音频概论

最近在折腾itunes音频处理（裁剪编辑，格式转换，波形绘制）

音频的一些概念

对每个音频文件有两部分：1是文件格式（或者是音频容器），2是数据格式（或者是音频编码）。
文件格式（或者是音频容器）描述了这个文件它自己的格式。这实际的在里面的音频数据能被很多不同的方式编码。例如，一个caf文件是一个文件格式，它能够包含用MP3、线性pcm（lpcm）或其他许多格式编码的音频数据。
数据格式（或者是音频编码）
　　我们实际上将要开始了解音频编码，而不是文件编码，因为这编码实际上是这部分最重要的。

以下是iphone支持的的数据格式和针对每个的描述：

AAC aac其实是“advanced audio coding”，它是被设计为MP3的后继者。你可能会猜测，它压缩了原先的声音，导致容量占用少但是质量也下降。但是这丢失的质量在你设置的比特率下很难被注意。事实上，aac比mp3有更好的压缩率，特别是在相同的比特率下。
HE-AAC HE-AAC是AAC的一个扩展，这个“HE”其实“High efficiency”。HE-AAC在低比特率下是最佳的音频就像流式音频一样。
AMR AMR其实是“Adaptive Multi-Rate”，他也是另一个在低比特率下的快速，有效的最佳编码方式。
ALAC 它其实就是“Apple Lossless”，这种是一种没有任何质量损失的编码音频的方式，也就是我们说的无损压缩。
iLBC 这是另一个高效，速度快，针对voip和流式音频很好且高效的编码。
IMA4 这是一个在16-bit音频文件下按照4：1的压缩的压缩格式。这是一种针对iphone很重要的编码，我们将在以后讨论原因。
Linear PCM 这基于线性脉冲编码调制，并介绍了用于模拟声音数据转换成数字格式的技术。简而言之，就是意味着无压缩数据。由于数据是非压缩的，它可以非常快的播放，并且当空间不是问题时，这种在iphone上面首选的音频编码方式。
μ-law and a-law 就我所知道的，这种编码是交替的编码模拟数据到数字格式，但是比linear PCM更快。
MP3 这种格式是我们都知道也喜欢的，MP3任然是一个非常流行的格式，也被iphone很好的支持。

AAC和MP3 (送葬CD者)

对于这两个目前全世界用户最多的音频格式来说，它们有两个共同点：1.它们都不是无损压缩格式音频。2.它们联手终结了CD在音乐行业的老大地位。
　　也许对于中国的用户来说，对于MP3格式更加熟悉，用户也基本都是从MP3格式开始使用直到现在为止，但是AAC确实是一个不能不提的音频格式，它因苹果发扬光大，并且在iPod的垄断之路上立下了汗马功劳，甚至可以说，AAC不仅仅目送CD走下历史舞台，传统消费级MP3产品也是被它赶下神坛的。至今在iTunes Store的专辑音乐销售中，音乐的格式依然是AAC而不是MP3。
首先，MP3是一种国内用户最为耳熟能详的有损压缩格式，而隶属世界上的有损压缩格式其实数不胜数，而MP3成功的原因究竟是什么？首先是它的压缩比，传统的音频压缩文件只能达到8:1左右的压缩比。而MP3格式则是将这个压缩比提升到了10:1甚至12:1的高比例压缩，也因为MP3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，并且完全砍掉20KHz以上的部分，相同长度的音乐文件，用.mp3格式来储存，一般只有.wav文件的1/10，因而音质要次于CD格式或WAV格式的声音文件。但由于其文件尺寸小，音质好；所以在它问世之初还没有什么别的音频格式可以与之匹敌，因而为.mp3格式的发展提供了良好的条件。直到现在，这种格式还是很流行，作为主流音频格式的地位难以被撼动。但是树大招风，MP3音乐的版权问题也一直找不到办法解决，因为MP3没有版权保护技术，说白了也就是谁都可以用。
　　AAC实际上是高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30%的前提下提供更好的音质。AAC也是目前最好的有损格式之一。有多种编码，faac，nero为常见，比特率最高为448kbps，并且在448kbps的比特率下已经几乎很难分辨和无损压缩的区别。

Linear PCM的不同格式

对于目前常见的PCM码率文件来说，最常见的三种文件格式也就是WAV、APE、FLAC了，而这三种格式之间又有怎么样的差别呢？
　　WAV波形文件是音响设备和很多软件可以直接读取的波形文件，基本上不存在编解码问题。flac和ape都对WAV进行了编码，故能换取较小的体积，但同时造成解码播放时，因播放器材解析力很敏感（或者说技术所限），会因出现一定的jitter抖动（解析复杂编码所致）而导致播放效果不够饱满和流畅。这点你可以通过统一转换为WAV格式来试听解决。
　　对于WAV格式来说，是目前的常规无损压缩格式中体积最大的文件格式，由于FLAC和APE都对WAV进行了更高技术的编码，所以换取了较小的体积，这也是这两种格式之所以出现的根本原因。而对于FLAC和APE两种格式来说，虽然体积大小差不多，但是采用了不同的压缩格式，所以对于设别来说在播放时候需要占用的资源多少也并不相同，简单地说占用资源多少的比例为：APE最大、FLAC中、WAV占用最小。最简单的例子就是如果你用一款配置并不算很高的随身播放设备，比如刷了rockbox的iPod Classic或者一些目前主流的便携播放器，使用APE会有明显的卡顿以及续航的减少，而FLAC和WAV则没有什么明显的区别。
iphone支持很多文件格式，包括MPEG-1 (.mp3), MPEG-2 ADTS (.aac), AIFF, CAF, and WAVE。但是最重要的事是你可以仅仅使用CAF，因为它能包含任何iphone支持的编码格式的数据，在iPhone上面它是推荐的文件格式。

一些编码的术语

比特率，采样率，采样位数声道数采样时间
比特率是音频文件每秒占据的字节数（比特数）。一些像AAC或者MP3编码会指定音频文件压缩的比特数，单位bps，比特率越高，传送的数据越大，音质越好。
　　采样率是将声音模拟信号转换成数字信号的采样频率，也就是单位时间内采样多少点数据。（一个采样点有至少8bit）。大多情况下，44100Hz是被经常使用的，因为这和CD音频一样的采样率。即花费44100个数据点来描述一秒的声音波形。
补充：采样频率一般分为三个等级，22.05kHZ，44.1kHZ,48kHZ,分别对应FM广播的音质，CD音频的音质界限，DVD的音质。
采样位数：PCM编码一般采用 BitDepth_16，即16bit（2字节）
采样位数相对而言为画面的颜色数，标识每个取样的数据量，数据量越大则回放的声音越清晰和准确。
声道数：一般存在左右双声道
采样频率的倒数是采样周期或者叫作采样时间，它是采样之间的时间间隔.

CD每秒取样44100点，两个声道，每个取样是16bit编码的话，CD的比特率就是：44100 * 2 * 16 = 1411200，即CD的每秒数据为176.4KB,而一张70分钟的CD容量为：723M.

音频概论

音频的一些概念

AAC和MP3 (送葬CD者)

Linear PCM的不同格式

一些编码的术语

你可能感兴趣的:(音频概论)