音视频开发基础理论-音频篇

使用AVFoundation处理视频
使用AVAssetReader、AVAssetWriter编解码视频

之前的两篇文章浅略讲了iOS音视频开发相关代码实现；
在编码时关于音视频的相关参数比较多，这些参数不是随便什么数值就能行的；如果不理解缘由，而填写了不合适的参数，容易导致音视频处理过程中出现各种奇怪的问题；
只有明白了音视频相关的原理，才能理解各种参数的含义，才能更好的实现开发；

现在，就从音频入手，总结下音频相关的理论知识；

声音的本质

声音是如何产生的？

声音是由物体振动而产生的，一切正在发声的物体都在振动

sound

当小球撞击到音叉的时候，音叉会发生振动，对周围的空气产生挤压，然后导致更大范围的空气跟着一起振动，最后我们耳朵旁边的空气也开始振动；这是因为空气产生了疏密变化，形成疏密相间的纵波，由此就产生了声波，声波一直延续到振动消失为止；声波一直传入我们耳朵，就听到了声音；
我们说话时的声音，也是声带振动的结果；
声音的本质就是声波；

我们听到声音的过程：
声波 --> 耳廓（收集声波）--> 外耳道（传递声波） --> 鼓膜（将声波转换成振动） --> 听小骨（放大振动） --> 耳蜗（将振动转换成电信号） --> 听觉神经（传递电信号） --> 大脑（形成听觉）

ear

声波的三要素

声波的三要素是频率、振幅和波形；频率代表音阶的高低，振幅代表响度，波形代表音色。

bxing

横坐标为时间，纵坐标为受振动的物体分子来回振动产生的位移；随着时间推移，分子的来回振动的轨迹，就是一个正弦或余弦函数的波形图；

频率

受振动的物体分子每秒来回振动的次数，叫做频率；单位是秒分之一（1/s），也称为赫兹（Hz）；频率用来表示振动的快慢
(如441Hz代表每秒来回振动441次)

频率越高，波长就越短。反之频率越低波长则越长，低频率可以更容易地绕过障碍物，因此能量衰减就小，声音就会传得更远。

人类耳朵的听力有一个频率范围，大约是20Hz~20kHz，不过，即使是在这个频率范围内，不同的频率，听力的感觉也会不一样

振幅

物体未受到振动影响时的位置（横轴上）称为平衡位置；
从平衡位置到最大位移位置之间的距离，就叫做振幅；
振幅代表响度，振幅越大表示响度越大能量越大，我们听到的声音就越大；

波形

上面我们说声波是正弦或余弦函数的图；但这是在单一频率的声波的情况下的；
事实上，声源的振动产生的并不是单一频率的声波，而是由基音和不同频率的泛音组成的复合声音；当声源的主体振动时会发出一个基音；同时其余各部分也有复合的声源，这些声源组合产生泛音（其实就是物理学上的谐波）
泛音决定了不同的音色，不同的声源由于其材料、结构不同，泛音不同，则发出声音的音色也不同；

不同谐波不同的波形

最后用一张图总结三要素

声波三要素

音频数字化

上面讲到声音的本质是声波的形式，声音属于模拟信号，但便于计算机处理和存储的是数字信号；所以需要将模拟信号（转成数字信号后进行存储。这一过程，即为音频数字化。
我们在互联网上听到的声音，都是先经过录制后转为了数字音频，再传输到互联网上的；

音频数字化的常见技术方案是脉冲编码调制（PCM，Pulse Code Modulation）；
主要过程：采样、量化、编码。

采样

所谓采样就是在时间轴上对信号进行数字化

模拟信号的波形是无限光滑的，可以看成由无数个点组成，由于存储空间是相对有限的，数字编码过程中，必须要对波形的点进行采样。采样就是每隔一段时间采集一次模拟信号的样本，在时间上将模拟信号离散化的过程。

根据采样定理(奈奎斯特–香农采样定理)，只有当采样率高于声音信号最高频率的2倍时，才能把采集的声音信号唯一地还原成原来的声音；因此要按比声音最高频率高2倍以上的频率对声音进行采样；人耳能够听到的频率范围是20Hz~20kHz，所以采样频率一般为 44.1kHz，这样就可以保证采样声音达到20kHz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。采样率表示每秒采集的样本数量，44.1kHz就是代表1秒会采样44100次;

samping

量化

量化是指在幅度轴上对信号进行数字化，将每一个采样点的样本值数字化

比如用16比特的二进制信号来表示声音的一个采样，而16比特所表示的范围是[-32768，32767]，共有2^16=625536个可能取值，因此最终模拟的音频信号在幅度上也分为了65536层

format

这里的16bit即为位深度（采样精度/采样大小）：使用多少个二进制位来存储一个采样点的样本值；位深度越高，表示的振幅越精确；

编码

所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储，等等。

编码涉及了很多种格式，通常说的音频裸数据格式就是PCM（脉冲编码调制）数据。PCM需要以下几个概念：采样格式(sampleFormat)、采样率 (sampleRate)、声道数(channel)。

采样格式：包含采样位深度、大小端模式、数据排列方式等；
以FFmpeg定义的sampleFormat为例：

enum AVSampleFormat {
    AV_SAMPLE_FMT_NONE = -1,
    AV_SAMPLE_FMT_U8,          ///< unsigned 8 bits
    AV_SAMPLE_FMT_S16,         ///< signed 16 bits
    AV_SAMPLE_FMT_S32,         ///< signed 32 bits
    AV_SAMPLE_FMT_FLT,         ///< float
    AV_SAMPLE_FMT_DBL,         ///< double
    AV_SAMPLE_FMT_U8P,         ///< unsigned 8 bits, planar
    AV_SAMPLE_FMT_S16P,        ///< signed 16 bits, planar
    AV_SAMPLE_FMT_S32P,        ///< signed 32 bits, planar
    AV_SAMPLE_FMT_FLTP,        ///< float, planar
    AV_SAMPLE_FMT_DBLP,        ///< double, planar
    AV_SAMPLE_FMT_S64,         ///< signed 64 bits
    AV_SAMPLE_FMT_S64P,        ///< signed 64 bits, planar
    AV_SAMPLE_FMT_NB           ///< Number of sample formats. DO NOT USE if linking dynamically
};�����������������

其中U,S,F,D表示存储的类型，对应unsigned、signed、float和double类型；
数值表示位深度；
P表示声道数据排列方式为Planar，还有排列方式为Packed：
对于双声道音频来说，Packed表示两个声道的数据交错存储，交织在一起，即：
LRLRLRLR 的存储方式；
Planar 表示两个声道分开存储，也就是平铺分开，即：
LLLLRRRR 的存储方式；
以Packed存储方式为例大端模式不同位深度数据存储如下：

数据存储

声道：单声道产生一组声波数据，双声道（立体声）产生两组声波数据。
对于声音格式，还有一个概念用来描述它的大小，称为比特率(byteRate)，即指单位时间内传输或处理的比特数量；单位是：比特每秒（bps），还有：千比特每秒（Kbps）、兆比特每秒（Mbps）等等；

以CD的音质为例：位深度为16比特(2字节)，采样率为44.1kHZ，声道数为2，这些信息就描述了CD的音质。对于1分钟CD音质的数据，比特率为：

44100 * 16 * 2 = 1378.125 Kbps

存储空间为：

1378.125 * 60 / 8 / 1024 = 10.09MB

通常，采样率、位深度越高，数字化音频的质量就越好。从比特率的特性可以看得出来：比特率越高，数字化音频的质量也越好；我们所说的无损音乐，就是采样率、位深度都很高的，没有进行压缩处理的数字化声音；

最后还是用一张图总结数字化过程：

process

音频编解码

编码

前面计算了每分钟CD音质的数据采样格式，需要的存储空间约为10.1MB；在网络中传播的话，数据量太大了；
为了更便于存储和传输，一般都会使用某种音频编码对它进行编码压缩，然后再存成某种音频文件格式。

压缩分为无损压缩和有损压缩。
无损压缩：解压后可以完全还原出原始数据；
有损压缩：解压后不能完全还原出原始数据，会丢失一部分信息；一般是压缩掉冗余信号(冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等)，不进行编码处理。

解码

当需要播放音频时，得先解码（解压缩）出PCM数据，然后再进行播放。

常见的编码格式：

code

WAV编码
WAV（Waveform Audio File Format），是由IBM和Microsoft开发的音频文件格式，扩展名是.wav，通常采用PCM编码，常用于Windows系统中；编码的一种实现就是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息。

特点:音质非常好，大量软件都支持。
适用场合:多媒体开发的中间文件、保存音乐和音效素材。

MP3编码
MP3（MPEG Audio Layer III）具有不错的压缩比，使用LAME编码的中高码率的MP3文件，听感上非常接近源WAV文件。

特点: 压缩比比较高，大量软件和硬件都支持，兼容性好。
适用场合:高比特率下对兼容性有要求的音乐欣赏。

AAC编码
AAC（Advanced Audio Coding）是新一代的音频有损压缩技术；

AAC编码的文件扩展名主要有3种：

.acc：传统的AAC编码，使用MPEG-2 Audio Transport Stream（ADTS）容器
.mp4：使用了MPEG-4 Part 14的简化版即3GPP Media Release 6 Basic（3gp6）进行封装的AAC编码
.m4a：为了区别纯音频MP4文件和包含视频的MP4文件而由Apple公司使用的扩展名；

特点:在小于128Kbit/s的码率下表现优异，并且多用于视频中的音频编码。
适用场合:128Kbit/s以下的音频编码，多用于视频中音频轨的编码。

代码实现

AVFoundation 音频编码

// -----解码----
// AVAssetReader
do {
    reader = try AVAssetReader(asset: composition)
} catch let e {
    callback(false, e)
    return
}
reader.timeRange = CMTimeRange(start: .zero, duration: composition.duration)
// AVAssetReaderOutput
audioOutput = AVAssetReaderAudioMixOutput(audioTracks: audioTracks, audioSettings: nil)
audioOutput.alwaysCopiesSampleData = false
audioOutput.audioMix = audioMix
if reader.canAdd(audioOutput) {
    reader.add(audioOutput)
}
if !reader.startReading() {
    callback(false, reader.error)
    return
}

// -----编码----
// AVAssetWriter
do {
    writer = try AVAssetWriter(outputURL: outputUrl, fileType: .mp3)
} catch let e {
    callback(false, e)
    return
}
writer.shouldOptimizeForNetworkUse = true
let audioOutputSettings: [String : Any] = [
    AVFormatIDKey: NSNumber(value: kAudioFormatMPEGLayer3),
    AVNumberOfChannelsKey: NSNumber(value: 2),
    AVSampleRateKey: NSNumber(value: 44100),
    AVEncoderBitRateKey: NSNumber(value: 128000)
]
// AVAssetWriterInput
audioInput = AVAssetWriterInput(mediaType: .audio, outputSettings: audioOutputSettings)
if writer.canAdd(audioInput) {
    writer.add(audioInput)
}
writer.startWriting()
writer.startSession(atSourceTime: .zero)
// 准备写入数据
videoInput.requestMediaDataWhenReady(on: inputQueue) { [weak self] in
    ...
}

其中audioOutputSettings的4项就对应上面分析过的：编码格式，声道数，采样率，比特率；这些设置最终决定了编码后音频的格式、音频的存储空间及音质；
而且这些设置都是固定组合的，不同编码格式Format所需的Key有所不一样；

wav/pcm 格式设置（需要pcm相关设置）：

let audioOutputSettings: [String : Any] = [
        AVFormatIDKey: NSNumber(value: kAudioFormatLinearPCM),
        AVNumberOfChannelsKey: NSNumber(value: 2),
        AVSampleRateKey: NSNumber(value: 44100),
        AVLinearPCMBitDepthKey: NSNumber(value: 16),
        AVLinearPCMIsBigEndianKey: NSNumber(value: false),
        AVLinearPCMIsFloatKey: NSNumber(value: false),
        AVLinearPCMIsNonInterleaved: NSNumber(value: false)
    ]

FFmpeg

// 解码  mp3-->pcm
ffmpeg -i test.mp3 -acodec pcm_s16le -f s16le -ac 2 -ar 44100 test.pcm

// 编码  pcm-->mp3
ffmpeg -f s16le -ac 2 -ar 44100 -acodec pcm_s16le -i test test_new.mp3

播放pcm

ffplay -i crop.pcm -ar 44100 -ac 2 -f s16le