变声总结（声音概念、采集、变声、SoundTouch 和 FMOD 对比等）

一、声音相关概念

声音是由物体震动产生的，我们可以把从感知的角度分为三种属性：

响度(Loudness)，即音量，与振幅有关。
音调(Pitch)，即高音和低音，与声音的频率有关系。
音色：使用不同的材质来制作，所表现出来的音色效果是不一样的。

响度和音调只要联想到正弦波非常容易理解，然而音色是什么？

音色 = 基频 + 泛音（多个）

一个物体发生的同时，会发出很多不同频率的波（谐波）。这许多不同频率的波由于相位差很小（也就是相隔时间很短），人是无法单独分辨的，所以这些波会混合起来一起给人一个整体的感受，而这个感受就叫做音色。

想想就很容易理解了，人的喉咙是立体的，发声时喉咙内每一部分都会产生振动，不同部位产生的振动频率就存在差异。其中频率的相对量最大的决定了声音的音调，其它的频率即泛音。当然人说话时还有鼻子和嘴来协助，另外即便是乐器或其它任何发声物体也往往是整体产生共鸣的结果。

看到一个这样的比喻：如果一个声音中从1到20K赫兹频率的波都有，并且都是1:1的关系，即相对强度都相同。这样一个声音就称为白噪音，听起来就和收音机收不信号时的音色一样。如果我有2万只音箱，每一个音箱分别对应放从1到20k赫兹不同频率的声波。那么我通过开关不同的音箱，调节每个音箱的音量，从理论上讲我就可以得到任何我想要的音色。不论是韩红的声音还是孙楠的声音，小提琴的声音。

声音采集

将模拟信号数字化，分为取样和量化两部分，即通常的 PCM(Pulse-code modulation) 脉冲编码调制技术。

采样速率(Sampling Rate)

人耳所能辨识的声音范围是 20-20KHZ，根据奈奎斯特抽样定理(要从抽样信号中无失真地恢复原信号，抽样频率应大于 2 倍信号最高频率)，所以人们一般都选用 44.1KHZ(CD)、48KHZ 或者96KHZ 来做为采样速率。
采样深度(Bit Depth)

量化(Quantization) 是将连续值近似为某个范围内有限多个离散值的处理过程，这个范围的宽度离散值的数量表达，会直接影响到音频采样的准确性。一般 8位（256），和 16位（65536）来表示。
PCM 文件大小
```
存储量 = (采样频率 · 采样位数 · 声道 · 时间)／8 (单位：字节数)
```
- 采样频率：在16位声卡中有22KHz、44KHz等几级，其中，22KHz相当于普通FM广播的音质，44KHz已相当于CD音质了，目前的常用采样频率都不超过48KHz。
- 采样位数：在计算机中采样位数一般有8位和16位之分，8位不是说把纵坐标分成8份，而是分成2的8次方即256份；同理16位是把纵坐标分成2的16次方65536份。
- 声道数：单声道的声音只能使用一个喇叭发声，立体声的pcm可以使两个喇叭都发声，更能感受到空间效果。

声道和立体声
- Monaural (单声道)
- Stereophonic(立体声)
- 4.1 Surround Sound(4.1环绕立体声)
- 5.1 Surround Sound(5.1环绕立体声)

音频的几种文件格式
- 不压缩的格式(UnCompressed Audio Format)：PCM数据，wav, aiff
- 无损压缩格式(Lossless Compressed Audio Format)：FLAC, APE, WV, m4a
- 有损压缩格式(Lossy Compressed Audio Format)：mp3, aac

常见的 wav 格式的音频数据其实是 pcm 文件 + 46字节的头信息，头信息记录了 PCM 文件的采样率、采样深度、声道数等信息，可方便播放进行解码。

二、变声原理

变声即是对 PCM 数据进行的处理，如果是其它格式（如：MP3）也需要先解压成 PCM 格式再进行处理。

常用的变声，如女生、男生、小黄人都是对音调（即频率）进行的处理。当音调高时就是女声，低时即男声，常常听到的女声比男声高八度还是有点道理的。

另外还有一些对声音的高级处理，如：混响（Reverb）、回声（Echo）、EQ、锯齿（Flange）等。下面重点说一下混响：

Reverb（或残响）是Reverberation的简写，当一个声音发出后，当它碰到障碍物后会反射，碰到下一个障碍物会再反射，不停反射直至它的能量消失为止。这个持续在空间中反覆反射动作形成的声音集成，就是残响。不是每个频率衰减的速度都一样。同样的声音在同个空间不同位置，到达人耳所经过的反射次数、时间都是不同的，混音时使用 reverb 器材或插件可重新塑造声音的立体空间感，让声音有远近等不同距离的层次。

混音常用的Reverb效果器大概分为两大类。一类是靠电脑程式运算出来的演算式残响（Algorithmic Reverb）;另一类是取样式残响(Convolution Reverb)。演算式残响就是利用程式运算，模拟空间的各种反应参数，是人工制造出来的残响。取样式残响是在真实空间中做声音脉冲反应的取样（impulse response），加到欲使用的声音上。

这里区分下 Reverb 和 Echo 的区别：

通常Echo是指声音发出后，要较长时间才会收到反射音的状态，就像我们对着远方的山大喊；「喂～」我们不会马上听到反射回来的声音，通常是喊完后隔了一小段时间才会听到明显反射回来的「喂～喂～～喂～～～」，这种称之为Echo，Echo算是reverb的一种，但 reverb 是个更大的概念。
当回声与原始声音直接的间隔较大时，如 >200ms，我们耳朵能分辨出两个声音的就是 Echo。如果两个声音直接的间隔比较小，通常我们无法分辨出来，与原始声音产生了共鸣的叫 Reverb。

三、第三方处理库

调研中发现的对声音处理的库主要有两个：

SoundTouch 是一个开源的音频处理库，用于改变音频流或音频文件的节奏、音调和播放速率。
FMOD 声音系统是为游戏开发准备的音频引擎，商业用途需要购买许可证。除了 SoundTouch 只能对声音进行变调处理功能外，还包括了前面提高和没提到的高级功能（Reverb、Echo、EQ、Flange、3D...）。

SoundTouch 与 FMOD 对比

SoundTouch
- 优点：开源！因此具有很高的可塑性，可以自由定制完全适用于自己应用。可以处理音调、速率和节拍功能。
- 缺点：功能单一，满足不了需求。
如果只需要处理音调，变男声女声童声等功能使用 SoundTouch 是最佳选择。如果还需要对声音做其它处理，时间充足情况下也可以考虑修改源码，加入相应的算法来达到所需的功能。
FMOD
- 优点：声音处理功能强大，可以方便的对声音进行处理。
- 缺点：非开源，商用不免费，定制化差。
虽然目前暂时选择用 FMOD，但是不能快速导出处理后的音频文件依然是硬伤，无法很好的满足产品需求。

FMOD 常见变声和参数说明

萝莉

提高 8 个音调
大叔

降低音调到 0.8

惊悚（效果待优化）

设置颤音效果（Tremolo）

system->createDSPByType(FMOD_DSP_TYPE_TREMOLO, &dsp);
dsp->setParameterFloat(FMOD_DSP_TREMOLO_SKEW, 0.5);
dsp->setParameterFloat(FMOD_DSP_TREMOLO_FREQUENCY, 20);

搞怪（效果待优化）

提高语速，x2
空灵（效果待优化）

设置 Echo

山谷

设置 Echo

system->createDSPByType(FMOD_DSP_TYPE_ECHO, &dsp);
dsp->setParameterFloat(FMOD_DSP_ECHO_DELAY, 500);
dsp->setParameterFloat(FMOD_DSP_ECHO_FEEDBACK, 22);
dsp->setParameterFloat(FMOD_DSP_ECHO_WETLEVEL, -15);

礼堂

设置混响，目前用的 Sfx 的混响模式，参数比较多，在 fmod_common.h 文件的 FMOD_REVERB_PROPERTIES 结构下面列举了值：

FMOD_PRESET_AUDITORIUM { 4300, 20, 30, 5000, 59, 100, 100, 250, 0, 5850, 64, -11.7f }
教室

设置混响，Sfx 混响算法

{ 400, 2, 3, 5000, 83, 100, 100, 250, 0, 6050, 88, -9.4f }
现场演出

设置混响，Sfx 混响算法

FMOD_PRESET_CONCERTHALL { 3900, 20, 29, 5000, 70, 100, 100, 250, 0, 5650, 80, -9.8f }
机器人（效果待优化）

设置锯齿（Flange）效果
小黄人（效果待优化）

提高 8 个音调，加快语速 120%
明亮

调整 EQ，将 500-2000Hz 的 Q 值调高

四、生活中声音有意思的事（个人理解，科学度待考证）

研究了这么久的声音，回到生活中，解开了一些有趣的小点，原来为什么是这样。

视频的倍速播放范围在 0.5-2 之间

快速播放时其实是对音频数据的再次采样，并且在数据丢失的同时音调也会发生变化，根据前面采样时提到的奈奎斯特抽样定理，抽样频率应大于 2 倍信号最高频率，否则信号失真而无法完整获取信息，因此因此音频播放过快时而无法得到完整信息。
电话的采样率是 8000Hz(次/每秒)

人的发声范围为 85HZ～1100HZ，而电话采用 8000Hz 的采样率足以满足语音需求。（发音时还有谐波产生的频率肯定是大于这个范围的，但那个只会影响到音色，对交流没啥影响）
女声比男声高八度

其实女声比男声只高 4-6 度，并没有所说的 8 度。音乐上男女合唱设计为 8 度是为了能在一个调上（do re mi fa sol la si do）达到和谐的演奏效果。
为嘛需要录音棚

录音棚除了专业的录音设备，同时可减少噪音录入，混响录音棚的设计更是加强了录音的立体效果。
声纹识别

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

五、还有待研究或实现的点

如何准确的变出机器人、小黄人等音效？

虽然设置了与相关视频中一样的参数，但是仍然无法达到理想的变身效果。可能是因为每个人的音调本身不一样导致，针对个人还需要进行微调等。

下面是找到的一些变声视频：
- 机器人音效
- 惊悚音效
如何变某个人的声音，像柯南变声器一样？

考虑过将自己的声音变成任何人的声音，最开始有一个天真的想法：“先将自己声音的基频提取出来，并分析提取目标声音的音调和泛音等，将自己的基音调至目标音调，并添加目标泛音模型，最后得到目标声音”。不过目前调研这一块比较绝望，还有待今后继续对声音的研究。

下面是分析提取基频的一些资料：
- 基频泛音的分离
- 如何得到一个曲子的基频？

六、参考资料

声音详解（台湾某大学博客）（推荐）
音色与声谱图（科学的欣赏流行乐）（推荐，站内的其它博客和资源也都不错）
声效详解
- 效果声的两种基本类型
- Reverb效果用法详解
- Reverb音效算法研究实现
- 音频均衡器Equalizer算法研究与实现
- Audition CC教程，从基础到掌握（对于理解处理声音的函数非常有帮助）
  - 如何倍速播放在线视频（现在已近无法忍受老师的慢节奏讲课了）
  - bilibili 视频如何加速播放

SoundTouch 和 FMOD 相关资料
- SoundTouch 实现音频变速变调
- FMOD 问答区
- FMOD 官方文档
- FMOD 变音播放博客

录音降噪和声音编辑
- 回声消除原理
- 回声消除开源库：Webrtc、Speex、Opus
- RingDroid
- 详解如何使用代码进行音频合成