音频变调算法小结

(本文目前很简略,我有机会再完善。所以目前本文不适合大众阅读,除了文后列举的参考文献)


什么是变调?

一段声音可以理解为多种频率正弦波的叠加[1],而音调就是一段声音的主要频率。改变了主要频率,就是改变了音调——提高了主要频率,就是升调,反之亦然。


音频变调的几种方法

磁带机快进的时候播放,声音会变得非常刺耳,这就是升调的表现——我们可以粗略地理解为,当速度变了,那么频率也会改变。本文的“音频变调”算法有个前提,是“变调不变速”。与“变调不变速”算法相关的,自然是“变速不变调”算法。参考文献[2] 已经汇总了这两种算法。“变调不变速”有三类方法:时域法、频域法、参量法——但是不管哪一类方法,其本质都是“猜测”(或者叫估算)出“完美”变调后的声音波形。

“同步交叠相加方法”(Synchronized overlap-add method, SOLA) 是一种常见的时域法。在 SoX 中的 pitch 音效使用的就是这种方法。这种方法应该是计算复杂度最低的算法了,对于实时性要求高、计算能力差(如移动设备)的场景下可以考虑。

文献[3]是频域法的一个具体实现方式,其C++实现的代码也公开了出来(见文献[3]的链接)。频域法的主体思想是把频域中的幅度做整体平移(左移就是降调,右移同理),然后在恢复成时域信号。频域法需要做傅里叶变换或者小波变换等频谱变换,计算复杂度往往比时域法高。


相关开源软件

· SoX: http://sox.sourceforge.net/

· SoundTouch: http://www.surina.net/soundtouch/

· smbPitchShift.cpp :  http://blogs.zynaptiq.com/bernsee/download/


参考文献(文中提及)

1. 叠加原理: https://en.wikipedia.org/wiki/Superposition_principle

2. 变速变调原理与方法总结: http://www.cnblogs.com/welen/p/3782896.html

3. Pitch Shifting Using The Fourier Transform:  http://blogs.zynaptiq.com/bernsee/pitch-shifting-using-the-ft/


参考文献(文中未提及)

· Audio time-scale/pitch modification:  https://en.wikipedia.org/wiki/Audio_time-scale/pitch_modification

· Pitch Shifting: http://www.katjaas.nl/pitchshift/pitchshift.html

· Guitar Pitch Shifter: http://www.guitarpitchshifter.com/algorithm.html

· Real-time pitch-shifting of musical signals by a time-varying factor using normalized filtered correlation time-scale modification (NFC-TSM):http://dafx.labri.fr/main/papers/p007.pdf

· Pitch shifting of voices in real-time: https://www.uvic.ca/coopandcareer/assets/docs/studentsalumni/report-Rahman446.pdf

· 分段语音时长规整算法: http://sxjs.cnjournals.cn/ch/reader/create_pdf.aspx?file_no=20070625&flag=1&journal_id=sxjs&year_id=2007 

· Time and pitch scaling in audio processing: http://www.surina.net/article/time-and-pitch-scaling.html

你可能感兴趣的:(音频变调算法小结)