从加载进来音频开始看起,前面制作路径列表就不在细述了
wav = audio.load_wav(wav_path)
if hparams.rescaling:
wav = wav / np.abs(wav).max() * hparams.rescaling_max
首先遇到hparams.rescaling_max=0.99,即wav / wav内元素绝对值中的最大值,将使得所有元素范围在(-1,1),相当于做个归一化。
if is_mulaw_quantize(hparams.input_type):
# [0, quantize_channels)
out = P.mulaw_quantize(wav, hparams.quantize_channels)
# Trim silences
start, end = audio.start_and_end_indices(out, hparams.silence_threshold)
wav = wav[start:end]
out = out[start:end]
constant_values = P.mulaw_quantize(0, hparams.quantize_channels)
out_dtype = np.int16
elif is_mulaw(hparams.input_type):
# [-1, 1]
out = P.mulaw(wav, hparams.quantize_channels)
constant_values = P.mulaw(0.0, hparams.quantize_channels)
out_dtype = np.float32
else:
# [-1, 1]
out = wav
constant_values = 0.0
out_dtype = np.float32
这段代码用来判断是否压缩,静音处理。如果输入参数input_type为mulaw_quantize则需要量化、压缩、静音过滤处理。如果为mulaw则进行只压缩处理。如果是raw则输入原音频,不做处理。这里的参数为raw。
调试证明mulaw_quantize时,量化后的输出out取值在[717-65533],因为静音阈值设置为2,代码要求量化值减去127要大于阈值。参数为mulaw和raw时取值为[-1,1]
mel_spectrogram = audio.melspectrogram(wav).astype(np.float32).T
接下来遇到这个代码,melspectrogram这个函数是个硬骨头,得慢慢啃。这里主要是一段实现MFCC的过程建议大家到网上浏览下MFCC的实现流程。这里大概说下流程:
先对语音进行预加重、分帧和加窗;对每一个短时分析窗,通过FFT得到对应的频谱;将上面的频谱通过Mel滤波器组得到Mel频谱;在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC 。详细可以读读原文。 (原文链接:https://blog.csdn.net/zouxy09/article/details/9156785)
def melspectrogram(y):
D = _lws_processor().stft(y).T
S = _amp_to_db(_linear_to_mel(np.abs(D))) - hparams.ref_level_db
if not hparams.allow_clipping_in_normalization:
assert S.max() <= 0 and S.min() - hparams.min_level_db >= 0
return _normalize(S)
def get_hop_size():
hop_size = hparams.hop_size
if hop_size is None:
assert hparams.frame_shift_ms is not None
hop_size = int(hparams.frame_shift_ms / 1000 * hparams.sample_rate)
return hop_size
def _lws_processor():
return lws.lws(hparams.fft_size, get_hop_size(), mode="speech")
def _build_mel_basis():
assert hparams.fmax <= hparams.sample_rate // 2
return librosa.filters.mel(hparams.sample_rate, hparams.fft_size,
fmin=hparams.fmin, fmax=hparams.fmax,
n_mels=hparams.num_mels) #构造一个梅尔滤波器组
def _linear_to_mel(spectrogram):
global _mel_basis
if _mel_basis is None:
_mel_basis = _build_mel_basis()
return np.dot(_mel_basis, spectrogram)
def _amp_to_db(x):
min_level = np.exp(hparams.min_level_db / 20 * np.log(10))
return 20 * np.log10(np.maximum(min_level, x))
def _normalize(S):
return np.clip((S - hparams.min_level_db) / -hparams.min_level_db, 0, 1)
首先说明,本次debug下的输入音频y的尺度为(212893, ),后续需要对比一些变化,第一个用到了lws下的get_hop_size()函数,该函数主要是构造分帧时的移动步长,参数hparams.hop_size=256,该函数返回的值也是256,即后续移动步长为256。
至于lws.lws()这个函数没有找到源代码,不过根据MFCC实现过程来看,这里是实现了加窗和分帧的操作。
接下来是个短时傅里叶函数,MFCC的第二步。经过短时傅里叶stft函数后咱们拿到了频谱D,D次数的尺度是(513,835),也就是835个帧,每帧513个样点,步长为256,每次向前移动256,帧与帧之间重合样点513-256,这样算出来的总长度是略大于输入y的,但是由于stft这个函数源代码看不到,可能是中间有补零或者其他什么操作吧。
现在的D便是我们想要的频谱。之后我们需要使用mel滤波器得到mel频谱。
_linear_to_mel(np.abs(D))
先求个绝对值,然后便转到了_build_mel_basis()函数这里,librosa.filters.mel()就是用来构造梅尔滤波器的函数,具体函数用法可以Baidu一下。这里咱们输入的梅尔滤波器函数个数的参数为80,也就是将产生80个梅尔滤波器,注意梅尔滤波器的个数是可以和频谱个数不同的,这里将产生的mel系数为(80,513),之后将梅尔系数和频谱点乘,得到我们的mel频谱(80,835)。第三步的MFCC完成。
之后是_amp_to_db函数,该函数应该就是实现了将mel频谱转换到倒谱上,然后求倒谱系数的过程。(好吧,我承认这里我是懵逼的,一堆数学公式真的看不懂。。。。)
最后的_normalize(S)函数是用来归一化的。。。
后续的代码便是保存原音频的npy数据,保存MFCC特征的npy数据,也不再细述。