说话人识别模型(GMM-UBM)

GMM-UBM概述下载地址 :https://download.csdn.net/download/zongza/10643638
文中包含笔者在某语音公司实习期间撰写的说话人识别的完整过程介绍,包括音频语料预处理,模型搭建和训练以及未知音频预测等,可以作为试验复现的蓝本.

总结

1 声纹能作为判别不同人的依据是什么

每个人的声音都有独特的特征,这个特征由两个音素决定:
1 声腔的尺寸
2 发声器官被操纵的方式(比如声带上的肌肉运动)
这些因素使得声音变得独一无二

2 简述一下说话人识别流程

先进行特征提取,然后训练模型,最后是打分判决.
这其中特征提取包括 预加重,分帧加窗,傅里叶变换得到频谱图,之后再进行mel滤波使频谱图更紧凑,最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)的到MFCC特征向量.

3 什么是混合高斯模型GMM

GMM就是由多个单高斯分布混合而成的一个模型
1 为什么要混合呢,因为单个分布的话拟合能力不够
2 为什么要高斯呢,因为高斯分布有很好的计算性质,因为他有一个自然数e嘛,那很自然就可以取对数将乘法变成加法,同时呢,高斯分布也有很好的理论支撑,从中心极限定理可知,如果采样最够多的话,n个采样的平均值x拔会符合高斯分布,他的均值就是变量的均值,方差等于变量方差/n,那么只要n足够大,就可以用平均数的高斯分布去近似随机变量的高斯分布.

4 什么是通用背景模型UBM

UBM相当于一个大的混合高斯分布模型,他是为了解决目标用户训练数据太少的问题,用大量非目标用户数据训练出一个拟合通用特征的大型GMM

5 什么是最大似然估计

最大似然估计是一种反推,就是你只已经知道模型了,同时你也有了观测数据,但是模型的参数是未知的,这时候我肯定是算不出来准确的参数值的,那我可以把产生当前观测数据的可能性最大的参数当作估计值,这就是最大似然的含义,也就是最大可能性.

6 EM算法

EM算法的关键思想就是迭代求解.他有两个关键的步骤:期望步和最大化,期望的话就是说先用上一轮迭代得到的参数计算出隐性变量(无法直接观测到的变量,比如统计身高分布,某个人是男是女无法观测到)的期望,最大步就是使用最大似然估计和这个期望值来算出新的参数.
在混合高斯模型中,这个隐性变量实际上是描述数据由那个子高斯分布取样得到的,那他的期望实际上就是被某个子分布生成的概率

7 GMM-UBM模型

先使用大量的非目标用户数据训练UBM,然后使用MAP自适应算法和目标说话人数据来更新局部参数得到对应的GMM.
MAP自适应算法相当于先进性一轮EM迭代得到新的参数,然后将新参数和旧参数整合

你可能感兴趣的:(语音处理)