I-vector

在实际应用中,由于说话人语音中说话人信息和各种干扰信息掺杂在一起,不同的采集设备的信道之间也具有差异性,会使我们收集到的语音中掺杂信道干扰信息。这种干扰信息会引起说话人信息的扰动。传统的GMM-UBM方法,没有办法克服这一问题,导致系统性能不稳定。

在GMM-UBM模型里,每个目标说话人都可以用GMM模型来描述。因为从UBM模型自适应到每个说话人的GMM模型时,只改变均值,对于权重和协方差不做任何调整,所以说话人的信息大部分都蕴含在GMM的均值里面。GMM均值矢量中,除了绝大部分的说话人信息之外,也包含了信道信息。联合因子分析(Joint Factor Analysis, JFA)可以对说话人差异和信道差异分别建模,从而可以很好的对信道差异进行补偿,提高系统表现。但由于JFA需要大量不同通道的训练语料,获取困难,并且计算复杂,所以难以投入实际使用。由Dehak提出的,基于I-Vector因子分析技术,提出了全新的解决方法。JFA方法是对说话人差异空间以与信道差异空间分别建模,而基于I-Vector的方法是对全局差异进行建模,将其二者作为一个整体进行建模,这样处理放宽了对训练语料的限制,并且计算简单,性能也相当。

简而言之:
GMM-UBM缺点不能克服信道信息干扰的缺点
GMM-UBM得出的结果保存再均值矢量中
JFA提出对信道和说话人分别建模,难以获得不同通道的训练预料
i-vector对全局差异进行建模,将二者作为一个整体
i-vector中包含说话人差异信息和信道差异信息,所以要用信道补偿技术消除i-vector矢量中信道干扰

因子分析:
信息冗余是高维数据分析常见的问题,使用因子分析方法,可以将一些信息重叠和复杂的关系变量简化为较少的足够描述原有观测信息的几个因子,是一种数据降维的统计方法。本文介绍JFA和I-vector都为因子分析方法。
I-vector_第1张图片
联合因子分析(JFA)
传统的基于GMM-UBM的识别系统中,由于训练环境和测试环境的失配问题,会导致系统性能不稳定。联合因子分析(Joint Factor Analysis,JFA)认为,说话人的GMM模型的差异信息,是由说话人差异和信道差异这两个不可观测的部分组成的,公式如下:
在这里插入图片描述
其中,s为说话人相关的超矢量,表示说话人之间的差异;
c为信道相关的超矢量,表示同一个说话人不同语音段的差异;
M为GMM均值超矢量,表述为说话人相关部分s和信道相关部分c的叠加。

其中,s为说话人相关的超矢量,表示说话人之间的差异;

m为与说话人以及信道无关的均值超矢量;

V为低秩的本征音矩阵;

y为说话人相关因子;

D为对角的残差矩阵;

z为残差因子;

c为信道相关的超矢量,表示同一个说话人不同语音段的差异;

U为本征信道矩阵;

x为与特定说话人的某一段语音相关的因子。

这里的超参数集合{V,D,U}即为需要评估的模型参数。
I-vector_第2张图片
在这里插入图片描述
I-Vector矢量

设P维的观察矢量x可以用n个因子组合得到,它们之间的关系

受到JFA理论的启发,Dehak提出了从GMM均值超矢量中提取一个更紧凑的矢量,称为I-Vector。即为Identity-Vector。

GMM均值超矢量:
将说话人GMM模型的每个高斯成分的均值堆叠起来,形成一个高维的超矢量,即为均值超矢量。假设语音声学特征参数的纬度为P,GMM的混合度为M(M个高斯成分),那么这个GMM的均值超矢量的维度为MP。

模型概述:
在I-Vector模型中,我们采用全局差异空间(Total Variability Space,T),即包含了说话者之间的差异又包含了信道之间的差异。所以I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。

给定说话人s的一段语音h,这一新的说话人及信道相关的GMM均值超矢量定义为如下公式: M s , h = m u + T ω s , h M_{s,h}=m_u+T\omega _{s,h} Ms,h=mu+Tωs,h

I-vector_第3张图片

I-vector_第4张图片

I-Vector的矩阵估计过程
1、全局差异空间矩阵T的估计
I-Vector矢量定义为全局差异空间因子w的极大后验点估计,也就是隐藏因子w的后验均值。我们在估计获得全局差异空间矩阵T后,对给定的说话人的一句话,先提取零阶、一阶Baum-Welch统计量(在T矩阵估计中已提取),即可计算I-Vector的估计值,公式如下:

在这里插入图片描述

如果目标说话人的语音有h条,通过上述公式可以获得h条I-Vector矢量,一般情况下I-Vector的维度在400-600之间。该矢量可以代表说话人的身份,具有较强的区分性,而且维度相对较低,可以大幅减少计算量。

参考:
https://www.jianshu.com/p/e730e70de7f8
https://blog.csdn.net/weixin_38206214/article/details/81096092

你可能感兴趣的:(机器学习)