MLLT(最大似然线性变换)

主要目的是:在最大似然(ML)准则下使用一个线性变换矩阵对参数特征矢量进行解相关。

在ML准则下,评价一个模型‘好坏’的标准是训练数据与模型匹配的似然度,如果似然度越高的话,我们说这个模型越好。MLLT的作者给出了在最大似然准则下(ML)使用对角协方差矩阵的缺点,及其对训练数据集描述似然度的损失。

在原特征空间,建立模型,匹配训练数据,得到似然度P。考虑在特征空间做一个线性变换, yi=Axi ,然后在新的特征空间进行建模、匹配,同样得到一个新的似然度 Py 。由于似然度分别在两个不同空间计算,所以不能直接相比,解决的办法有两个,一个是限制 |A|=1 ,另一个办法就是将似然度变换回原空间的尺度: P(XN1,{μi}x,{Σi}x)=Py(yN1,{μi}y{Σi}y)Mi=1|A|Ni 。这里,采用第一个限制来叙述,即采取限制 |A|=1

为简单起见,采取单高斯模型来分析,在原特征空间,单高斯模型对训练数据的似然度为

P=a(N,d)exp(12N[(μ¯μ)TΣ1(μ¯μ)+Tr(Σ1Σ¯¯¯)+log|Σ|])(1)

这里, a(N,d)=(2π)Nd2 。在ML准则下,估计出来的模型参数 μ Σ 的估计值 μˆ Σˆ 分别等于训练数据的样本均值 μ¯ 和样本协方差 Σ¯¯¯ ,代入等式(1)中得到

P(xN1)=g(n,d)|Σ¯¯¯|N2(2)

其中 g(N,d)=(2πe)Nd2 是个常数。从公式(1)我们可以看到,在ML准则下,模型与训练集的匹配似然度大小仅仅取决于样本协方差 Σ¯¯¯

当对特征矢量做线性变换 yi=Axi ,可以求出 μ¯y=Aμ¯ Σ¯¯¯y=AΣ¯¯¯AT 。可以计算出其似然值

P(xN1)=g(n,d)|AΣ¯¯¯AT|N2=|A|NP(xN1)(3)

由于采用了限制 |A|=1 ,所以,做了线性变换之后,似然度并没有变化,从ML的角度来说,模型并没有被优化。
但是在实际应用中的高斯模型是受限的,即样本协方差矩阵被对角化了。也就是说ML的模型参数 μ Σ 的估计值为 μˆ=μ¯ Σˆ=diag(Σ¯¯¯) 。那么,式(3)的ML值就变成

Pdiag(xN1)=g(n,d)|diag(Σ¯¯¯)|N2(4)

由于有Hadamard不等式,对于对称的非负定的矩阵有 |diag(Σ¯¯¯)||Σ¯¯¯| ,所以有
P(xN1)Pdiag(xN1)

也就是似然度变小了,模型的精度下降了。

而作了线性变换之后,似然度为 Pdiag(yN1)=g(n,d)|diag(Σ¯¯¯)|N2 ,可见,与式子(4)不同了,如果变换阵A能够使得样本协方差矩阵 Σ¯¯¯ 尽可能对角化,减少取对角的损失,就可以使得 P(xN1)Pdiag(xN1) 。比如,A为样本协方差矩阵 Σ¯¯¯ 的PCA变换阵,那么由于 AΣ¯¯¯AT=Λ Λ 是由 Σ¯¯¯ 的特征值组成的对角阵,而且 |Λ|=|Σ¯¯¯| ,所以此时,

Pdiag(yN1)=P(xN1)Pdiag(xN1)(5)

从而使得新空间中,模型与训练集的似然度增加。

你可能感兴趣的:(语音识别)