Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解

"MSR Identity Toolbox"里使用到了G-PLDA(Gaussian probabilistic LDA)。

根据文献[1]对G-PLDA的原理进行了初步的了解,记录如下。

 

1. 简化版的G-PLDA的模型定义如公式(3)。

这里 是观察向量,m是均值, 是说话人特征子空间矩阵, 是说话人隐变量, 是残差高斯噪声。

 

2. 根据文献[1],loglikelihood ratio for this hypothesis test定义如下。分子是假定 是同一说话人,分母则是假定是不同说话人。

要理解公式(4)可参考PLDA的原始论文(参考文献[2])中的Figure 2 B. 现截图如下。

M0是说x1和xp分别来自不同人h1和h2,而M1是说x1和xp来自同一个人h1。

Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解_第1张图片

 

 

3. 根据另一个参考文献,公式(4)可以推导如下:

Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解_第2张图片

以上式子中的分母对应的是边缘分布p(w1)和p(w2)的乘积,分子则是边缘分布p(w1,w2)。

由于w1,w2都是高斯分布,因此根据参考[1]不难得出以下推导,第1项是p(w1,w2),第2项是p(w1)和p(w2)。

Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解_第3张图片

 

参考:

[1] Analysis of I-vector Length Normalization in Speaker Recognition Systems

[2] Probabilistic Linear Discriminant Analysis for Inferences About Identity

你可能感兴趣的:(Speaker,Recognition)