声纹识别的三生三世

0. 什么是声纹识别

通俗的讲,就是给我一句话,判断出这句话是谁讲的。

再细分一下,分为说话人确认(speaker verification)和说话人识别(speaker identification)。

说话人确认:Is this Bob's voice ?

说话人识别: whose voice is this ?

声纹识别的三生三世_第1张图片声纹识别的三生三世_第2张图片

 

 

1. 第一代声纹识别

UBM-MAP方案

step1: 获得通用背景模型(universal background model, UBM):通过大量语音数据依据EM算法基于MLE准则训练得到;

这时候,UBM一般采用GMM建模。

step2: 注册阶段

用几句说话人数据对UBM进行MAP自适应,得到说话人的声纹模型(SPK);

step3:测试阶段

计算P(O|SPK1),..., P(O|SPKn), P(O|UBM), 基于此判断语音O属于哪个说话人。

 

 

2. 第二代声纹识别

i-vector方案

本质上是将说话人语音用一个向量来表征,基于因子分析理论。

声纹识别的三生三世_第3张图片

3. 第三代声纹识别

深度神经网络方案,目前存在DNN-vector, RNN-vector, CNN-vector三种。

本质上是将神经网络的最后一个隐层输出作为说话人信息表征。

 

 

你可能感兴趣的:(声纹识别)