声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型

目录

1. 训练UBM通用背景模型

GMM-UBM

2. 训练与提取ivector

i-vector

DNN-based ivector

d-vector

3. 训练分类器(e.g. PLDA,神经网络)

距离度量:余弦距离

LDA

PLDA:效果略胜于LDA

Triplet Loss

x-vextor 15-16年

VGGVox

Deep speaker(Baidu)

GE2E Loss(Google)

4. 总结

5. 实验建议


1. 训练UBM通用背景模型

UBM模型是一个与说话人、信道无关的高斯混合模型,并且可以作为训练集的统一参考坐标空间,还可以一定程度上解决说话人样本少的问题。

通过EM期望最大化,训练UBM模型,先训练一个协方差对角阵,再训练全矩阵。

GMM-UBM

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第1张图片

GMM:均值、方差、权重

UBM:共性特征

2. 训练与提取ivector

i-vector

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第2张图片

MAP说话人自适应

m:UBM的均值(已知)

s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)

T:训练得到

w:特定说话人的ivector

一般只更新均值,不更新方差

DNN-based ivector

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第3张图片

d-vector

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第4张图片

输入之前的30帧和之后的10帧,总共40帧Fbank作为输入,中间通过N层全连接层,激活函数是maxout(可以拟合任何一种凸函数),加dropout(随即关闭一部分神经元使之无效,防止过拟合),d-vector是最后一个隐层的向量

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第5张图片

3. 训练分类器(e.g. PLDA,神经网络)

 

距离度量:余弦距离

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第6张图片

LDA

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第7张图片

PLDA:效果略胜于LDA

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第8张图片

Triplet Loss

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第9张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第10张图片

+当中括号里面是负数是,取0

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第11张图片

p=2欧式距离

x-vextor 15-16年

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第12张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第13张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第14张图片

VGGVox

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第15张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第16张图片用小卷积核增强建模能力

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第17张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第18张图片

VGG参数难训练,效果不好

CNN输入必须保证输入是同样大小

Deep speaker(Baidu)

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第19张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第20张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第21张图片循环神经网络

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第22张图片

 

 

Batch上归一化

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第23张图片

GE2E Loss(Google)

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第24张图片

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第25张图片

Sji,j尽可能大(跟自己相比)

4. 总结

声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型_第26张图片

5. 实验建议

  • VAD一定要做,通过帧能量(MFCC)给一个下限,只保留有说话的部分
  • 模型融合,多个模型的得分进行融合,e.g. embedding,特征维度上的融合,
  • CNN输入要剪成一样的大小,RNN则不必

 

 

 

你可能感兴趣的:(机器学习,Kaldi学习,音频学习笔记)