x-vector:Deep Neural Network Embeddings for Text-Independent Speaker Verification

会议:2017 interspeech
机构:The Johns Hopkins University
作者:David Snyder

abstract

 用dnn提取的embedding取代i-vector表示说话人特征,对输入的speech做时间池化,
用不同长度的语音训练网络,以区别说话人,句子对应定长的embeddding,成对的embedding用于PLDA打分。在NIST SRE2010和2016的数据集上和i-vector做比较,短时语音提取的embedding超过i-vector,长时语音和i-vector相匹敌。而且,这两者是互补的,它们的融合在公开数据集上表现出性能的改进。

??如何refusion??

introduction

 如果限定词汇的内容,就是文本相关的语音识别,否则就是文本独立的语音识别。本文针对文本独立的语音识别任务,将DNN提取出来的embedding与i-vector进行对比,并在多种实用条件下进行评估:比如限定数量的识别、在线无延时的识别。为了补充NIST2010的评估,我们做了一个改进版本–注册语音是全时长,测试语音只截取前边的。最后在NIST2016的粤语和塔拉家族语上评估性能,考虑到了不同语种和短时测试条件。

1.1. Speaker verification with i-vectors

 标准系统包含一系列的生成模型,在独立的子任务上训练的:UBM(universal background model)用于收集足够的数据,一个大的投影矩阵(projection matrix)收集i-vector,用PLDA计算i-vector之间的相似度。
 之前的UBM是在声学特征上训练的高斯混合模型,现在发现加入ASR DNN加进来会改善音素建模能力,但是这种改善仅在英语上发现,有语种限制,而且加入ASR DNN之后会极大的增加了计算复杂度。因此,一般只使用UBM提取i-vector。

1.2. SpeakerverificationwithDNNs

 有方法研究有区别的训练i-vector系统的部分组件,之前有人用nn成功的完成说话人分离的任务。训练之后,用神经网络提取帧级别的特征,然后作为高斯speaker model的输入
但是我们还没有看到工作证明这些方法比文本独立的i-vector SV有效果。
 在大型专有数据领域的文本相关的SV任务上取得一些进展,训练一个前传DNN判别是否是同一说话者,将最后一层softmax的输出丢弃,计算average hidden layer activation-作为说话人特征表示(d-vector)。
 【23】提出一个端到端的系统,既学习embedding,也做相似度的测量,在文本独立的SV任务上性能超过i-vector,但是这个系统的缺点是需要很大的域内speaker。本文是基于【23】做的改进,将提取embedding和测量相似度切分成两个任务,因此可以在更小的、公开课用数据集上改善性能。任务的目的也做了变动,不再是判断是否是同一说话者,而是区分training speaker。

2. Baseline i-vector system

 用kaldi中的GMM-UBM模型作为提i-vector的baseline,25ms的帧移提取20维MFCC,用i-vector extractor提取到600维i-vector,然后LDA降维到150维。(还有一些具体的步骤不太懂略过)

3. DNN embedding system

3.1. Overview

 对变长的语音信号提取定长的embedding,将【23】端到端的loss修改为multiclass cross entropy objective,然后单独训练一个PLDA比较embedding的相似度。用的是kaldi 的nnet3网络。

3.2. Features

 20维的mfcc,25ms帧移,最大3s的窗长,做VAD移去静默帧,然后接到TDNN的结构上。
x-vector:Deep Neural Network Embeddings for Text-Independent Speaker Verification_第1张图片

3.3. Neural network architecture

下图是训练的网络,前五层TDNN(time-delay nn),在帧级别进行操作,statistics pooling layer聚集帧特征,剩下的层是在segment level进行操作。

参考:
【1】也讲了x-vector,以及一种数据增强的方式https://blog.csdn.net/monsieurliaxiamen/article/details/79638227
《Robust DNN embeddings for speaker recognition》简言之就是加噪训练
【2】TDNN的讲解
https://www.jianshu.com/p/0207536ebc6c

你可能感兴趣的:(paper笔记,语音识别SV)