声纹识别的语言依赖前端分析

Analysis of Language Dependent Front-End for Speaker Recognition

声纹识别的语言依赖前端分析

摘要

在基于深度神经网络(DNN)i-vector的说话人识别系统中,训练用于自动语音识别的声学模型。基于DNN的声学模型通常使用像英语这样资源充足的语言进行训练。在登记和测试数据不是英语的评估条件下,如在NIST SRE 2016数据集中,DNN声学模型推广得很差。在搜索条件,基于传统的通用背景模型/高斯混合模型(UBM / GMM)我向量提取的性能比基于DNN的i-vector系统更好。在本文中,我们要解决,其中一个可以开发一个自动语音场景识别器具有用于评估条件中存在的语言的有限资源,因此能够使用DNN声学模型而不是UBM / GMM。假设开放训练条件,在NIST SRE 2016数据集的Tagalog子集上进行实验。使用经过Tagalog训练的DNN i-vector系统,通过训练英语的基线系统获得12.1%的相对改善。

索引术语:i-vector,说话人识别,深度神经网络

1简介

最先进的说话人识别系统使用i-vector概率线性判别分析(PLDA)框架[1]。常规的实现使用通用背景模型/高斯混合模型(UBM / GMM)来计算,以估计说话者模型充分统计量,即称为身份矢量(i-vector)。该框架的成功扩展取代了UBM /

你可能感兴趣的:(论文翻译,深度学习声纹识别)