A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES

远距离文本相关的说话人验证数据库和基准

Abstract

本文介绍了一个名为HI-MIA的大型远场相关文本说话者验证数据库。 我们的目标是满足基于远场麦克风阵列的扬声器验证的数据要求,因为大多数公开可用的数据库都是单个通道近距离对话且与文本无关。 我们的数据库包含针对远场方案设计的房间中340人的记录。 通过位于不同方向和距离扬声器的多个麦克风阵列和一个高保真近距离麦克风来捕获录音。 此外,我们提出了一套基于端到端神经网络的基线系统,分别采用单通道和多通道数据进行训练。 结果表明,该融合系统在远场报名远场测试任务中可实现3.29%EER,在近距离报名和远场测试任务中可实现4.02%EER。
索引词:开源数据库,文本相关,多渠道,远距离,说话者验证

1. Introduction

说话者验证的目的是从数字音频信号电平验证与已注册目标说话者相关的说话者身份。通常,说话人验证过程包含说话人嵌入提取模块和验证模块。近年来提出了针对这两个模块的方法,并且扬声器验证的性能得到了显着提高。此外,包括数千名演讲者在内的许多开放和免费的语音数据库也可以公开获得。大多数数据库(例如AISHELL2 [1],Librispeech [2],Voxceleb1&2 [3] [4])都记录在无噪音的近距离环境中。但是,这种记录环境与现实世界中的智能家居或物联网应用中的远场场景不匹配。在嘈杂和混响条件下的说话人验证是具有挑战性的主题之一。演讲者验证系统的性能在远场条件下会显着下降,在这种情况下,语音是以未知的方向和距离(通常在1m-10m之间)记录的。在语音识别中也会出现此问题。尽管我们有用于将近距离通话语音转换为模拟远场语音的仿真工具包,但与真实录音相比,仍然存在明显的通道不匹配。此外,前端处理方法的目标在说话者验证和语音识别方面有所不同。因此,开发一个开放的,公开可用的远场多通道说话者验证数据库至关重要。
已经提出了考虑单通道麦克风或多通道麦克风阵列的各种方法来减少混响和环境噪声的影响。这些方法在与文本无关的自动说话者验证(ASV)的不同级别上解决了该问题。

系统。在信号级别,使用线性预测逆调制传递函数[5]和加权预测误差(WPE)[6,7]方法进行混响。针对复杂环境下的ASV系统,探索了基于深度神经网络(DNN)的用于单通道语音增强的降噪方法[8、9、10、11]和用于多通道语音增强的波束赋形方法[6、12、13]。在特征级别,基于子带Hilbert包络的特征[14、15、16],扭曲的最小方差无失真响应(MVDR)倒谱系数[17],功率归一化倒谱系数(PNCC)[18]和DNN瓶颈特征[ 19]已应用于ASV系统,以抑制混响和噪声的不利影响。在模型级别,混响与多条件训练模型的匹配取得了良好的效果。
深度学习极大地促进了说话人验证技术的应用。识别系统已从传统的i-vector方法[20]显着改进到基于DNN的x-vector方法[21]。最近,基于CNN的神经网络[22]在说话人验证任务中也表现良好。但是,传统方法和深度学习方法都是需要大量训练数据的数据驱动方法。缺乏现实世界中基于麦克风阵列的远场数据,限制了远场说话者验证技术在不同场景下的开发和应用。
在本文中,我们介绍了一个名为HI-MIA的数据库,其中包含智能家居场景下的唤醒词记录。该数据库涵盖了340个扬声器以及从近话麦克风到多个远场麦克风阵列的广泛渠道。它可用于远场唤醒单词识别,远场说话者验证和语音增强。另外,我们提供了一套说话人验证基线系统[23],该系统在转移学习方式下使用远场说话人验证数据进行了训练。借助通过大量近距离交谈数据进行预训练的模型,该系统在进行远场测试的远场注册和进行远场测试任务的近距离注册方面均表现出色。

2. TheHI-MIAdatabase

HI-MIA包括两个子数据库,分别是具有254个发言者的话语的AISHELL-wakeup1和具有86个发言者的话语的AISHELL-2019B-eval数据集2。

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES_第1张图片

2.1. AISHELL-wakeup

AISHELL唤醒数据库具有3,936,003的唤醒时间,总计1,561.12小时。语音内容涵盖了两个唤醒词,中文为“ ni hao,mi ya(“你好,米雅”)”,英文为“嗨,米娅”。所有话语的平均持续时间约为1秒。该数据集在性别上相当平衡,分别有131位男性和123位女性。年龄和性别的分布如图2所示。在录音过程中,在真正的智能家居环境中设置了七个录音设备(一个近距离麦克风和六个16通道圆形麦克风阵列)。每个麦克风记录的发声时间为16小时。 16通道圆形麦克风阵列以16kHz(16位)记录波形,而近距离通话麦克风以44.1kHz(16位)记录波形,为高保真(HiFi)纯语音记录。
每个扬声器记录了160声讲话,其中120声讲话记录在嘈杂的环境中,其余的讲话声记录在家庭环境中。表1中显示了数据库的详细信息。
根据讲话速度(正常速度,快速度和慢速度),每个发言人的录音可以分为三个子集。我们通过向房间添加电视,音乐和背景噪声等噪声源来模拟真实的智能家居场景。房间设置如图1所示。高保真麦克风距扬声器25厘米。圆形麦克风阵列放置在人周围,与人的距离分别为1m,3m和5m。对于每个扬声器,噪声源随机放置在靠近麦克风阵列之一的位置。

2.2. AISHELL-2019B-eval

表1中还显示了AISHELL-2019B评估的详细信息。数据集包含44位男性讲话者和42位女性讲话者的录音。与AISHELL唤醒不同,每个讲话者记录160声讲话,其中120声讲话记录在安静的环境中,其余的讲话声记录在嘈杂的环境中。 AISHELL-2019B-eval的房间设置与AISHELL-wakeup的房间设置相同。我们将噪声源放置在距离扬声器四米的固定位置,而不是将噪声源放置在麦克风阵列中。
图2:性别和年龄分布
3. TheBaselineMethods 3.1。深度扬声器嵌入系统
3.1.1。模型架构
深度演讲者嵌入系统的优越性已在针对封闭式对话[21,22]和远场场景[24,25]的独立于文本的演讲者识别中得到了证明。在本文中,我们采用深度说话者嵌入系统,该系统最初是为与文本无关的说话者验证而设计的,以远场说话者验证为基线。在我们的工作中训练了两种有关多渠道和单渠道的模型。
单通道网络结构与[22]中的相同。此框架包含三个主要组件。第一个组件是基于众所周知的ResNet-34架构(残差卷积神经网络)的深层CNN结构,我们从{16,32,64,128}增加了残差块的宽度(通道数)到{32,64,128,256}。然后,在ResNet34之后放置一个全局统计池(GSP)层作为编码层,该层将功能图转换为固定维度的话语级表示。 GSP的输出通过其平均值和标准偏差进行归一化。然后,完全连接的层将处理发声级别表示,然后是分类输出层。我们在输出层之前添加了一个比率为0.5的压降,以防止过度拟合。输出层中的每个单元均指目标扬声器。这里采用交叉熵损失来测量验证误差。
该网络使用标准随机梯度下降(SGD)进行训练,其动量为0.9,权重衰减为1e-4。我们在Pytorch中使用ReduceLROnPlateau来调整学习率,并将初始值设置为0.01。对于每个训练步骤,将随机生成[200,300]间隔内的整数L,并且将小批量中的每个数据裁剪或扩展为L帧。
训练后,对于给定的发声,在神经网络的倒数第二层之后提取发声级别的说话人嵌入。余弦相似度和PLDA是测试过程中的后端评分方法。

3.1.2. Trainingdataaugmentationforfar-fieldASV

数据增强可以有效地提高深度说话者嵌入模型的鲁棒性。 因此,我们通过添加混响和噪声来增强数据,以模拟真实环境中的远场语音。 这将减少训练数据和测试数据之间的不匹配。
我们使用与[23]中相同的方法进行数据增强,并采用焦木声学[26]模拟真实的房间记录。 通过随机设置房间的大小并任意定位麦克风和噪声源的位置,我们可以获得远场模拟数据。 为了获得适当的噪声源,我们在MUSAN数据集中选择环境噪声和音乐噪声[27],并将信噪比(SNR)设置为0-20db。

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES_第2张图片

3.2。模型微调
由于我们只有有限的与文本相关的远场演讲者数据,因此,如果直接对这些数据进行训练,则与文本相关的深度演讲者嵌入模型将无法很好地学习歧视性演讲者信息,并且该模型可能会过度拟合一些演讲者。因此,重要的是使用大量独立于文本的说话者数据来首先训练基线说话者模型。
因此,基于[23],我们通过将与文本无关的深度说话者嵌入模型应用于与文本相关的模型来采用迁移学习策略。通过转移学习,适应的文本相关模型可以利用具有大量讲话者的预训练模型的优势,而无需从头开始训练整个网络。在训练了与文本无关的深度说话者模型之后,转移学习使前端本地模式提取器,编码层和嵌入提取层适应与文本相关的任务。
图3显示了依赖文本的深度说话者嵌入模型的转移学习过程。
3.3。注册数据增强
在具有远程测试任务的近距离注册中,注册数据与测试数据之间的不匹配会显着降低性能。
我们使用不同的仿真策略通过数据增强来减少不匹配。在测试中,模拟的深层演讲者嵌入功能与原始的注册嵌入功能融合在一起。

4.实验4.1。文本独立语料库
AISHELL-24是一个开放且公开可用的中文普通话语音识别数据集。在这项研究中,我们使用数据集的iOS通道,其中包含来自1,997位演讲者的984,907条近距离话语。我们使用数据集作为独立于文本的数据库来模拟远场数据,以预先训练ASV模型。
.2。文本相关语料库
在我们的实验中选择了普通话唤醒词“ ni hao,mi ya”。此外,我们使用AISHELL唤醒数据作为微调训练数据,并使用AISHELL-2019b-EVAL作为测试集。根据我们之前的实验结果,AISHELL-2019B-EVAL中的最后44个人更具挑战性,因此我们选择了最后44个人的话语作为测试数据。测试数据不同于[23],因此我们没有比较本文的结果。
在本文中,我们有两个任务,一个任务是近距离交谈的注册任务,另一个任务是远场注册的任务。两项任务均使用远场数据进行了测试。在采用近场测试进行近距离注册的情况下,我们使用近距离HIFI麦克风的数据进行注册。在进行远场测试的远场注册的情况下,我们使用一个麦克风阵列的数据(距离扬声器1m)进行注册。
在试验中,我们按比例选择1m,3m和5m距离阵列数据作为测试音频。目标和非目标的密钥比例是一对一。

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES_第3张图片

4.3。基线系统和微调模型
在这项工作中,我们训练了两个单通道模型和一个多通道模型。这些模型的性能如表2所示。
将远场注册任务与近距离注册任务进行比较,就标准远场测试数据而言,在等误率(EER)方面,远场注册任务实现了约20%的相对改进。这意味着尽管注册后的注册数据可能并不干净,但它可以更好地与测试数据匹配。表2中的基本模型(ResNet34-Cosine)显示了AISHELL2训练数据模型的结果,该模型通过余弦相似度进行评分。微调模型(ResNet34-FT-Cosine)比基本模型有20%的改进。 PLDA模型(ResNet34-FT- PLDA)对通道进行了补偿,改进了20%。所有结果(编号为7,8的ID除外)都选择了固定的输入通道0和测试音频数据。对于ID 7,8,融合了16个声道的测试扬声器嵌入功能并计算了平均值,从而提高了性能。

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES_第4张图片

4.4。注册数据增强
在表2中,与远场测试方案的远场注册相比,具有远场测试方案的近距离注册的结果始终具有较差的性能。主要原因是注册话语与测试话语之间的通道不匹配。因此,我们研究了注册数据扩充,以补偿注册话语与测试话语之间的不匹配。我们使用pyroomacoustics工具包来模拟远场语音,并使用不同数量的模拟远场语音来增强原始的注册语音。模拟的远场注册话语与原始注册话语在嵌入级别平均。结果表明,注册数据的增加可以缩小进行远场测试的远场注册与进行远场测试任务的近距离注册之间的差距。
4.5。系统融合
对于融合方法,我们仅取不同系统分数的简单平均值。我们将id 1,3,5和7的结果用于远场注册任务的系统融合。我们使用id 2、4、6和8的结果进行系统融合,以进行秘密对话登记任务。我们注意到,系统融合后,系统具有显着改善,这意味着我们的系统是互补的。
AISHELL-2数据库仍然不是很大,我们相信,如果我们使用更多独立于文本的训练数据来训练基本模型,则系统的性能可以得到进一步改善
5。结论
在本文中,我们描述了在远场场景中收集的HI-MIA数据库。该数据库包含多通道远场语音数据,可用于与文本相关的远场说话者验证,唤醒词检测和语音增强。该数据库有两个子数据集。可以将一个名为AISHELL-wakeup的数据用作培训数据,将另一个名为AISHELL-2019B-eval的数据用作开发和测试数据。此外,我们提出了几种基准系统,并针对这两项任务提出了远场注册和封闭对话环境。我们还将介绍使用有限的文本相关数据进行训练的方法和策略以及相应的注册数据扩充策略。结果表明,将注册话语量增加到测试话语量可以有效地提高系统性能。

你可能感兴趣的:(KWS,关键词识别,图灵与对话)