基于深度学习方法的声纹识别(Speaker Recognition)论文综述

声纹识别(Speaker Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。
声纹识别通常分为两类:Speaker Verification (说话人验证)和Speaker identification (说话人识别)。

  • Speaker Verification (说话人验证):使用自己的语音进行验证。如果说话人宣称是某个身份,使用语音对此进行验证。
  • Speaker identification (说话人识别):识别谁正在说话。用于确定某个未知说话人的身份。未知说话人的输入音频与选中的说话人组配对,如果发现存在匹配,即返回说话人的身份。
    在实际应用中,划分为三个阶段:
    (1)开发阶段:训练一个深度网络模型区分不同说话人;
    (2)注册阶段:用训练好的网络创建说话人模型。
    (3)验证阶段:提取测试语句特征,与存储的说话人模型进行比较,验证身份。
    语音预处理:语音降噪、回声消除、语音端点检测等

1、 Deep Speaker:an End-to-End Neural Speaker Embedding System (Baidu 2017)
(1)数据预处理方法:未知
(2)深度网络结构(用于提取声学特征):
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第1张图片
采用两种深度神经网络模型作为骨架网络:

  • Deep residual CNN (ResCNN),基于ResNet 改进;
  • Gated recurrent unit (GRU) ,基于RNN 改进。
    (3)损失函数
    使用人脸识别中采用的三元组损失(Triplet Loss), 在训练过程中,选择一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的说话者(标记为“Positive”),一个来自于不同的说话者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。
    基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第2张图片

损失函数定义为:
在这里插入图片描述
(4)数据集
Deep Speaker在三个不同数据集做实验,UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。其中UIDs数据集包括大约250000名说话者,是三者中最大的数据集。
注:数据集未公开、预处理方法未知

2、 Generalized End-to-End Loss for Speaker Verification_ICASSP2018 (Google)
(1) 预处理方法:
Voice Activity Detection (VAD),keyword detection,segment
特征提取:每帧提取40维log-mel-filterbank energies
(2) 深度网络结构:
使用3层LSTM网络结构。
(3)损失函数
提出新的损失函数Generalized end-to-end (GE2E) loss,与TE2E loss和Triplet loss相比,它每次更新都和多个人相比,因此号称能使训练时间更短,说话人验证精度更高。
其基本思路如图1所示,挑选 N 个人,每人 M 句话,通过图示的顺序排列组成Batch,接着通过LSTM神经网络提取 N*M 句话的embeddings,然后求取每个embedding和每个人平均embedding的相似度,得到一个相似度矩阵。最后通过最小化GE2E loss使得相似矩阵中有颜色的相似度尽可能大,灰色的相似度尽可能小,即本人的embedding应该和本人每句话的embedding尽可能相近,和其他人的embedding尽可能远离,从而训练LSTM网络。
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第3张图片
相似度矩阵定义:
在这里插入图片描述

其中eji表示第j人第i句话对应的embedding , w和b是要训练的参数(约束 w>0 ), ck 是第 k 人的embedding,由 M 句话的embeddings求平均得到,即:
在这里插入图片描述

有两种损失函数:

  • Softmax Loss:
    在这里插入图片描述

  • Contrast Loss:
    在这里插入图片描述

而GE2E Loss定义为以上两种损失函数之和:
在这里插入图片描述
  此外,为了训练的稳定性,论文中建议在计算本人和本人某句话相似度的时候,不要让该句话的embedding来参与计算本人的embedding,即实际上:
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第4张图片
(4)数据集:未公开

3、Attention-Based Models for Text-Dependent Speaker Verification_ICASSP2018 (Google)
将注意力机制(attention mechanisms)与LSTM网络结构结合,用于文本相关的声纹识别。
(1)预处理方法:未知
(2)网络结构:3层LSTM网络结构
训练结构:
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第5张图片
Attention layer:
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第6张图片
Shared-parameter non-linear attention(效果最好):
在这里插入图片描述
(3)损失函数:triplet loss
(4)数据集:未公开
注:预处理方法未知、数据集未公开

4、End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances_Interspeech2017 (Microsoft)
(1)预处理方法:未知
(2)深度网络结构:
Inception Net with residual block
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第7张图片
(3)损失函数:
Triplet loss, 基于欧几里得距离相似度。
在这里插入图片描述
(4)数据集:
2800名说话者,每位说话者大约300句。
注:数据集需要购买。

5、TristouNet_ Triplet Loss for Speaker Turn Embedding_ICASSP2017 (LIMSI)
(1)预处理方法:
特征提取:35维声学特征,Mel-Frequency Cepstral Coefficients (MFCC);
说话者改变检测(Speaker change detection);
(2)深度网络结构:
基于Long Short-Term Memory recurrent networks (LSTM),TristouNet网络结构如下:
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第8张图片
(3)损失函数:
Triplet loss, 基于欧几里得距离相似度。
在这里插入图片描述
在这里插入图片描述
(4)数据集
ETAPE 电视广播数据集,总共29个小时,其中训练集18h,开发集5.5h,测试集5.5h。
注:所用数据集为法语数据集,需要购买。

6、Text-Independent Speaker Verification Using 3D Convolutional Neural Networks_arXiv2018
提出3D卷积神经网络结构(3D-CNN),用于文本无关的声纹识别。
(1)预处理方法:
Voice Activity Detection(VAD)
40 MFEC features
(2)深度网络结构:
3D-CNN结构:
基于深度学习方法的声纹识别(Speaker Recognition)论文综述_第9张图片
(3)损失函数:
交叉熵损失(cross-entropy loss)
(4)数据集
WVU-Multimodal 2013 dataset,有1083个不同的说话者。
注:数据集无法获取

你可能感兴趣的:(音频处理,深度学习,人工智能,神经网络)