声纹识别:x-vector 的特征提取原理

文章目录

  • 框架
  • 细节(待完成)

x-vector 基于DNN编码(详细可查看论文 Deep Neural Network Embeddings for Text-Independent Speaker Verification

框架

##i-vector、d-vector、x-vector
(1)i-vector

声纹识别:x-vector 的特征提取原理_第1张图片i-vector 是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。
i-vector 并不是深度学习的模型,但是可以说是语音界最后一个被深度学习模型打败的模型,在16年左右,其效果比深度学习模型的效果要好。

(2)d-vector

声纹识别:x-vector 的特征提取原理_第2张图片d-vector是14年提出的一个和i-vector效果差不多的深度学习模型(还没有i-vector好)。
它的思想很简单,在训练的时候,就是截取语音中的一小段之后,把这段放到DNN里去训练,最后输出这段话是哪个人说的。训练结束之后,倒数第二层的feature就是我们要的speaker embedding了。

在实际预测的时候,我们的输入语音是不等长的,因此d-vector会把语音截成多段,然后取这几段特征的平均值作为最后的speaker embedding。

声纹识别:x-vector 的特征提取原理_第3张图片(3)x-vector

声纹识别:x-vector 的特征提取原理_第4张图片到了2018 年,出了 x-vector。它会把 每个语音片段通过模型后的输出用一种方式聚合起来,而不是像 d-vector 那样简单的取平均。

x-vector 是d-vector的升级版,它在训练的时候,就考虑了整段声音信号的信息。它会把每一小段的声音信号输出的特征,算一个 mean 和 variance,然后concat起来,再放进一个DNN里去来判断是哪个说话人说的。其他的部分和d-vector一致。

当然,今天我们再来看的时候,会把DNN直接换成RNN就可以了。

以上方法,都是train一个speaker recoganition的模型,然后拿它的特征来做相似度的计算(非 end-to-end模型)。

其相似度计算这部分,也可以直接放进模型里去训练,做成一个end-to-end的模型

我们的数据集还是和之前的一样,有一堆多个speaker说的话,我们知道每句话是哪个speaker说的。再end-to-end训练的时候,我们会把k段同一个人A说的话放进模型里,得到一个平均之后的特征,然后再从数据集中抽取一段A说的话,作为正样本,抽取一段非A说的话,作为负样本,然后也输入模型得到一个特征。两个特征做相似度的计算,希望正样本下的score越高越好,负样本下的score越低越好。

声纹识别:x-vector 的特征提取原理_第5张图片

细节(待完成)

  • d-vector
    DNN训练好后,提取每一帧语音的Filterbank Energy 特征作为DNN输入,从Last Hidden Layer提取Activations,L2正则化,然后将其累加起来,得到的向量就被称为d-vector。如果一个人有多条Enroll语音,那么所有这些d-vectors做平均,就是这个人的Representation。DNN的网络结构如图1.2所示:

声纹识别:x-vector 的特征提取原理_第6张图片

  • x-vector
    声纹识别:x-vector 的特征提取原理_第7张图片
    上图前5层是帧级别,然后做了池化后插入两层段级别的embedding,使用segment6这层作为提取xvector特征,该特征可以当做ivector进行plda打分,最后一层是softmax层对于训练集中所有的说话人目标。

特征是24维的、帧长25ms,在3秒的滑动窗口上对特征进行均值归一化。

F代表特征纬度,L代表训练集中训练语言的数量,t代表语音帧。首先上下文5帧拼为一个帧集合,再以帧集合作为中心,拼接上下文4帧为一个新的帧集合,以此类推到拼接15帧为一个帧集合作为dnn的输入。

统计信息的池化层在时间维度上聚合信息,以便后续层对整个音频段进行操作。 池化层的输入是来自前一层frame5的T 1500维向量的序列。 输出是输入的平均值和标准偏差(每个1500维向量)。 这些统计数据连接在一起(以生成3000维向量)并通过段级层,最后通过softmax输出层。 激活函数使用ReLU, 第6节研究的网络有420到460万个参数。

可参考:声纹识别算法阅读之x-vector

参考:

  1. 2020 年 3月 新番 李宏毅 人类语言处理 独家笔记 声纹识别 - 16
    除夕
  2. Speaker Verification Hung-yi Lee
  3. Chapter5_Speaker_Verification

你可能感兴趣的:(#,项目相关,#,声纹)