本文是读书笔记。个人比较浅显的理解,其中有一些专业词汇也是个人自己的翻译,如果有不对的希望大家指正。
来自论文《An overview of text-independent speaker recognition: From features to supervectors》的第四章节
===========================分界线================================
这篇博客主要讲解文本无关的说话人识别的常用模型。
典型的说话人模型可以分为两种:template model和 stochastic model,即模板模型和随机模型。也称作非参数模型和参数模型。
模板模型(非参数模型)将训练特征参数和测试的特征参数进行比较,两者之间的失真(distortion)作为相似度。例如VQ(Vector quantization矢量量化)模型和动态时间规整法DTW(dynamic time warping)模型。
DTW 通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较,通过最优路径匹配的方法来进行识别。而 VQ 方法则是通过聚类、量化的方法生成码本,识别时对测试数据进行量化编码,以失真度的大小作为判决的标准。
随机模型(参数模型)用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。(参数模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数作为说话人的模型。)例如(GMM和HMM)高斯混合模型和隐马尔科夫模型。
一、矢量量化(Vector quantization)
矢量量化模型也被称为质心模型(centroid model),是说话人识别模型当中最简单的一种,最先用于数据压缩领域。假设测试语句的特征矢量为,参考语句的特征矢量为
,它们的平均量化失真可以由如下公式得到:
其中d(,)为距离,例如欧式距离。如果上式的值越小,代表测试语句X和参考语句R来自同一说话人的可能性则越高。
在理论上可以直接使用参考R的所有矢量,但实际上考虑到计算复杂度,会使用聚类方法减少矢量的个数。常用方法有K-means方法。它生成一个降维的矢量集---码本(codebook)。
k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这k个聚类中心),这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就是将未知数据对这k个聚类中心进行比较的过程,离谁近就是谁)。
下图即为使用K-means算法形成码书。原始数据集有5000个矢量,降维后码本矢量为64个。
二、高斯混合模型(Gaussian mixture model)
高斯混合模型(GMM)是说话人识别中最常用的随机模型,它可以看做是矢量量化模型(VQ)的一个扩展版。
关于高斯混合模型的更多知识可以戳这篇博客:
三、支持向量机(Support vector machine)
支持向量机(SVM)是特征空间上的间隔最大的线性分类器,最近也被应用于说话人识别中。频谱特征、韵律特征、高维特征都可以作为SVM输入参数。目前SVM是说话人识别中鲁棒性最好的分类器。
关于支持向量机的更多知识可以戳这篇博客:
四、其他模型
1、 神经网络(Artificial neural network ANNs)也常应用于包括说话人识别的模式分类问题中。它的优点是:特征提取和说话人建模可以结合到一个网络中。
2、 特定人映射(speaker-specific mapping):对同一帧提取两个特征流,一个特征集表示纯语音信息,一个特征集表示语音和特定人的混合信息(a mixture of phonetic and speaker-specific information)。说话人建模是寻找一个语音谱(phonetic spectrum)到特定人谱(speaker-specific spectrum)的映射。
3、将一个说话人另一个相关的说话人来表示,每个说话人模型可以看做是一些参考的模型(锚模型 anchor models)的综合。
五、融合(Fusion)
=====这部分介绍引用来自硕士论文《基于多特征决策融合的说话人识别研究》=====
信息融合说话人识别技术是具有挑战性的基于话语模态的生物特征识别与信息融合的跨学科产物。说话人识别中的信息融合主要包括特征级融合、匹配分数级融合、决策级融合。
(1)特征级融合:特征级融合位于特征提取层,将利用不同特征提取算法提取到的说话人的特征向量融合成一个特征向量。特征级融合能够达到很好的识别率主要是此级别的融合保留了更多的说话人的信息量。
(2)匹配分数级融合:匹配分数级融合是将在识别或认证系统中的不同特征的匹配得分进行融合。
(3)决策级融合:决策级融合位于判决模块,它将融合每一特征分类后的分类结果用来接受或拒绝待测样本。决策级融合是一种高层次的融合,该融合方式具有较高鲁棒性和低计算复杂度的特点。