声纹识别(一)——简介

​一、基本概念       

        声纹识别也称为说话人识别,是指根据说话人语音中个性化的特征自动识别说话人身份的一种生物识别技术。说话人的声音特征不仅与其肺部、气管、喉部、声带、咽部、鼻腔、口腔、唇部等人体发声器官相关,并且受方言、土语、抑扬顿挫以及口头禅等发声习惯影响。人体之间发声器官以及发声习惯的差异性都以复杂的形式体现在说话人的语音信号中,这就使得说话人的语音具备了个性化的特征,为声纹识别技术提供了基本条件。

​        声纹识别从应用场景上可以分为说话人确认与说话人辨认两个大类。说话人确认是指将声纹识别技术应用于确认某段语音是否为指定人所发出的,属于一对一的判断关系。而说话人辨认则是指将声纹识别技术应用于判断某段语音是若干人中的哪一个人所发出的,是多对一的选择关系。其中,说话人辨认问题又可以分为“开集”与“闭集”两种,开集问题中待识别语音可以来自于未经注册的说话人,闭集问题中待识别语音一定来自于某个已经注册的说话人。

​        从技术角度考虑同样地可以将其分为三类,分别是与文本相关的声纹识别系统、与文本无关的声纹识别系统以及文本提示型的声纹识别系统。其中与文本相关的声纹识别系统需要用户首先按照规定的内容进行发音并建立精确的语音模型,然后在识别的过程中同样也需要用户严格按照规定的内容进行发音,这种方法可以得到较好的识别效果,但却需要用户的主动配合,如果用户未按照指定内容进行发音将导致说话人身份识别失败。与文本无关的说话人识别系统在训练以及注册阶段均不需要用户按照指定的内容进行发音,可以是任意的语音信号。对两者进行比较可以发现,与文本无关的声纹识别系统的实现过程要更加困难,由于其使用环境的不确定性,因此必须在任意的语音信号中均可以找到能够表征说话人声音中个性化特点的特征,这也就导致了与文本无关的声纹识别系统建模困难程度较大,识别准确率也相对较低。但是,与文本无关的声纹识别系统有着应用过程中灵活方便、适用范围广等优点,因此有必要就如何提升其识别准确率的问题进行进一步研究。在上述的两种声纹识别系统中都存在着一定的安全隐患,如不法分子利用录音设备事先将说话人的语音内容记录下来,然后冒充说话人进行声纹识别极有可能会出现声纹识别系统误判的情况。而文本提示型的说话人识别系统则可以较好地解决上述的问题,通过对声音进行语音识别检测其是否与随机文本提示内容相匹配,同时进行声纹识别检测其是否是特定的说话人,该方法可以有效地避免因声音被非法采集而导致的安全问题。与文本相关、与文本无关以及文本提示型三种声纹识别系统各有优缺点,在实际应用中应结合具体的应用场景进行合理选择。

二、声纹识别基本框架

        一个完整的声纹识别系统一般可以分为三个阶段,分别为训练阶段、注册阶段以及测试阶段。在训练阶段,首先对训练集中的语音数据进行声纹特征提取,然后以声纹特征作为训练数据,进行训练后便可得到对应的声纹识别模型。在注册阶段,首先对注册人的语音进行声纹特征提取,然后将其输入训练好的声纹识别模型得到注册语音的深度说话人嵌入,即注册向量。在识别阶段,首先对待识别语音进行声纹特征提取,然后同样代入模型进行计算得到测试语音的深度说话人嵌入,最后将其与若干说话人的注册向量进行相似度比较,并以此做出最终决策。一个完整的声纹识别系统可以分解为以下几个基本问题:

(1) 语音信号的预处理与声纹特征提取,即提取能够表征说话人语音特征的参数。

(2) 声纹识别模型的训练。

(3) 获取说话人的注册向量。

(4) 采用某种相似性度量方法进行匹配计算,并以此做出最终判断。

声纹识别(一)——简介_第1张图片

你可能感兴趣的:(声纹识别,语音识别,人工智能)