文献阅读报告:基于深度学习的声纹识别

一、选题

1.1 题目:

基于深度学习的声纹识别

1.2 研究内容:

① 研究用于声纹识别的语音参数以及这些参数对声纹识别性能的影响。
② 研究声纹识别的传统方法及性能。
③ 在研究声纹识别的传统方法的基础上,研究基于深度学习的声纹识别的方法及性能。

二、意义

语音信号是生活中的交流方式之一,而且不同人的声音的特征不同,我们可以利用这一特点进行身份识别。相对于其他生物识别技术而言,声纹识别所需的仪器价格较为便宜,且声纹识别技术具有可移植性好的优点。
深度学习技术近年来在各个领域的应用愈加广泛,相较于传统的浅层学习,深度学习使得样本的分类更为简单。
基于深度学习的声纹识别将使声纹识别的准确率大幅度提高。

三、已有基础

3.1 研究现状及其成果:

声纹识别是语音识别领域内的一个分支,所以其发展历程也是随着语音识别的发展而不断推进的。声纹识别的研究最早开始于二十世纪三十年代,在1945年,“声纹”的概念首次被贝尔实验室提出。1962年,声纹识别算法的可能性被第一次提出,但此时的研究方向主要在人耳听辩和听音识别。随着研究手段和科技力量的不断发展和进步,贝尔实验室又再次提出了基于模版匹配和统计方差分析的声纹识别算法,这才使语音信号处理领域的众多学者注意到说话人识别,也吸引了大批学者投入到相关研究中。
在二十世纪六十年代末到七十年代初,主要的研究重点在声纹识别的特征参数上。在1969年,LuckJE首次提出了基于倒谱的声纹识别算法,大大提高了声纹识别的识别率,而BS Atal则在特征参数方面有所突破,提出了线性预测倒谱系数(linear predictive cepstrum cofficients,LPCC)作为识别的特征参数,在很大程度上提高了声纹识别的准确率。Doddington将共振峰引入到声纹确认中,Atal在1972年提出了利用基音轮廓进行声纹识别的算法。随着数字信号处理技术的不断发展和广泛的应用,研究人员们不断地提出了多种能代表语音特征的参数,还有能间接反映语音特征的LPC谱系数、LSP谱系数等。
在二十世纪七十年代末至八十年代末,大家转而将研究重点转向了各种声学参数的线性或非线性处理上,也在新的模式匹配方法上有所突破。梅尔倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)是目前在语音信号处理领域使用的最为广泛也是最为有效的特征参数之一,它就是由Steven B.Davis和Mermelstein在1980 年首次提出。同其他的语音特征参数不同,梅尔倒谱系数参考到了人耳的听觉感知特性,将语音信号的频率刻度变换成了模拟人耳的梅尔频率刻度,再转换到倒谱域,它具有更好的识别效果和抗噪性能。除此之外,很多识别模型也被相继应用到声纹识别中,例如隐马尔可夫模型(Hidden MarkovModel,HMM)在特定文本的说话人识别方面得到了较好的效果,基于隐马尔可夫模型上提出的高斯混合模型(Gaussian Mixtrue Model,GMM)则使得非特定文本的说话人识别效果取得了一定的进步,动态时间规整(Dynamic Time-warping,DTW)、矢量量化(Vector Quantization,VQ)和人工神经网络( Artificial Neuralnetwork,ANN)等技术也都凭借着各自的优势在声纹识别领域占据一席之地。
在二十世纪九十年代,高斯混合模型凭借着简单、灵活、高效和较高的鲁棒性成为了声纹识别领域的主流算法,支持向量机( Support Vector Machine,SVM)也凭借优秀的区分性能成为声纹识别的重要建模方式之一。在二十一世纪初期,Reynolds提出了UBM-MAP(universal background model,maximum a posteriori)结构,从而降低了高斯混合模型对训练数据的过度依赖性,使得在测试条件和训练条件相差较大时,声纹识别系统仍有着较高的鲁棒性,使声纹识别技术距离实际应用更近了一步。
经过几十年的研究,声纹识别技术已经在我们的实际生活中有了很多应用。早在八十年代,美国的Home Shopping Network在语音电话订货系统中就同时采用了语音识别和文本相关的声纹确认技术。AT&T等公司在新一代集成管理系统中,利用语音识别技术和声纹识别技术为系统增加了新功能,可以将音频形式的语音邮件转换成文字形式,同时自动识别发送人的身份,从而方便收信人阅读。AT&T公司还推出了一种智能卡( SmartCard)可用于自动取款设备。在1998年,欧洲电信联盟将声纹识别应用于金融和电信领域,可以在电信网上实现声纹辨认功能。国内也有很多公司将声纹识别应用到产品中。

3.2 存在的缺点及需改进的地方:

声纹识别算法从提出到现在,已经经历了半个世纪之久,也有了很多非常成熟的算法,在理想条件下,可以达到很高的识别率。但在实用环境下,声纹识别技术仍存在着很多问题。
到目前为止,语音处理领域的研究人员们还没有找到一种语音的特征参数能同时满足简单、可靠和有效等多种条件。语音信号中包含的信息既有说话人的发音特征,也有语言信息。而现在使用的语音信号处理技术和语音特征参数,还不能够将语言信息提出,完整的提取出说话人的个体特征信息。
语音信号具有一定的漂移性。在不同的环境、时间条件下,说话人的语音都是在不断变化的,除此之外,在说话人的情绪、身体条件等变化时,语音信号也会相应有所不同,使声纹识别在实际应用中多了一些不确定性。
声纹识别在纯净语音条件下已经可以达到很高的识别率,但在实际应用中,情况往往是比较复杂的。首先,无论用何种方式来存储、传输语音信号,都会不可避免的掺杂进一些噪音,而且有些声纹识别算法的应用环境可能有着很强的噪声,或者存在很多人声噪音,这些都是研究声纹识别算法需要考虑的问题。
当识别系统的说话人数增多时,系统的识别率不可避免的会发生下降,如何在大规模的说话人体量下提高识别率,也是研究的一个难点。

四、基本思路

① 对声纹识别的发展历史进行研究。
② 详细学习语音的发音原理及其特性。掌握语音信号所需要进行的预处理步骤。
③ 学习语音信号的几种常见的特征参数。
④ 对目前声纹识别的传统算法进行研究,如HMM、GMM、SVM。
⑤ 学习神经网络的原理。
⑥ 学习常见且常用的深度学习网络模型。
⑦ 根据前面所学,尝试设计出一个基于深度学习的声纹识别系统。

五、研究方法

① 在网络中搜集有关声纹识别的发展历史的资料。
② 寻找相关文献或相关项目,来完成对语音的发音原理、特性以及常见特征参数的学习,并掌握语音信号所需要进行的预处理步骤。
③ 查询文献,掌握声纹识别的传统算法,并进行计算机试验。
④ 利用书籍及课上所学,掌握神经网络的原理,并尝试搭建简单的深度学习网络模型。
⑤ 将深度学习与自己对语音的研究结合起来,设计一个基于深度学习的声纹识别系统。
⑥ 对自己设计的声纹识别系统进行多次测试,根据测试结果进行改进创新。

六、预期目标

第一阶段,查阅文献以及相关资料,了解声纹识别的发展历史,发展现状,发展前景以及当前研究的难点。据此规划自己的基本研究思路。
第二阶段,根据第一阶段规划好的研究思路,按阶段地去学习相关专业知识,去大量并精细地阅读相关文献。
第三阶段,根据第二阶段学习的相关知识,去设计出预想的基于深度学习的声纹识别系统,然后对声纹识别系统进行大量的测试,寻找此系统的不足以及可以改进的地方,并向导师请教,最终设计出一个趋于完善的系统。

你可能感兴趣的:(文献阅读报告,文献阅读)