语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
语音信号处理技术主要可以应用到:
数字电话通信
高音质的窄带语音通信系统
语言学习机
声控打字机
自动翻译机
智能机器人
新一代计算机语音智能终端
许多军事上的应用
语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语音学、计算机科学、模式识别和人工智能等学科有着紧密的联系。
语音信号处理的目的
是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。
随着现代科学和计算机技术的发展,除了人与人之间的自然语言的通信方式之外,人机对话及智能机器等领域也开始使用语言。
语音信息的交换大致上可以分为三大类:
人与人之间的语音通信:包括语音压缩与编码、语音增强等
第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成
第二类人机语音通信问题,指的是人讲话、机器听话的情况,即语音识别和理解
1.2 语音信号处理的发展
1876年:贝尔电话的发明,该技术首次用声电、电声转换技术实现了远距离的语音传输。
1939年:Homer Dudley提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。
19世纪60年代:亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。
20世纪40年代:一种语言声学的专用仪器——语谱图仪问世了。
1948年:美国Haskins实验室研制成功“语音回放机”,该仪器可以把手工绘制在薄膜上的语谱图自动转换成语音,并进行语音合成
20世纪50年代:语言产生的声学理论开始有了系统的论述。
随着计算机的出现,语音信号处理的研究工作得到了计算机技术的帮助,使得过去受人力、时间限制的大量的语音统计分析工作,得以在电子计算机上进行。在此基础上,语音信号处理不论在基础研究方面,还是在技术应用方面,都取得了突破性的发展。
(语音合成技术、语音编码和语音识别技术)的发展和现状。
最早的合成器:
1835年:W.von Kempelen发明,经Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程,分别用风箱、特别设计的哨和软管来模拟肺部的空气动力、模拟口腔。
最早的电子式语音合成器:
1939年:Homer Dudley发明的声码器,它不是简单地模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。
但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是采用计算机产生高清晰度、高自然度的连续语音。
早期的研究主要采用参数合成方法:
1973年:Holmes发明的并联共振峰合成器
1980年:Klatt发明的串/并联共振峰合成
最具代表性的文本转换系统:
1987年:美国DEC公司的DECtalk
自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基因同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
20世纪90年代:基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。
我国的汉语语音合成研究起步较晚,但从20世纪80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。
现阶段语音合成的最大进展是已经能实时地将任意文本转换成连续可懂的自然语句输出。
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。
共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰。
目前的提取语音共振峰的方法:倒谱法、LPC(线性预测编码)谱估计法、LPC倒谱法等 。
(1)基于线性预测(LPC)的应用技术现状
肺部气流冲击声带通过声道的响应,形成语音。不同的声道形状产生不同的声道响应,导致不同的语音。就声道的数学模型,主要有两种观点:
a.把声道看作由多个不同截面积的声管串联而成,即声管模型;
b.把声道看作谐振腔,共振峰就是该腔体的谐振频率,即共振峰模型。
因人耳听觉的柯替氏器官就是按频率感受而排列其位置的,实践证明共振峰模型方法是非常有效的。线性预测编码(LPC)是进行语音信号分析、语音信号编码最有效的技术之一 ,其重要性在于提供了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱,而分析它们所需的计算量相对而言并不大口 语音信号共振峰的LPC分析方法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰频率和带宽。在过去的研究中,已有许多利用LPC分析提取共振峰方法被提出 。
(2)倒谱法的应用技术现状
倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到基音频率和共振峰信息,但它的运算量比较大。
当采用无噪语音时,用倒谱进行基音提取的效果是很理想的。
当存在加性噪声时,在对数功率谱的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这意味着倒谱的输入不再是纯净的周期性成分,而倒谱中的基音峰值将会展宽,并受到噪声的污染从而使倒谱检测方法的灵敏度也随之下降。在基音估计中还可以使用经过中心削波或三电平削波后的自相关方法,这种方法在信噪比低的情况下可以获得良好的性能。
一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音( 发音体整体振动产生的音(振动长度越大,频率越小),决定音高 ),其余为泛音( 发音体部分振动产生的音,决定音色 )。
PSOLA是用于波形编辑语音合成技术中对合成语音的韵律进行修改的一种算法。
PSOLA算法的核心是基音同步,它把基音周期的完整性作为保证波形及频谱连续的工作前提。因此首先要对输入的原始语音波形进行基音标注,浊音有基音周期,而清音的波形接近于白噪声,所以在对浊音信号进行基音标注的同时,为保证算法的一致性可令清音的基音周期为一常数,基音标注的内容包括:开始标注的位置(即周期信号在语音信号段中的起始点)、基音周期的个数和每个基音周期的起始点在语音询号中的位置序列。进行完语音标注后的合成基元的原始波形,可使用PSOLA算法以基音周期为单位进行波形段的插入、删除和修改。
PSOLA算法分以下三个步骤:
(1)对原始波形进行分析,产生非参数的中间表示
(2)对中间表示形式进行修改
(3)将修改过的中间表示重新合成为语音信号。