语音就是人类说话的声音,它是语言信息的声学表现。
声音是一种声波,他的振动频率在20-2000Hz之间。语音的振动频率最高可达15000Hz
言语的过程:
意图(intention)————语义规划(plan)—————进行编码(coding)—————
言语的产生(articulate)————声音传递(transfer)————解码(decoding)————
言语感知(perceive)————语义理解(understand)————语义semantics
从信息论的角度来看
人发出声音的其实是对自己想要表达的意思的一种编码,而人的意图在这里充当为信源,姑且将发音前的过程称为信源编码
声音的传播这可以看作是是在信道中的传播,平时的通话系统中采取了信道编码的措施,接收端某个个体要对接受到的声音进行解码,获得这段语音中的真正意思,也就是一个解码的过程。
当然它们编解码的规则当然是依据不同语言发展过程中的约定俗成的规则。
信源编码————信道编码—————解码
声带的声学功能是为语音提供激励源,由声带振动产生声音。声带的开启和闭合形成一系列的脉冲。每开启和闭合一次的时间即振动的周期称为基音周期,其倒数称为基音频率,也简称为基频。
基频决定了声音的频率,基频高则音调高反之则低。基频的范围在80-500Hz范围内
由声带振动产生的声音统称为浊音。浊音包括所有的元音和一些辅音。
不由声带振动才生的声音称为清音。而清音则包含另一部分辅音。
浊音清音爆破音它们的激励源是不相同的。浊音的激励源是位于声门出的准周期脉冲序列。清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。
关于共振的概念
当一个物体(或空腔)作受迫运动,所有的驱动频率等于振动体的固有频率,以便到达最大的振幅振荡,在这个频率上其传递函数具有极大值,这种现象就成为共振。通常共振体并不止在一个固有频率上进行共振。
声道是一个分布参数系统,它是一个谐振腔,因而具有许多的谐振频率。谐振频率由一瞬间的声道外形所决定的
。
这些谐振频率称为共振峰频率,检查共振峰。它是声道重要的声学特征。
声道对于一个激励源的响应,可以用一个含多对极点的线性系统来描述,每对极点都对应一个共振峰频率,这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总的轮廓。
语音的频率特性主要是由共振峰决定的,而声带的共振峰特性决定了所发声音的频谱特性,即音色。元音的音色以及区别特征主要取决于声道的共振峰特性。
共振峰特性可以从语音信号的频谱分析中得到的幅频特性看出
音节是最小的发生单元
音节是由音素结合而成的语音流的最小单位,是发声的最小单位。
音素是语音最基本,最小的组成单位(音素都有其独立的各不相同的发音方法和发音部位)
一个音节可以有几个音素构成也可以由一个音素构成。各种音素组合构成语音是的连续方法有几种限制,并不是所有的组合都存在。
词是由音节组成的更大的单位,单词简称为词,它是文章的基础,是具有意义的语言的最小单元,而句子是词的进一步组合。
任何语言都有元音和辅音两种音素,一个音节由元音和辅音构成。元音是由声带振动发声的,构成了一个音节的主干,无论是从长度还是能量看,元音在音节中都占有主要部分。每个元音的特点是由其声道的形状和尺寸决定的。
所有的元音都是浊音。
辅音是由呼出的气流克服发音器官的阻碍而产生的。发辅音时如果声带不振动则称为清音;
发辅音是声带振动则,称为浊辅音。
汉语的特点为自然单位是音节,每一个字都是单音字节,即汉语的一个音节就是一个字的音,这里字是独立发音的单位;再由音节字构成词,再由词构成句子。
一个音节字的构成(由声母和韵母组成的)
在音节中声母比较简单它是由一个音素,而韵母比较复杂
汉语的另一个特点就是具有声调
汉语有四种声调:阴平阳平上声去声如果包括轻声在内总共有5种
汉语的特点是音素少音节少,他大约有64个音素,但只有400个左右的音节,即四百个基本发音,如果在考虑5种声调,也只不过有1200多个有调音的不同发音
传统上将内个字音分为声母和韵母两个部分
汉语中有21个声母和39个韵母字音又有4种声调
所以说汉字的音节是由声母韵母和声调按一定的方式构成。
声母是由辅音充当的,但辅音不一定就是声母。
汉语中共有22个辅音,其中21个可以作声母。韵母可以由元音充当,汉语中的10个元音中有9个可以充当韵母,韵母也可以由复核员充当,还可以有元音加上鼻音构成韵母,汉语共有39个韵母
将激励作用于声道。有效频谱G(f),声道传递函数为H(f),则输出频谱G(f)*H(f)。H(f)的特点是最大值与共振峰相对应。
输出语音频谱的包络,包络携带了主要的发音信息
语音波形有其特有的形式:每个周期开始时都有一个明显的高峰,接着是一串衰减振荡。最开始的高峰是有声门脉冲的起点造成的,接着的振荡是声道谐振系统冲击响应引起的
元音具有明显的准周期性,并具有较强的振幅。
语音信号产生的数字模型。
声门和声道相互耦合形成语音信号的非线性
发浊音时,此时气流通过绷紧的声带时,冲击声带产生振动,使声门处形成周期重复的脉冲串,并用他去激励声道,声带绷紧的程度不同,振动的频率也不同。该频率就是基音频率,其倒数为基音周期。
发清音时声带松弛不振动,气流通过声门直接进入声道。
发浊音时,由于声带不断的扩张与闭合将产生间歇的脉冲波,这个脉冲波类似于斜三角的脉冲,此时的激励信号是一个以基音为周期的斜三角脉冲串。
发清音时,是均值为0,方差为1的随机序列白噪声
激励模型:
U(z)=[Av/(1-z^-1)]*[1/((1-g1*z^-1)*(1-g1*z^-1))]
声道模型
1. 声管模型
最简单的声道模型是将其视为由多个不同截面积的管子串联而成的系统,这就是声管模型。在语音信号的某一短时期间内,声带可以表现为形状稳定的管道
在声管模型中,每个管子可以看作为一个四端网络,这个网络具有反射系数,每个管子都有一个截面积,因此在声道模型中,声道可以由一组截面积或者一组反射系数来表示
这里的反射系数与线性预测系数相对应
从左往右首先是声门最后的是唇记反射系数为Am A1A2 A3 A4分别为各个管子的反射系数
K1=(A2-A1)/(A2+A1)
用声管模型来描述声道的方法比较复杂,实际上是用波动方程来描述他的特性
这里我么主要研究的是共振峰模型
我们将声道视为一个谐振腔,共振峰就是这个谐振腔的谐振频率,三个共振峰表示一个元音就足够了额,对于较复杂的辅音或者鼻音要用到5个以上的共振峰才行。
基于共振峰理论我们可以建立三个实用的模型:级联并联级联并联混合型
元音
1. 级联型
此时认为声道是一个二阶谐振器。,根据共振峰理论,整个声道具有多个谐振频率
和多个反谐振频率,所以他可以被模拟为一个零极点的数学模型
这里的N是AR(autoregreessive)自回归模型的阶数,ak是模型的系数
N若为偶数 H(z)一般有N/2对共振极点,即分母有N/2对共轭复根,这些共轭复根决定了声道共振峰的参数
即可得到级联模型
对于非一般的元音和大部分的辅音,必须采用零极点模型
并联二阶谐振器
辐射模型
声道的终端是口和唇,从声道输出的是速度波,空气中的是声压
口唇辐射在高频端效果显著,在低频端影响较小,所以辐射模型R(z)映射一阶高通滤波器形式R(z) =R0(1-z^-1)
实际的语音信号分析中长采取预加重技术,即在对信号取样之后加入一个一阶高通滤波器,这样只剩下声道部分。预加重因子1-[R(1)/R(0)]*z^-1
R(n)是语音信号的自相关函数对于浊音这个比值接近于1 对于清音其值很小
完整的语音信号数字模型可以用三个子模型:激励模型声道模型辐射模型的级联来表示
V(z)=U(z)H(z)R(z)
H(z)是声道模型
响度的单位是sone
音调的单位是Mel 音调与频率并不成正比,而是近似为对数的关系。
听觉掩蔽效应:
两个音同时存在,一个声音可能受到另一个声音的干扰或压制,即一个声音被另一个声音掩盖,两个声音的音调越接近,掩盖现象越严重
语音识别系统的顽键性即鲁棒性