python语音信号处理_现代语音信号处理笔记 (一)

本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结,包含语音信号处理基础、语音信号分析、语音编码三部分。一开始以为三部分总结到一篇文章里就可以了,但写着写着发现事情并没有那么简单。。。因此还是老老实实的总结吧,扎实的基础最重要。

语音信号处理基础

语音信号的处理简称语音处理,是用数字信号处理技术对语音信号进行处理的一门学科。语音信号均采用数字方式进行处理,语音信号的数字表示可分为两类:波形表示和参数表示。波形表示仅通过采样和量化保存模拟信号的波形;而参数表示将语音信号表示为某种语音产生模型的输出,是对数字化语音进行分析和处理后得到的。

语音的产生过程

语音由发声器官在大脑的控制下的生理运动产生,发音器官包括肺、气管、喉(包括声带)、咽、鼻和口等,这些器官共同形成一条形状复杂的管道,其中喉以上的部分为声道,它随发出声音的不同形状而变化;喉的部分称为声门。发声器官中,肺和器官是整个系统的能源,喉是主要的声音产生机构,而声道则对生成的声音进行调制。

产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流,喉部的声带既是阀门又是震动部件。二两声带间的部位为声门。说话时,声门处气流冲击声带产生震动,然后通过声道响应变成语音。发不同音时声道形状不同,所以能听到不同的声音。喉部的声带对发音影响很大,其为语音提供主要的激励源:声带震动产生声音。声带开启和闭合使得气流形成一系列脉冲。没开启和闭合一次的时间即震动周期,称为基音周期,其倒数为基因频率,简称基频。

语音由声带振动或不经声带振动而产生,其中由声带振动产生的称为浊音,二不由声带振动产生的称为清音。浊音包括所有原因和一些辅音,清音包括另一部分辅音。对于浊音、清音和爆破音,其激励源不同。浊音是位于声门处的准周期麦种序列,清音是位于声道的某个收缩区的空气湍流(类似于噪声),爆破音是位于声道闭合点处建立的起亚及突然地释放。

当激励频率等于震动物体固有的频率时,便以最大振幅来震荡,在该频率上,传递函数有极大值,这种现象称为共振,一个共震体可能存在多个相应强度不同的共振频率。声道是分布参数系统,可以看做是谐振腔,有很多谐振频率。谐振频率由每一瞬间的声道外形决定。这些谐振

你可能感兴趣的:(python语音信号处理)