语音信号处理-1-----语音信号预处理

From:BUPT某非著名小白研究生,因研究语音信息处理,因基础知识薄弱,又不甘颓废当个咸鱼,写一些赵力《语音信号处理》此书的一些理解。写博客以鞭策自己前进。(实在觉得书本上好多废话,就在括号内用自己理解的人话解释一下)

语音基本声学特性:语音室发声器官发出的一种声波,具有一定音色音调,音强和音长,其中,

音色:即音质,是一种声音区别另一种声音的基本特性;(你声音好不好听)

音调:声音的高低,取决于声波的频率;(你声音尖不尖)

音强:声音的强弱,由声波的振动幅度决定;(响不响?)

音长:取决于发音时间的长短。

根本原因

语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。但是由于语音肯定不是平稳的--毕竟你嘴巴一动,信号的特征就改变了,所以为了避免这种状况出现,需要把语音信号分帧(说人话就是语音分成很短很短的一段),在这一段时间内(也就是一个声母韵母的时间),可以认为语音信号是平稳的(嘴是不动的)

语音信号预处理(分帧+加窗+FFT)

1. 分帧

 

那么一帧有多长呢?帧长要满足两个条件:

  • 从宏观上看,它必须足够短来保证帧内信号是平稳的。前面说过,口型的变化是导致信号不平稳的原因,所以在一帧的期间内口型不能有明显变化,即一帧的长度应当小于一个音素的长度。正常语速下,音素的持续时间大约是 50~200 毫秒,所以帧长一般取为小于 50 毫秒。
  • 从微观上来看,它又必须包括足够多的振动周期,因为傅里叶变换是要分析频率的,只有重复足够多次才能分析频率。语音的基频,男声在 100 赫兹左右,女声在 200 赫兹左右,换算成周期就是 10 毫秒和 5 毫秒。既然一帧要包含多个周期,所以一般取至少 20 毫秒。(来自某乎)

2.加窗

将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。这种现象称为吉布斯效应。

因为我们截取的每一帧肯定起始和终止会出现不连续的状况,因此根据吉布斯效应,我们需要加窗去减少不连续的状况

取出来的一帧信号,在做傅里叶变换之前,进行「加窗」的操作,即与一个「窗函数」相乘,

3.傅里叶变换

(我就直接盗图来形容时域与频域的关系了)

 我们再用wiki的动图来加深下记忆,所以下图中单帧的频谱图横轴就是频率(音调),纵轴为幅度也就音强。

语音信号处理-1-----语音信号预处理_第1张图片

语音的频谱,常常呈现出「精细结构」和「包络」两种模式。「精细结构」就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。「包络」则是连接这些小峰峰顶的平滑曲线(红线),它代表了口型,即发的是哪个音。包络上的峰叫共振峰,图中能看出四个,分别在 500、1700、2450、3800 赫兹附近。有经验的人,根据共振峰的位置,就能看出发的是什么音(神人)。(盗自某乎)

4.语谱图

语音的时域分析和频域分析就是语音分析的两种重要方法,但这两种单独分析的方法有局限性,时域分析对语音信号的频率没有直观了解,而频域分析出的特征中又没有语音信号随时间变化的关系。语音信号是时变信号, 所以频谱也是随时间变化的,由于语音信号随时间变化是缓慢的,因而在一段时间内(如10~30ms,即所谓一帧内)可以认为频谱是不变的,这种频谱是短时谱,短时谱只反映语音信号静态频谱特性,所以研究语谱图,即把和时间相关的傅立叶分析的显示图成为语谱图,是一种三维频谱,表示语音频谱随时间变化的图形,纵轴是频率,横轴是时间,任意给定频率成分在给定时刻的强弱用相应点的灰度图或色调的浓淡表示,颜色深,表示该点的语音能量越强(频谱的振幅)

语音信号处理-1-----语音信号预处理_第2张图片

 

你可能感兴趣的:(语音处理)