短时傅里叶变换

一、一些基本概念

1.傅里叶变换

首先用一张直观的图来看一下什么是傅里叶变换

短时傅里叶变换_第1张图片

图1:平稳信号的傅里叶变换

做完FFT(快速傅里叶变换)后,可以在频谱上看到清晰的四条线,信号包含四个频率成分。

傅里叶变换是一种分析信号的方法,它可分析信号的成分,也可用这些成分合成信号。在分析信号时,主要应用于处理平稳信号,通过傅里叶变换可以获取一段信号总体上包含哪些频率的成分,但是对各成分出现的时刻无法得知。

 短时傅里叶变换_第2张图片

图2:非平稳信号的傅里叶变换

 最上方的图是频率始终不变的信号,下方两张图频率随时间变化,但是三张图都包含同样频率的四个成分。这三个在时域上差异巨大的信号,在频谱上却很相似。由此可见,傅里叶变换会忽略信号的时间信息,对非平稳信号的处理有天生的缺陷。对于非平稳信号,只知道包含哪些频率成分是不够的,还需要知道每个频率出现的时间,即做时频分析

2.短时傅里叶变换

由此出现了短时傅里叶变换。短时傅里叶变换的精髓就是加窗。“把整个时域过程分解成无数个等长的小过程,每个小过程近似平稳,再傅里叶变换,就知道在哪个时间点上出现了什么频率了。”

短时傅里叶变换_第3张图片

图3:对语音信号加窗

如图,将信号在时频上分成一段一段,然后做FFT,就可以知道信号频率随时间变化的关系了。

但是这种方法也有缺陷,就是窗的宽窄难以确定。

短时傅里叶变换_第4张图片

图4:窗过窄

窗太窄,每个窗内信号太短,会导致频率分辨不精准,频率分辨率差

短时傅里叶变换_第5张图片

图5:窗过宽

窗太宽,时域上不够精细,时间分辨率低

【这个道理可以用海森堡不确定性原理来解释。类似于我们不能同时获取一个粒子的动量和位置,我们也不能同时获取信号绝对精准的时刻和频率。这也是 一对不可兼得的矛盾体。我们不知道在某个瞬间哪个频率分量存在,我们知道的只能是在一个时间段内某个频带的分量存在。 所以绝对意义的瞬时频率是不存在的。)】

短时傅里叶变换_第6张图片

短时傅里叶变换_第7张图片

短时傅里叶变换_第8张图片

图6:不同大小窗

同一个信号(包含四种频率)采用不同宽度的窗做STFT。用窄窗,食品土在时间轴上分辨率很高,几个峰基本成矩形。用宽窗,变成了绵延的矮山,但是频率轴上,宽窗分辨率更高。所以窄窗口时间分辨率高,频率分辨率低,高频适合小窗口,低频适合大窗口。但短时傅里叶变换窗口大小确定,无法满足非稳态信号变化的频率的需求

3.小波变换

STFT给信号加窗,分段做FFT。而小波直接把傅里叶变换的基给换了——将无限长的三角函数基换成了有限长的会衰减的小波基。这样不仅能够获取频率,还可以定位到时间了【暂未用到,以后用的的话补充】

二、数学公式

1.傅里叶级数

短时傅里叶变换_第9张图片

对一个时域的信号做傅里叶变换,会得到

1. 一系列的频率

2. 每个频率下的振幅

3.每个频率下的相位

再将这三个信号组合起来反变换,可变成时域信号

傅里叶级数的表示公式

任何一个周期性函数都可以看成正余弦函数的叠加。

 

可得到每一个信号的频率、振幅以及它的相位

标准正交基为1,sinnwt,cosnwt

2.傅里叶变换

横轴单位为1,纵轴单位为i,对于任一点,横坐标是cosθ,纵坐标是isinθ。点坐标即cosθ+isinθ

傅里叶变换:    短时傅里叶变换_第10张图片

傅里叶逆变换:短时傅里叶变换_第11张图片

3.傅里叶变换的应用

1.声音

大脑可以对声音自动进行傅里叶变换,从而根据分出来的频率大小确定说话人的性别。且人脑可以自动进行滤波,去噪

2.图像

横坐标是空间位置。将人的图像做傅里叶变换,得到低频成分:表示人的轮廓。并接着得到高频成分,表示人的细节。如果只要低频,只要轮廓,可以直接把高频成分滤掉。 

参考文献:
https://rf.eefocus.com/article/id-xiaobobianhuan?p=1 傅里叶-->短时傅里叶变换-->小波变换的方法
https://blog.csdn.net/iceberg7012/article/details/108697542 对音频信号作短时傅里叶变换(STFT)/小波变换处理(python + matlab)

 

你可能感兴趣的:(语音编码)