音频(一)时域图、 频谱图 Spectrum

1. 时域图

1.1 声音信号是一维的时域信号,无法观察出频率随时间的变化规律。

音频(一)时域图、 频谱图 Spectrum_第1张图片
动态信号x(t): 是描述信号在不同时刻取值的函数, 其中t是自变量;

即横轴代表时间, 纵轴是信号的变化(振幅)。

2. 信号的频域分析

信号通过傅里叶变换把它变到频域上,可以看出信号的频率成分;

横轴代表各个频率成分, 纵轴: 信号的幅度值。
是一个时间平均(time average)概念。

2.1 频谱图

简单地说,任何信号(当然要满足一定的数学条件),都可以通过傅立叶变换而分解成一个直流分量(也就是一个常数)和若干个(一般是无穷多个)正弦信号的和。

每个正弦分量都有自己的频率和幅值;
这样,以频率值作横轴,以幅值作纵轴,
把上述若干个正弦信号的幅值画在其所对应的频率上,就做出了信号的幅频分布图,也就是所谓频谱图 。
音频(一)时域图、 频谱图 Spectrum_第2张图片

2.3 频谱图类型

在实际使用中,频谱图有三种,即

  1. 线性振幅谱、
  2. 对数振幅谱、
  3. 自功率谱.

其中, 对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝), 这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。

2.4 相频分布:

横坐标: 频率 ;
纵坐标: 相位;
音频(一)时域图、 频谱图 Spectrum_第3张图片

3. 功率谱

3.1 功率谱定义

功率谱可以从两方面来定义,

  1. 一个是自相关函数的傅立叶变换,第一种定义就是常说的维纳辛钦定理。

  2. 另一个是时域信号傅氏变换模平方然后除以时间长度。

第二种其实从能量谱密度来的。
根据parseval定理,信号傅氏变换模平方被定义为能量谱,能量谱密度在时间上平均就得到了功率谱。

3.2 功率谱性质

  1. 功率谱的概念是针对功率有限信号的(能量有限信号可用能量谱分析),所表现的是单位频带内信号功率随频率的变换情况。保留频谱的幅度信息,但是丢掉了相位信息,所以频谱不同的信号其功率谱是可能相同的。

  2. 功率谱是随机过程的统计平均概念,平稳随机过程的功率谱是一个确定函数;而频谱是随机过程样本的Fourier变换,对于一个随机过程而言,频谱也是一个“随机过程”。(随机的频域序列)

  3. 功率概念和幅度概念的差别。此外,只能对宽平稳的各态历经的二阶矩过程谈功率谱,其存在性取决于二阶局是否存在并且二阶矩的Fourier变换收敛;而频谱的存在性仅仅取决于该随机过程的该样本的Fourier变换是否收敛。

  4. 在频域分析信号分两种:
    (1).对确定性信号进行傅里叶变换,分析频谱信息。
    (2).随机信号的傅里叶信号不存在,转向研究它的功率谱。随机信号的功率谱和自相关函数是傅里叶变换对(即维纳辛钦定理)。功率谱估计有很多种方法;

4. 时域与频域的关系 (FFT)

4.1 相位与振幅

如下面静态图所示:

正弦波就是一个圆周运动在一条直线上的投影。
任意时刻的相位 为 ϕ \phi ϕ ;
任意时间的 幅度值: 振幅A × sin ϕ \phi ϕ

sin = 对边/ 斜边;
对边 = sin × 斜边
音频(一)时域图、 频谱图 Spectrum_第4张图片

4.2 频域的基本单元

如下图所示:
频域的基本单元也可以理解为一个始终在旋转的圆。

音频(一)时域图、 频谱图 Spectrum_第5张图片

4.3 FFT过程

举例, 矩形波的 FFT过程:
音频(一)时域图、 频谱图 Spectrum_第6张图片

任意波形FFT:

音频(一)时域图、 频谱图 Spectrum_第7张图片

4.4 相位差:

相位差 = (时间差 / 周期 ) × 2 π \pi π
图中, 小红点是距离频率轴最近的波峰, 我们将红色的点投影到下平面,投影点我们用粉色点来表示。当然,这些粉色的点只标注了波峰距离频率轴的距离,并不是相位。时间差并不是相位差。如果将全部周期看作2Π或者360度的话,相位差则是时间差在一个周期中所占的比例。我们将时间差除周期再乘 2Π,就得到了相位差。音频(一)时域图、 频谱图 Spectrum_第8张图片

4.5 矩形波在时域、频域和相位的表现形式:

音频(一)时域图、 频谱图 Spectrum_第9张图片

5. 时频域分析

5.1 时频域分析:

频谱虽然可以看出信号的频率分布, 但是丢失了时域信息,无法看出频率分布随时间的变化。

为了解决这个问题,很多时频域分析手段应运而生。

短时傅里叶,小波,Wigner分布等都是常用的时频域分析方法。

5.2 STFT的原理:

  1. 把一段长信号分帧、加窗,
  2. 对每一帧做傅里叶变换(FFT).

短时傅里叶变换,是对短时的信号做傅里叶变换。
短时的信号怎么得到? —> 是长时的信号分帧得来的。

5.3 实现:

python可以使用scipy库中的signal模块。

如果做STFT分解的音频信号(wav文件)的路径存在path变量中,可通过下面的代码得到STFT数据。

import wavio
import numpy as np
from scipy import signal

wav_struct=wavio.read(path)
wav=wav_struct.data.astype(float)/np.power(2,wav_struct.sampwidth*8-1)
[f,t,X]=signal.spectral.spectrogram(wav,np.hamming(1024),nperseg=1024,noverlap=0,detrend=False,return_onesided=True,mode='magnitude')

关于signal模块中spectrogram的使用方法和各个参数的具体意义,参见

https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.spectrogram.html#scipy.signal.spectrogram

你可能感兴趣的:(#,音频部分,语音识别,算法,人工智能)