深度学习之语音识别-音频基础知识、声谱图(Spectrogram)

音频基础知识

声音的三要素

1.音调

人耳对声音高低的感觉称为音调(也叫音频)。音调主要与声波的频率有关。声波的频率高,则音调也高。当我们分别敲击一个小鼓和一个大鼓时,会感觉它们所发出的声音不同。小鼓被敲击后振动频率快,发出的声音比较清脆,即音调较高;而大鼓被敲击后振动频率较慢,发出的声音比较低沉,即音调较低。一般音频 儿童>女生>男生。人耳听觉音频范围是20Hz-20000Hz

深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第1张图片

2. 音量

也就是响度。人耳对声音强弱的主观感觉称为响度。响度和声波振动的幅度有关。一般说来,声波振动幅度越大则响度也越大。当我们用较大的力量敲鼓时,鼓膜振动的幅度大,发出的声音响;轻轻敲鼓时,鼓膜振动的幅度小,发出的声音弱。

另外,人们对响度的感觉还和声波的频率有关,同样强度的声波,如果其频率不同,人耳感觉到的响度也不同。

深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第2张图片
3.音色

也就是音品。音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。音色与声波的振动波形有关,或者说与声音的频谱结构有关。

音叉(一种乐器)可产生一个单一频率的声波,其波形为正弦波。但实际上人们在自然界中听到的绝大部分声音都具有非常复杂的波形,这些波形由基波和多种谐波构成。谐波的多少和强弱构成了不同的音色。各种发声物体在发出同一音调声音时,其基波成分相同。但由于谐波的多少不同,并且各谐波的幅度各异,因而产生了不同的音色。

深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第3张图片

声谱图

什么是声波图

声音是一种震动(vibration),它会形成波(wave),然后通过空气、水或者固体进行传播。

可以通过两种形式改变这个震动。

  • 通过改变它们的频率(frequency),即这个震动震得有多快,称之为音高(pitch)
  • 通过改变它们的振幅(amplitude),即这个震动的具有的能量大小,被称为音量(volume)

而声谱图,就是通过二维图像将声音数据展示给我们,如下图所示:
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第4张图片

这就是一个声谱图。它包含以下几个部分:

  • 横坐标(时间序列):横坐标表示时间序列
  • 纵坐标(频率):纵坐标表示声音频率,纵坐标越大,说明频率越高,越接近0,说明频率越低。
  • 颜色(振幅):颜色代表振幅,颜色越亮,表示振幅越高。越暗,表示振幅越小

声波图举例

Google提供了一个网页,可以很方便的生成声波图,有兴趣可以去试试:https://musiclab.chromeexperiments.com/Spectrogram/

1 鸣声声波图
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第5张图片
可以看到,鸟的叫声频率很高,但由于录制原因,振幅(响度)却很低。

2 竖琴
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第6张图片
竖琴的音调频率相比鸟叫,就低的多。最下面颜色比较红,说明这个音调的声音是最响亮的。

3 人声
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第7张图片
这是我随便说的一句话,人声的音调还是比较低的。而且每个字之间其实是有些许的停顿的。

4 口哨
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)_第8张图片
这是我用嘴吹了一小段的口哨,口哨的音调相对较高。

就举这些例子吧,有兴趣可以点进去玩玩,还是挺好玩的




参考资料

音频基础知识:https://www.jianshu.com/p/f56114df9c0b

What is a Spectrogram?:https://www.youtube.com/watch?v=sIckmJkH2Oc

Google Spectrogram:https://musiclab.chromeexperiments.com/Spectrogram/

你可能感兴趣的:(机器学习,Spectrogram,深度学习,语音识别)