语音识别基础-梅尔谱图

Transfomer应用及改进系列文章目录

第一章 语音识别基础-梅尔谱图
第二章 李宏毅hw4语音识别数据集及需求详解
第三章 从rnn到gru、lstm及双向神经网络
第四章 编码器解码器架构、seq2seq、注意力机制及机器翻译应用代码实现
第五章 transfomer详解及代码实现
第六章 李宏毅hw4语音识别模型改进(conformer+amsoftmax)


语音识别基础-梅尔谱图及其python实现

  • Transfomer应用及改进系列文章目录
  • 前言
  • 一、数据集
  • 二、梅尔谱图
    • 1.原理
  • 总结


前言

本系列文章围绕李宏毅课堂作业hw4,之前学习了tranfomer模型,但是感觉是勿囵吞枣,其中很多都理解的不是很透彻。故从rnn到transfomer的改进进行复习,旨在熟悉模型和改进模型的方法。其中该作业的要求就不详细说了,直接到官网看吧。


一、数据集

直接给出困惑我很久的疑问
当我打开metadata.json中feature_pathd的uttr0-XXXXXXXXXX.pt文件时
语音识别基础-梅尔谱图_第1张图片一堆16进制码让我摸不着头脑,直到我打开一个.wav的音频文件
语音识别基础-梅尔谱图_第2张图片
才豁然开朗。我猜测 .pt 文件保存的就是音频文件。
但是把.pt文件改成.wav文件,播放器又不能播放…这就不懂了。

二、梅尔谱图

因为不是专门搞信号的,旨在了解,写一些科普性的理解,不做深入。

1.原理

人耳对低频段的变化敏感,对高频段的变化迟钝,即人耳对频率的感受是对数的(logarithmic)
语音识别基础-梅尔谱图_第3张图片
但是传统的频谱图,像平时手机录音时的图像
语音识别基础-梅尔谱图_第4张图片

此时高频数据因为人耳不敏感,放到深度学习中去一些高频特征用处不大,也就是说,在频域上a点和b点与c点的距离,在人耳能感受的实际距离并不是频谱图上所示的距离,可能a和b点就会离得更近了。这里使用梅尔谱图进行转换,按如下公式进行转化。
语音识别基础-梅尔谱图_第5张图片
其中f代表原本的频率,m代表转换后的梅尔频率。这样,原本的频率越大,转换后就变得越平缓。也就更接近人耳的感受。
语音识别基础-梅尔谱图_第6张图片

随意网上找个无损音乐.wav文件,画出频谱图
语音识别基础-梅尔谱图_第7张图片
转换为梅尔谱图
语音识别基础-梅尔谱图_第8张图片
有图可得,其y轴频率轴,从10000降到8192,有效降低了高频域。

总结

如果想要更深入,参考如下文章。

语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理
语音合成基础(3)——关于梅尔频谱你想知道的都在这里
如何用python画出语谱图(spectrogram)和mel谱图(mel spectrogram)

你可能感兴趣的:(nlp,语音识别,机器翻译,人工智能)