语音信号处理

语音信号处理

  • 基本概念
    • 过零率
    • 光谱质心
    • 梅尔频率倒谱系数(MFCC)
    • 色度频谱
  • 参考链接

基本概念

过零率

在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。

光谱质心

它指示声音的“质心”位于何处,并计算为声音中存在的频率的加权平均值。
计算为声音中存在的频率的加权平均值。如果有两首歌曲,一首来自布鲁斯类型,另一首属于金属。与长度相同的布鲁斯流派歌曲相比,金属歌曲在最后有更多的频率。因此,布鲁斯歌曲的光谱质心将位于其光谱中间附近,而金属歌曲的光谱质心将朝向它的末端。

梅尔频率倒谱系数(MFCC)

它是一小组特征(通常10-40),其简明地描述了频谱包络的整体形状。

包括分帧,加窗,fft等步骤。
参考https://blog.csdn.net/jojozhangju/article/details/18678861

色度频谱

它是音乐音频的一种强大表示,其中整个频谱被投影到12个区间,代表音乐八度音的12个不同的半音(或色度)

参考链接

语音识别流程 https://segmentfault.com/a/1190000040622380?sort=votes

音频分类 https://blog.csdn.net/wherewegogo/article/details/110369729

语音唤醒关键技术 https://wenku.baidu.com/view/77faf6f26c1aff00bed5b9f3f90f76c660374c40.html

音频信号处理 https://blog.csdn.net/mandagod/article/details/92655343?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0-92655343-blog-125579350.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_index=3

你可能感兴趣的:(语音识别,人工智能)