《人工智能基础》9/91天阅读

一段时长30秒的音乐,采样频率为44100Hz,那么每秒钟的时间序列可以表示为44100维向量,整段音乐大约是130万。直接对这样高维的数据进行分类在实际中效果很差,而且给分类器带来很大的计算负担。

经典的声学特征:梅尔频率倒谱系数。

共振峰:声音频谱上能量相对集中的一些区域。

梅尔频率对频谱进行处理得到一组26维的特征。

倒谱是由上述26维特征再做变换,进一步降低到13维,这样就得到了MFCC特征。

语间识别:把人说的话转化为文字或者机器可以理解的指令。

把一系列语音转换为若干音素的过程利用了语言的声学特性,被称为声学模型。从音素到文字的过程,称为语言模型。

你可能感兴趣的:(《人工智能基础》9/91天阅读)