语音识别学习日志 2018-7-16 语音识别基础知识准备(2)

2018-7-16

音强

表征声波强度,一般用DB值衡量。声音强度由振动幅度的大小决定,以能量来计算称声强,以压力计算表示时称声压。声强(I)与声压(P)的关系为:I=(P^2)/(ρv) (此时P为有效值,若P为幅值,则 I=(P^2)/(2ρv) ),其中ρ-介质密度,v-声速。

基音 

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音(fundamental tone),其余为泛音。

基频

基音的频率即为基频,决定整个音的音高。基频(Baseband),又叫基带。基频 (fundamental frequency)是复杂声音中最低且通常情况下最强的频率,大多数通常被认为是声音的基础音调。

音色

声音谐波决定音色,之所以能分辨出不同乐器和不同人,只因为声音中谐波成分不同。所谓谐波,当分音的频率是整数倍基音频率的时候,这些频率就叫谐波。另外,所有的谐波是按照一定顺序排列的,这意味着,基音频率是第一谐波,第一泛音就是第二谐波,第二泛音就是第三谐波,以此类推。

声调

声音频率的高低叫音调,英文pitch,是声音的三个主要的主观属性,即音量(响度),音调,音色(音品)之一。对于一定强度的纯音,音调随着频率的升降而升降。

GMM模型

EM算法

Kmeans算法

你可能感兴趣的:(ASR)