HMM
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察倒每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用。
模型的表达
隐马尔可夫模型可以用五个元素来描述:
1.N,模型的隐状态数目。虽然这些状态是隐含的,但在许多实际应用中,模型的状态通常有具体的物理意义
2.M,每个状态的不同观测值的数目。
3,A , 状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中
AIJ = P(AT+1 =SJ | QT=SI),1≤I,J≤N. (1)
式(1)表示在T时刻、状态为SI的条件下,在T+1时刻状态是SJ的概率。
4 B ,观测概率矩阵。其中
BJ(K) = P[VK(T) | QT = SJ]; 1≤J≤N,1≤K≤M.
表示在T时刻、状态是SJ条件下,观察符号为VK(T)的概率。
5,π 初始状态概率矩阵 π={πJ} πJ= P[Q1 = SJ];1≤J≤N.
表示在出示T=1时刻状态为SJ的概率。
一般的,可以用λ=(A,B,π)来简洁的表示一个隐马尔可夫模型。给定了N,M,A,B,π后,隐马尔可夫模型可以产生一个观测序列 O=O1O2O3…OT
HMM需要解决三个基本问题:
*1 评估问题:
给定观测序列 O=O1O2O3…OT和模型参数λ=(A,B,π),怎样有效计算某一观测序列的概率.
*2 解码问题
给定观测序列 O=O1O2O3…OT和模型参数λ=(A,B,π),怎样寻找某种意义上最优的观测序列.
*3 学习问题
怎样调整模型参数λ=(A,B,π),使其最大?
基本算法
针对以上三个问题,人们提出了相应的算法
*1 评估问题: 向前向后算法
*2 解码问题: VITERBI算法
*3 学习问题: BAUM-WELCH算法
音译名不同,所以你搜一下隐马尔可夫模型,保有你满意答案!祝你顺利!
MFCC
现有语音识别系统采用的最主要的两种语音特征是线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。
线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。该特征考虑了人耳的听觉特性,将频谱转化为基于Mel频率的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在语音识别中MFCC参数的性能明显优于LPCC参数.