应用HTK搭建连续语音识别系统(总结)

 

一  基于 HMM 的连续语音识别与 HTK 工具包介绍
语音识别系统的分类

被识别人:特定人   非特定人

词汇量:小词汇量 中词汇量 大词汇量

说话方式:孤立词  连接词 连续词

语言:汉语  英语 法语

 

我们做的非特定人大词汇量连续汉语语音识别系统

也叫 汉语语音听写机

 

 

隐马尔可夫模型( Hidden Markov Model

    隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到每个 观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。

~o <VecSize> 39

~h "proto"

<BeginHMM>

  <NumStates> 5

  2

    39

      0.0 …… 0.0

    39

      1.0 …… 1.0

  3

    39

      0.0 …… 0.0

    39

      1.0 …… 1.0

……

<TransP> 5

  0.0 1.0 0.0 0.0 0.0

  0.0 0.6 0.4 0.0 0.0

  0.0 0.0 0.6 0.4 0.0

  0.0 0.0 0.0 0.7 0.3

  0.0 0.0 0.0 0.0 0.0

<EndHMM>

一个HMM模型

 

HTK工具包 包括:

数据准备工具

HDManHCopyHLEdHSGenHBuildHLStats HParse

模型训练及优化工具

HERestHInitHRestHHEdHCompV

识别工具

HVite

性能评估工具

HResultsHRec

 

 

 

二  搭建连续语音识别系统

数据准备

定义语法 

$word=a|ai|an|ang|ao|ba|bai|ban|bang|

……|silence;

( SENT-START <$word> SENT-END)

 

建立声学模型

b

p

m

f

d

t

n

l

x

zh

ch

sh

z

c

...

最后更新为上下文相关声学模型

z+uo

z-uo

h+ao

h-ao

n+a

n-a

sh+i

sh-i

l+i

sh-ang

y+ou

y-ou

d+e

...

 

语料库

Sentence 010001:作品一号

Sentence spell:zuo4 pin3 yi1 hao4

Sentence 010002:那是力争上游的一种树

Sentence spell:na4 shi4 li4 zheng1 shang4 you2 de0 yi1 zhong3 shu4

Sentence 010003:笔直的干

Sentence spell:bi3 zhi2 de0 gan4

Sentence 010004:笔直的枝

Sentence spell:bi3 zhi2 de0 zhi1

Sentence 010005:它的干呢

Sentence spell:ta1 de0 gan4 ne0

Sentence 010006:通常是丈把高

Sentence spell:tong1 chang2 shi4 zhang4 ba3 gao1

Sentence 010007:象是加以人工似的

Sentence spell:xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0

Sentence 010008:一丈以内

Sentence spell:yi1 zhang4 yi3 nei4

Sentence 010009:绝无旁枝

Sentence spell:jve2 wu2 pang2 zhi1

Sentence 010010:它所有的丫枝呢

Sentence spell:ta1 suo3 you3 de0 ya1 zhi1 ne0

Sentence 010011:一律向上

Sentence spell:yi1 lv4 xiang4 shang4

Sentence 010012:而且紧紧靠拢

Sentence spell:er2 qie2 jin3 jin3 kao4 long3

Sentence 010013:也象是加以人工似的

Sentence spell:ye3 xiang4 shi4 jia1 yi3 ren2 gong1 shi4 de0

自己录制+网上交换语料 一共有大概3G的语料

 

数据特征提取

MFCC  利用HCOPY工具

 

数据训练

为每一个基元建立一个隐马模型

+

上下文无关训练

+

上下文相关训练

+

增加混合度训练

 

 

 

 

 

 

 

 

 

 

 

 

识别率

------------ Overall Results ------

WORD: %Corr=85.71, Acc=79.15

==================================

 

你可能感兴趣的:(语音识别)