julius开源语音识别引擎

    开源语音识别软件HTK,对Julius和 Kaldi等系统了解者更佳



一.Installation By Source tarball

Installation process is simple and contains the following points:

1. Download the newest source tarbal from Julius official site – link
2. Unpack the archive for example to your user home directory
3. Configure and install julius by following commands:

cd ~/julius-4.2.2/
sudo ./configure
sudo make
sudo make install

二.Installation using apt-get in Ubuntu
不要使用sudo apt-get install julius这种方式安装,安装的是老版本,会有一些问题的。

4. Try it by typing in command line:

julius-4.2.1
 
//output
Julius rev.4.2.2 - based on 
JuliusLib rev.4.2.2 (fast)  built for i686-pc-linux
 
Copyright (c) 1991-2012 Kawahara Lab., Kyoto University
Copyright (c) 1997-2000 Information-technology Promotion Agency, Japan
Copyright (c) 2000-2005 Shikano Lab., Nara Institute of Science and Technology
Copyright (c) 2005-2012 Julius project team, Nagoya Institute of Technology
 
Try '-setting' for built-in engine configuration.
Try '-help' for run time options.

5. Last additional thing needed to run Julius smoothly is a julius-voxforge package which can be installed via apt-get by typing in command line:

sudo apt-get install julius-voxforge

That’s all now you can start to configure it, because it’s not coming configured just out of the box. I’ll write a post in next few days about basic configuration to which link will be added here.

注意事项:

1.readme当中的命令已经发生了变化:

sudo mkdfa.pl sample

export TMP=/tmp





使用Julius搭建一个语音识别引擎这里主要就是听写程序,可以进行一段语音的连续识别,而且主要是针对中文:

一.语音识别引擎的基本结构

基本所有的开源语音识别引擎都是如下的结构,包括:Sphinx,Julius等,下面主要以Julius为例,说明相关的内容:

1.Acoustic Model(声学模型):用于音素的识别。

所使用的技术:

1) HMM(Hiden Mokov Model):

2) GMM(Gaussian Mixture Model):

3)DFA&NFA:

构建自己的声学模型:

可以使用的工具:

2.Phoneme Dictionary(读音词典):用于词语的识别。

构建自己的读音词典:

可以使用的工具:


3.Language Model(语言模型):用于语句的识别。

构建自己的读音词典:

可以使用的工具:


上面的三者3=>2=>1 依次成依赖关系,只要把上面的三者配置好,一个语音识别引擎就搭建好了,其他的就是利用开发包提供API进行客制化开发了。

二.具体操作

以Julius-Voxforge当中的Sample为例,使用Julius主要就是涉及三个文件:

1.sample.grammar:语言文法。


2. sample.voca:读音词典。


3. julian.jconf:语音识别引擎的主要配置文件。在这里指定相面的三大要素.

至于其他文件:

sample.dfa

sample.dict

sample.term

都是通过命令自动生成的---mkdfa.pl sample。


你可能感兴趣的:(语音识别)