[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行

前言:因为在学校要做语音相关的开发,并且应用环境多数是在无网络状态下,故要用到离线语音识别。经过一番查阅,发现目前在做离线语音识别的,尤其是android环境下的离线语音识别的人确实很少。(插一句如果想要实现离线语音合成的可以看一下中科院慧声语音工作室提供的开放平台)在查阅资料期间联系过许多android方面经验丰富的前辈、朋友,但都没有接触过这个。因为是0基础,所以基本碰到一个东西就是新的,需要一点一点的学,不过即使现在能够成功运行demo,但也只是大体上的了解,主要是应用,用到什么学什么,并不深入。

下面,我将根据自己搭建环境和运行中遇到的问题,说一下自己的问题和解决方法,最后给出相关下载链接,给大家节省些时间,希望能帮助到遇到类似问题的朋友,也希望能互相学习交流。

由于许多朋友需要源代码,我便将我用过的源代码及声学模型和词典放到了csdn资源中供大家下载地址如下所示:http://download.csdn.net/detail/loveannuoa/5386461  这个工程和下面说的第二个链接代码是一样的,只是声学模型和词典不同,这个工程的数据是我自己弄的。

另外,本篇文章主要说的再linux下搭建环境,windows下的环境我也搭建完成,如果有不明白的可以先看一下我的另一篇关于windows下搭建环境的文章:http://blog.csdn.net/loveannuoa/article/details/8689478

 

重要提示:有一点之前没有说明,在整个环境配置中涉及了两个demo,一个是官方提供的即http://sourceforge.net/projects/cmusphinx/files/?source=navbar

另一个则是http://zuoshu.iteye.com/blog/1463867其中的。后者是“zuoshu”自己修改后的。根据测试,能够达到中文高识别率的是后者,即使唤作简单的中文数据词典文件,用前者的程序也没法识别。

搭建环境篇

注意:我在网上查到的几个搭建环境的帖子中都是针对Linux系统下的,一开始我没有注意到这个问题,是在windows下用cygwin模拟linux下做的,结果都没有成功。所以建议大家如果对cygwin中各种包、命令、错误不是很熟悉的情况下还是用linux系统吧,我是用的Ubuntu12.04和win7双系统,VM太卡受不了。下面指出的搭建环境的方法虽然能将demo运行起来,但识别率和识别速度实在是太难以让人满意,所以在中文识别篇中有提高识别率的方法。

我是通过两篇文章搭建的环境,分别是,

(1)http://blog.csdn.net/sununs11/article/details/8034294

         这个是CSDN中原版的android下利用pocketsphinx实现离线语音识别环境搭建方法,在myException网站和csdn其他博客中也有转载。通过这篇文章能够顺利的将demo跑起来。

(2)http://ucla.jamesyxu.com/?p=118

         这个应该是最早的讲解android离线语音识别的,而且确实不愧是老外的东西,讲解的很细致,同时也有问题分析。但这个教程中得第四步,即在demo的swig文件夹中运行”make”指令的这一步我始终没有执行过去,老是出错(错误会在下边指出)。作者貌似挺牛逼的,对网友们提出的问题都很热心的解答(但不知为什么我给他发过邮件,却一直没有点我,难道有反华倾向,呵呵)。

主要问题和注意事项集中在:

(1)    在安装sphinxbase和pocketsphinx包的时候会提示缺少其他的包(例如bison、libtool等),这个比较简单在cygwin下直接运行setup安装相应的包,如果在linux系统下直接用“sudo apt-get install “包名””就可以安装缺少的包。

(2)   在执行在swig目下make这一步中,首先,swig是需要单独安装,cygwin安装方法和(1)中类似,ubuntu下可以通过软件库下载安装。其次,无论在cygwin还是在ubuntu下都怎么弄都不成功,在cygwin下会提示问题(1)中提到的两个包未找到,这种情况可以参考http://cgwxyz.blog.163.com/blog/static/262806020105307929424/。另外,解决这个问题后还会出现.c文件中函数未定义的错误,我感觉这是cygwin本身的不足,可能就跟两个包没安装好有关。

在Ubuntu下,错误提示是缺少jni.h,这个包在jdk/include中,但无论我用“make  -I “jni.h的路径””将.h包含进来还直接将.h文件拷贝过来都依旧提示该错误。我没能解决了,如果大家有感兴趣的可以试一下,弄好了希望能通知一下,互相学习一下。

(3)    在demo的jni目录下执行ndk编译的时候,一定先修改Android.mk文件中SPHINX_PATH路径,修改时要将连同”$”在内的原来的路径都删掉,改成自己安装两个包的父目录,对于cygwin下要以“/cygdrive/….”开头,同样linux系统下也要先以”/”开头。

(4)    在更改工程属性中的swig和ndk时,要注意对于swig,在refresh选项中时选择的”thefloder…..”,而对于ndk则选择的是”theproject…..”,不要当做一样的,一定仔细按照步骤进行。


中文识别篇

我个人的理解:语音识别除了demo工程外还需要中/英文声学模型和语言模型,也就是环境搭建最后提到的hmm和lm文件夹,这两个文件夹在pocketsphinx中有,但是将这两个文件夹放入设备中测试时,不论中文还是英文识别率都很低而且识别速度也很慢。

因此以下几篇文章给出了解决办法:

(1)http://zuoshu.iteye.com/blog/1463867

这篇文章可以实现英文的识别,但是提到的中文识别目前我本人未实现,原因在于本文所给出的在线生成语音模型和字典的网站无法解析中文,只能生成英文字典。但是这篇文章给出了一个很好的生成语言模型和字典文件的网址

http://www.speech.cs.cmu.edu/tools/lmtool-new.html

 

(2)http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html#2525875

这个是在demo跑起来之后,为解决识别中文的办法。特点:速度快,识别率很高,但是范围小。而且对于.dic字典文件来说需要自己设计,这就需要有一个比较规范字典文件模板作比照,可以用pocketsphinx/model/lm/zh_CN中得字典文件,同时也可以用上述链接中提到的zh_broadcastnews_utf8.dic,下载地址是:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

 

以下是在环境搭建和demo运行中可能会用到的一些资料的下载链接:

(1)Sphinxbase和pocketsphinx的下载链接:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(2)demo的下载地址:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(3)一些sphinx和pocketsphinx基础知识学习的链接,涉及到一些识别引擎、识别原理的分析,挺专业的我没太看懂,以后还会继续学习。

http://blog.csdn.net/zouxy09/article/details/7941585

 

总结:

现在知识刚刚能够运行起demo来,能够简单的识别一些中文,对于识别引擎,识别原理我了解的太少,也是由于现在弄离线语音识别的太少,大多是在线的而且识别率和速度都很理想,导致几乎除了sphinx以外没有其他的语音识别引擎。

非常高兴大家能看到这里,这是我写的第一篇CSDN博文,以后希望能坚持写下去,希望与大家交流技术方面的知识,互相学习,大家如果在搭配环境或者运行demo上有什么问题,可以给我发私信,我会尽力帮忙的,互相学习共同进步。

你可能感兴趣的:(android,环境搭建,提高识别率,pocketsphinx,离线语音识别)