PC端语音识别简介

语音识别:

       语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。它主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别区别于声纹识别,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的发展可参考http://baike.baidu.com/view/652891.htm。


       以下主要介绍PC端语音识别产品,现行产品还是分为两种:云语音识别和离线语音识别。

云语音识别:

1. html5语音输入标签直接支持语音输入,浏览器中的语音输入,未来语音识别的标准,由于是基于Google的语音库的,因此识别率还较低,需要浏览器支持(目前chrome 11及以上版本支持较好,IE和Firefox等暂不支持),实例:WebQQ中在chrome中打开有使用该语音识别 http://web.qq.com/

2. PC端的google输入法语音输入,这个和应该和chrome中的类似,都是要调用google的云语音库,由于google被墙的原因,再加上google更擅长处理英文,所以识别效果也还一般。

3. 科大讯飞语音云,中文语音合成和识别,目前国内较为成熟的中文语音识别,主要在移动端发力,最近也已经在PC端开始布局,java版,windows版,linux版,还有简单发布的半官方的flash版本(前面的三个PC版都是官网直接发布的,flash的截至2012-12-07还是在官方论坛上通过迅雷网盘发布,有失效时间,因此可能更新也会比较频繁),Web端开发需要flash支持或开发浏览器插件。

(1)研究了下Flash的控件的,暂时还是有很多问题,调用还是各种报错(科大讯飞+flash——语音识别时报错:Error #10202:套接字连接 和 长时间不点击报错: error#120106:通信沙箱安全错误;已提交官网论坛需求帮助,暂时没有收到回复),包括官网上给的演示实例也不能正常使用(有输入的提示,话筒会动,但是没有识别后的信息显示,也没有报错),不过随着时间推移,慢慢应该会变好。Flash版科大讯飞测试页面:http://open.voicecloud.cn/iat.php

 

(2) 基于windows包的ActiveX插件,只支持IE(研究了一下,很少搞ActiveX,没搞懂... 后来搞了下java版Swing图形界面的实例,测试了下识别效果还是不错的);chrome插件和firefox插件的还没看。

离线语音识别:

       离线的主要是关注了IBM ViaVoice,这个产品整体评价最好,只下载到for windows XP的9.0版本(可以到新浪爱问上搜索下载),10版本的据说是支持win7,不过没看到有破解版的流出,都是要线上购买收费的。在XP上试用了9版本的,感觉IBM的这个就是真的按照”特征提取技术、模式匹配准则及模型训练"来做的,安装到后面需要不断通过语音录入和设置等去训练该软件,以使得软件更加能够准确的识别操作者的语音,还可以做一些自定义设置和其他高级设置。和基于云的语音识别不太一样的是,IBM的不仅能够提供语音听写(即语音翻译成汉字),还能够借助该软件实际操作电脑,如说“网上冲浪”就会打开IE浏览器,还有类似的打开软件和文件夹等操作。识别率在不特别训练的情况下已经较高,如果根据个人的不断使用和偏好设置,据说识别率会更上一层楼——该软件属于智能软件,不断的积累会使软件内部的建模更加精准更加好用。缺点是:设置复杂,且更倾向于个人电脑使用,不适合像图书馆这种公用的电脑;非语音提示——可能是还未深入研究清楚,可设置的高级功能很多;且9.0版本语音库中的词句比较老旧,对于较新词汇不能很好识别,适合识别传统词汇——可能10版本的词库会比较新吧。

       另外,讯飞据说也有离线收费版的语音识别产品,由于没有相关软件,所以无法体验。已经按照官网论坛回复的向[email protected]发送邮件询问了解,暂无回复。

       总结,由于现行语音识别软件产品还是不能达到精确识别的程度,因此感觉还不能很好的商用,或者需要定制开发,或者需要深入研究下怎么样结合实际需求来配合使用。以上属于个人简单学习结果,仅供参考。

 

你可能感兴趣的:(语音识别)