ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

前言

虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程,感觉还是挺cool的。
目前这块属科大讯飞和百度语音这两公司做的不错,不过还有其他的一些比如:思必驰,捷通华声,云之声,图灵OS等
ros下的语音交互系统,原生态的主要是支持的一个叫cmu sphinx,
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第1张图片
支持多种语言,英语和德语都是支持的。
比如苹果手机的siri,它主要是Nuance公司来做的,应该是目前语音这块最前端的公司了,
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第2张图片
还有一个叫festival,它是lincx可以简单实现的一个语音交互系统,它是由爱丁堡大学开源的,测试也很简单
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第3张图片
还有Ekho(余音)是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话(国语)、广东台山话、诏安客语、藏语、雅言(中国古代通用语)和韩语(试验中),英语则通过eSpeak或Festival间接实现。Ekho支持Linux、Windows和Android平台。
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第4张图片
介绍完国外的,下面来介绍国内的,国内的语音识别技术如下:
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第5张图片

NLU以前叫NLP,其实是一个东西,叫做自然语言处理(natural language process)

语音唤醒

百度语音唤醒
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第6张图片
科大讯飞语音唤醒
语音唤醒(VoiceWakeuper)通过辨别输入的音频中特定的词语(如“讯飞语点”),返回被命中(唤醒)结果,应用通过回调的结果,进行下一步的处理,如点亮屏幕,或与用户进行语音交互等。唤醒资源中含有一个或多个资源,只要命中其中一个,即可唤醒。需下载使用对应的语音唤醒SDK。
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第7张图片

语音听写主要API调用流程如下图所示:
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第8张图片
思必驰 收费
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第9张图片
像如上所述的语音识别方面的公司都提供在线体验功能,感兴趣的可以登录其官网体验一下。效果还是不错的。

语音识别ASR

百度在线语音识别
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第10张图片
科大讯飞在线语音识别ASR
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第11张图片
云之声在线识别ASR
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第12张图片

语义理解

图灵机器人 免费在线使用5000次每天
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第13张图片
云之声 在线体验
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第14张图片
科大讯飞 免费在线使用体验
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第15张图片
捷通华声(灵云在线体验)
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第16张图片

语音合成TTS

科大讯飞语音合成TTS
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第17张图片
云之声
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第18张图片
百度在线语音
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第19张图片
捷通华声
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程_第20张图片
接下来的教程会逐渐把这些语音交互流程与ros结合起来,并且在ros上实现。比如语音合成啊,语音识别啊,语义理解啊,让机器人也具备语音交互功能。

你可能感兴趣的:(slam,视觉,ros,win7,ubuntu)