语音交互(初学)

一:寒假开始整一个机器人有关的项目,学习了语音方面的知识,下来做个总结。整个语音部分都用的是科大讯飞的平台,用的系统是ubuntu18.04
二:功能分类
1:语音听写:将语音转化为文字
2:语音合成:将文字转语音
3:语音唤醒:通过设置特定唤醒词来唤醒
4:人声检测:检测到人声后开始语音识别
5:语音录入:将语音存储
三:功能详解
1:语音录入;通过相应python程序调用麦克风实现一定时间语音录入;当然这个由于后面功能不够所以被舍弃,但前期可以学习;
2:语音听写:下载科大讯飞的SDK实现,下载了要改动的内容请参考博客:
https://zhiqianghe.blog.csdn.net/article
/details/84135125
3:语音合成:这部分也是调用科大讯飞的SDK实现,但注意添加自己的账号密码的时候需要用双引号扩住,在一个就是实现语音文件的播放参考博客:https://blog.csdn.net/pengranxindong/article/details/90606279
4:语音唤醒:语音文件唤醒,需要配合人声检测来实现,具体过程就是,程序开始,麦克风一直监测环境声音,当大于一定分贝后开始录音,直到分贝小于特定值,然后对语音文件进行语音唤醒词鉴定,存在则唤醒,否则进行下一个循环
5:人声检测:需要安装相应的功能包进行人声检测;
四:实现一个完整指令
比如我们要实现语音唤醒加播放一首歌曲这个功能;
运行程序-语音唤醒-成功-采集环境声音存储-翻译成相关命令-如果命令存在(可以被识别)-进行相应功能;
这就是大概的流程;

如有不足之处,请指教,如果这篇文章对你有帮助,请点个赞支持一下;

你可能感兴趣的:(机器学习)