智能语音机器人 问题集锦

  • 音频解析

1、amr音频格式最低的码率是4.75k  ,最高是12.2k ,其实一般的采用9.75k的码率就可以了,既可以解决声音播放质量问题,也可以解决网络下载速度问题;

2、mp3格式是可以支持边下边播放的,分段切割播放,不需要对音频内容做提取;

3、amr也可以支持边下边播放,只是需要对音频进行编码参数的提取和插入就行;

4、VAD 检测目前最好用的还是webrtc工程里的源码;

6、wav转amr还是使用ffmpeg会好质量提高很多,使用opencoreamr编码库,或者3gp编码库,都会对音频之类产生影响,导致音频有滋滋声。

 

  • 内容解析

1、目前内容方,科大讯飞的应该是最好的,其次就是海智智能;

2、人工大脑,例如图灵类等,只是提供交流,对内容的获取还是比较少;

3、可以采用爬虫,从baidu或者sougou的搜索结果里搜寻,sougou的内容比baidu少很多,但是速度快了1被,baidu的内容还是缺少很多;bing不支持快照,不能使用,google代理服务器,时候国外使用;

 

  • 语音识别引擎

1、目前用过的是百度,阿里,讯飞,总体来说百度的最便宜,免费,其他家的都需要收费;

2、总效果来说,阿里支持连续语音,可以使用智能电话呼叫机器人;讯飞就是识别速度快;

 

  • linux服务器语音TTS引擎

1、目前使用的是百度,因为免费,但是在线的;

2、使用过余音的tts,但是发言不标准,放弃;

3、讯飞的速度还是很快的,但是离线版本要收费,放弃;阿里的也是收费,放弃。

4、英文的tts就很多了,中文开源还是没有。

你可能感兴趣的:(智能穿戴)