启明云端WT516P6Core离线语音模块发布后,开发者朋友提出的问题最多的是:是否可以自己编译指令

关于这个问题,开发者朋友后期可以在esp32.8ms.xyz.平台上进行二次开发,方便定制,目前正在完善测试中,很快发布。
目前市面上的离线语音大多无法做到自定义控制指令,用户如果需要按照业务场景自行编辑,就无法实现;
WT516P6Core离线语音模块暂时是出厂前都会烧上固件程序,配上麦和喇叭就可以了。方便开发爱好者做测试应用。

离线语音模块麦和喇叭的选择
A: 灵敏度 -32dbm 信噪比65db
驱动Speaker 1.8W x 1 @ 8Ω; 2.9W x 1 @ 4Ω

模块默认波特率:115200

语音控制方式因为简单、自然、高度符合人类的交互习惯,已经越来越受到用户的青睐。之前为大家介绍了启明云端通过ESP32不需要连接中间环节直连天猫精灵和亚马逊AWS的方案,今天重点推介本周新品–WT516P6Core 离线语音模块。

推荐理由:

低功耗、低成本、高集成嵌入式音频模块,串口传输,方便与主MCU通讯
支持100条语音命令,支持唤醒词、命令词、回复播报语自定义
可自由设置发音人音色配置
支持双语控制,普通话、英语随你选
内嵌智能降噪算法,语音识别距离可支持5M远讲
语音识别响应时间200~600ms

最重点的是:AI语音算法是基于深度学习,已经做过多标签多场景训练学习,用户在应用中,不需要重新对定义的指令进行训练学习。

语音算法:语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并作出相应的反应。语音算法是根据语音来检索和识别词语的算法,语音算法一般建立在声学模型上,通过语音算法学习的知识,对语音进行识别并进行检索。

声学模型是语音识别系统中最底层的模型并且也是识别系统最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量系列与每个发音模板的距离,因为发音在每个时刻都受到其前后发音的影响,为了模仿自然连续语音中的协同发音的作用和鉴别这些协同发音,通常要使用复杂的声学模型,声学模型单元的大小(字发音模型、半发音模型或音素模型)对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。对大词汇量语音识别系统来讲,通常识别单元小,则计算量也小,所需的模型存储量也小,但带来的问题是对应语音段的定位和分割较困难,识别模型规则也变得更复杂。通常大的识别单元在模型中应包括协同发音(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异),这有利于提高系统的识别率,但要求的训练数据相对增加。

检测到语音的起点后就可以开始对检测出来的语音信号段进行分析处理。从中抽取语音识别所需的信号特征,即对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,以获得影响语音识别的重要信息。语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。

你可能感兴趣的:(语音识别,物联网)