由于业务需求,需要使用微信小程序语音识别的功能,查找了好多发难,也踩了好多坑,把过程记录一下,或许会帮助到需要的朋友。
在小程序中识别用户语音输入的命令
录音存储-->上传录音文件到服务器后台-->读取服务器返回结果
关键代码:
//按键按下事件
startRec:function(res){
var that=this
wx.startRecord({
success: function (res) {
var tempFilePath = res.tempFilePath//获取录音文件路径
console.log(tempFilePath)
// 上传卢新文件到服务器
wx.uploadFile({
url: 'http://ipaddress:port/voice_detec',
filePath: tempFilePath,
name: 'voice',
// 服务器返回识别结果
success:function(res){
console.log(res.data)
var data = res.data
var jd = JSON.parse(data)
if (jd.err_no==0){
var msg =jd.result[0];
}
else{
var msg = '未识别,请重新尝试';
}
// 显示识别成功
wx.showToast({
title: msg,
})
},
// 上传识别
fail:function(){
console.log('error upload!')
wx.showToast({
title: '与语音识别服务器断开连接',
})
}
});
// 播放录音
wx.playVoice({
filePath: tempFilePath,
complete: function () {
console.log("播放录音")
}
})
},
fail: function (res) {
//录音失败
}
})
setTimeout(function () {
//结束录音
wx.stopRecord();
}, 10000)
},
安装指南:
依赖组件:gcc、ffmpeg
git clone https://github.com/kn007/silk-v3-decoder.git
cd silk*/silk
make
#若果有waring不用担心,看看目录下有没有生成二级制文件decoder
# 使用上个目录的sh脚本,把1.silk转伟1.wav,这两个文件在同一个目录
cd ..
sh converter.sh 1.slk wav
# 看看有没有生成1.wav
由于百度api的语音识别的语音文件码率只能为8K或者16K,所以要对conveter.sh里面的几个参数进行修改,保证转化的采样率是16K,修改后的文件如下(把70行改成71行的内容),如果不修改,识别效果不是很好:
62 $cur_dir/silk/decoder "$1" "$1.pcm" > /dev/null 2>&1
63 if [ ! -f "$1.pcm" ]; then
64 ffmpeg -y -i "$1" "${1%.*}.$2" > /dev/null 2>&1 &
65 ffmpeg_pid=$!
66 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
67 [ -f "${1%.*}.$2" ]&&echo -e "${GREEN}[OK]${RESET} Convert $1 to ${1%.*}.$2 success, ${YELLOW}but not a silk v3 encoded file.${RESET}"& &exit
68 echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe not a silk v3 encoded file."&&exit
69 fi
70 #ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" "${1%.*}.$2" > /dev/null 2>&1
71 ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" -f wav -ar 16000 -ac 1 "${1%.*}.$2" > /dev/null 2>&1
72 ffmpeg_pid=$!
73 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
74 rm "$1.pcm"
75 [ ! -f "${1%.*}.$2" ]&&echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe ffmpeg no format handler for $2."&&exit
76 echo -e "${GREEN}[OK]${RESET} Convert $1 To ${1%.*}.$2 Finish."
77 exit
此步骤,通过flask搭建http服务器,接受小程序上传过来的silk语音文件,然后通过python调用shell脚本进行转码,再把转码后的wav语音文件调用百度api进行识别。
@app.route('/voice_detec', methods=['POST','GET'])
def voice_detec():
if request.method == 'POST':
# print('POST:',request.form)
# 接受小程序上传的文件
voice_file = request.files['voice']
if voice_file:
# 存储到磁盘
voice_file.save('2.silk')
# 转码,这里需要注意文件放的位置,将在下面给出文件位置
msg=os.system('sudo sh silk-v3-decoder/converter.sh ../2.silk wav')
print(msg)
f=open('2.wav','rb')
# 调用api识别
result=baidu_client.asr(f.read(),'wav',16000,{
'dev_pid':1537,
})
f.close()
print(result)
# 返回识别结果
return json.dumps(result)
return '{'err_no':10010}'
整个服务器项目的目录结构:
webproject
├── 2.silk # 服务器上传的文件包存2.silk
├── 2.wav #转码结果
├── http.py # 代码
├── silk-v3-decoder #github下载的源码+make后的文件
│ ├── converter_beta.sh
│ ├── converter.sh
│ ├── conv.sh
│ ├── LICENSE
│ ├── README.md
│ ├── silk
│ └── windows
语音识别api配置:这个直接看官方文档吧,很清楚。