微信小程序用python语言开发_微信小程序语音识别开发过程笔记

由于业务需求,需要使用微信小程序语音识别的功能,查找了好多发难,也踩了好多坑,把过程记录一下,或许会帮助到需要的朋友。

业务需求:

在小程序中识别用户语音输入的命令

业务环境和关键技术:

1.小程序:

关键流程流程:

录音存储-->上传录音文件到服务器后台-->读取服务器返回结果

关键代码:

//按键按下事件

startRec:function(res){

var that=this

wx.startRecord({

success: function (res) {

var tempFilePath = res.tempFilePath//获取录音文件路径

console.log(tempFilePath)

// 上传卢新文件到服务器

wx.uploadFile({

url: 'http://ipaddress:port/voice_detec',

filePath: tempFilePath,

name: 'voice',

// 服务器返回识别结果

success:function(res){

console.log(res.data)

var data = res.data

var jd = JSON.parse(data)

if (jd.err_no==0){

var msg =jd.result[0];

}

else{

var msg = '未识别,请重新尝试';

}

// 显示识别成功

wx.showToast({

title: msg,

})

},

// 上传识别

fail:function(){

console.log('error upload!')

wx.showToast({

title: '与语音识别服务器断开连接',

})

}

});

// 播放录音

wx.playVoice({

filePath: tempFilePath,

complete: function () {

console.log("播放录音")

}

})

},

fail: function (res) {

//录音失败

}

})

setTimeout(function () {

//结束录音

wx.stopRecord();

}, 10000)

},

2.服务器:

安装指南:

依赖组件:gcc、ffmpeg

git clone https://github.com/kn007/silk-v3-decoder.git

cd silk*/silk

make

#若果有waring不用担心,看看目录下有没有生成二级制文件decoder

# 使用上个目录的sh脚本,把1.silk转伟1.wav,这两个文件在同一个目录

cd ..

sh converter.sh 1.slk wav

# 看看有没有生成1.wav

由于百度api的语音识别的语音文件码率只能为8K或者16K,所以要对conveter.sh里面的几个参数进行修改,保证转化的采样率是16K,修改后的文件如下(把70行改成71行的内容),如果不修改,识别效果不是很好:

62 $cur_dir/silk/decoder "$1" "$1.pcm" > /dev/null 2>&1

63 if [ ! -f "$1.pcm" ]; then

64 ffmpeg -y -i "$1" "${1%.*}.$2" > /dev/null 2>&1 &

65 ffmpeg_pid=$!

66 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1

67 [ -f "${1%.*}.$2" ]&&echo -e "${GREEN}[OK]${RESET} Convert $1 to ${1%.*}.$2 success, ${YELLOW}but not a silk v3 encoded file.${RESET}"& &exit

68 echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe not a silk v3 encoded file."&&exit

69 fi

70 #ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" "${1%.*}.$2" > /dev/null 2>&1

71 ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" -f wav -ar 16000 -ac 1 "${1%.*}.$2" > /dev/null 2>&1

72 ffmpeg_pid=$!

73 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1

74 rm "$1.pcm"

75 [ ! -f "${1%.*}.$2" ]&&echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe ffmpeg no format handler for $2."&&exit

76 echo -e "${GREEN}[OK]${RESET} Convert $1 To ${1%.*}.$2 Finish."

77 exit

python+flask+silk2wav+百度云resultApi

此步骤,通过flask搭建http服务器,接受小程序上传过来的silk语音文件,然后通过python调用shell脚本进行转码,再把转码后的wav语音文件调用百度api进行识别。

@app.route('/voice_detec', methods=['POST','GET'])

def voice_detec():

if request.method == 'POST':

# print('POST:',request.form)

# 接受小程序上传的文件

voice_file = request.files['voice']

if voice_file:

# 存储到磁盘

voice_file.save('2.silk')

# 转码,这里需要注意文件放的位置,将在下面给出文件位置

msg=os.system('sudo sh silk-v3-decoder/converter.sh ../2.silk wav')

print(msg)

f=open('2.wav','rb')

# 调用api识别

result=baidu_client.asr(f.read(),'wav',16000,{

'dev_pid':1537,

})

f.close()

print(result)

# 返回识别结果

return json.dumps(result)

return '{'err_no':10010}'

整个服务器项目的目录结构:

webproject

├── 2.silk # 服务器上传的文件包存2.silk

├── 2.wav #转码结果

├── http.py # 代码

├── silk-v3-decoder #github下载的源码+make后的文件

│   ├── converter_beta.sh

│   ├── converter.sh

│   ├── conv.sh

│   ├── LICENSE

│   ├── README.md

│   ├── silk

│   └── windows

3.百度云:

语音识别api配置:这个直接看官方文档吧,很清楚。

4.爬坑指南

不要企图使用电脑客户端的缓存的.silk去转换,和真机环境不是一个类型

使用python2的朋友可能会面临字符串转码的问题,头痛

silk-v3-decoder 编译过程报错或者警告问题

你可能感兴趣的:(微信小程序用python语言开发_微信小程序语音识别开发过程笔记)