微信小程序语音识别开发过程笔记

由于业务需求,需要使用微信小程序语音识别的功能,查找了好多发难,也踩了好多坑,把过程记录一下,或许会帮助到需要的朋友。

业务需求:

在小程序中识别用户语音输入的命令

业务环境和关键技术:

1.小程序:

关键流程流程:

录音存储-->上传录音文件到服务器后台-->读取服务器返回结果

关键代码:

//按键按下事件
  startRec:function(res){
    var that=this
    wx.startRecord({
      success: function (res) {
        var tempFilePath = res.tempFilePath//获取录音文件路径
        console.log(tempFilePath)
        // 上传卢新文件到服务器
        wx.uploadFile({
          url: 'http://ipaddress:port/voice_detec',
          filePath: tempFilePath,
          name: 'voice',
          // 服务器返回识别结果
          success:function(res){
            console.log(res.data)
            var data = res.data
            var jd = JSON.parse(data)
            if (jd.err_no==0){
              var msg =jd.result[0];
            }
            else{
              var msg = '未识别,请重新尝试';
            }
            // 显示识别成功
            wx.showToast({
              title: msg,
            })

          },
          // 上传识别
          fail:function(){
            console.log('error upload!')
            wx.showToast({
              title: '与语音识别服务器断开连接',
            })
          }
        });
        // 播放录音
        wx.playVoice({
          filePath: tempFilePath,
          complete: function () {
          console.log("播放录音")
          }
        })
      },
      fail: function (res) {
        //录音失败
      }
    })
    setTimeout(function () {
      //结束录音  
      wx.stopRecord();
    }, 10000)
  },

2.服务器:

  • 在服务器(linux)配置silk-v3-decoder

安装指南:

依赖组件:gcc、ffmpeg

git clone https://github.com/kn007/silk-v3-decoder.git
cd silk*/silk
make
#若果有waring不用担心,看看目录下有没有生成二级制文件decoder
# 使用上个目录的sh脚本,把1.silk转伟1.wav,这两个文件在同一个目录
cd ..

sh converter.sh 1.slk wav
# 看看有没有生成1.wav

由于百度api的语音识别的语音文件码率只能为8K或者16K,所以要对conveter.sh里面的几个参数进行修改,保证转化的采样率是16K,修改后的文件如下(把70行改成71行的内容),如果不修改,识别效果不是很好:

 62 $cur_dir/silk/decoder "$1" "$1.pcm" > /dev/null 2>&1
 63 if [ ! -f "$1.pcm" ]; then
 64         ffmpeg -y -i "$1" "${1%.*}.$2" > /dev/null 2>&1 &
 65         ffmpeg_pid=$!
 66         while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 67         [ -f "${1%.*}.$2" ]&&echo -e "${GREEN}[OK]${RESET} Convert $1 to ${1%.*}.$2 success, ${YELLOW}but not a silk v3 encoded file.${RESET}"&    &exit
 68         echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe not a silk v3 encoded file."&&exit
 69 fi
 70 #ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" "${1%.*}.$2" > /dev/null 2>&1
 71 ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" -f wav -ar 16000 -ac 1 "${1%.*}.$2" > /dev/null 2>&1
 72 ffmpeg_pid=$!
 73 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 74 rm "$1.pcm"
 75 [ ! -f "${1%.*}.$2" ]&&echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe ffmpeg no format handler for $2."&&exit
 76 echo -e "${GREEN}[OK]${RESET} Convert $1 To ${1%.*}.$2 Finish."
 77 exit
  • python+flask+silk2wav+百度云resultApi

此步骤,通过flask搭建http服务器,接受小程序上传过来的silk语音文件,然后通过python调用shell脚本进行转码,再把转码后的wav语音文件调用百度api进行识别。

@app.route('/voice_detec', methods=['POST','GET'])  
def voice_detec():  
    if request.method == 'POST':  
        # print('POST:',request.form)
        # 接受小程序上传的文件
        voice_file = request.files['voice']
        if voice_file:
            # 存储到磁盘
            voice_file.save('2.silk')
            # 转码,这里需要注意文件放的位置,将在下面给出文件位置
            msg=os.system('sudo sh silk-v3-decoder/converter.sh ../2.silk wav')
            print(msg)
            f=open('2.wav','rb')
            # 调用api识别
            result=baidu_client.asr(f.read(),'wav',16000,{
                'dev_pid':1537,
            })
            f.close()
            print(result)
            # 返回识别结果
            return json.dumps(result)
        return '{'err_no':10010}'

 

整个服务器项目的目录结构:

webproject
    ├── 2.silk # 服务器上传的文件包存2.silk
    ├── 2.wav  #转码结果
    ├── http.py # 代码
    ├── silk-v3-decoder #github下载的源码+make后的文件
    │   ├── converter_beta.sh
    │   ├── converter.sh
    │   ├── conv.sh
    │   ├── LICENSE
    │   ├── README.md
    │   ├── silk
    │   └── windows

 

3.百度云:

语音识别api配置:这个直接看官方文档吧,很清楚。

微信小程序语音识别开发过程笔记_第1张图片

4.爬坑指南

  1. 不要企图使用电脑客户端的缓存的.silk去转换,和真机环境不是一个类型
  2.  使用python2的朋友可能会面临字符串转码的问题,头痛
  3. silk-v3-decoder 编译过程报错或者警告问题

 

 

 

你可能感兴趣的:(服务器,python学习笔记,Linux)