人脸识别 + 语音识别实现智能电话会议 | python demo

把最近的调研demo整理出来,实现智能电话会议,我提供两个核心的web服务,一个是人脸识别实现身份确认,一个是语音识别实现会议内容实时转写。


预备知识

python 写一个静态服务(实战)

python3.6 编程技巧总结

opencv实现猫脸识别


一、实现流程

人脸识别 + 语音识别实现智能电话会议 | python demo_第1张图片


二、身份确认-人脸识别

技术框架

人脸识别 + 语音识别实现智能电话会议 | python demo_第2张图片

  • 这是一个轻量级的人脸识别服务
  • 上传一张照片,它会返回照片的身份信息

实现过程

本地存储了用户的身份信息:

name = ['obama', 'huge', 'taorui']

对应照片:
人脸识别 + 语音识别实现智能电话会议 | python demo_第3张图片
obama
人脸识别 + 语音识别实现智能电话会议 | python demo_第4张图片
huge
人脸识别 + 语音识别实现智能电话会议 | python demo_第5张图片
taorui


我们通过照相机获得参会者的照片:
人脸识别 + 语音识别实现智能电话会议 | python demo_第6张图片
上传服务器:curl -F "[email protected]" http://127.0.0.1:5001
服务器返回参会者的身份信息:
这里写图片描述
上传参会者照片到服务器:
人脸识别 + 语音识别实现智能电话会议 | python demo_第7张图片
返回参会者身份信息:
这里写图片描述


使用方法

在终端访问服务
$ curl -F “[email protected]” http://127.0.0.1:5001
结果会以Json的形式展现,例如:
Returns:
{
“face_ID”: 0,
“f:ace_name”: “taorui”
}
NOTE: 这个服务需要python3.6的环境
先安装flask! 安装命令如下:
$ pip3 install flask


三、 语音转写-语音识别

技术框架

人脸识别 + 语音识别实现智能电话会议 | python demo_第8张图片

  • 将整段语音转换成文字
  • 输入pcm音频
  • 输出识别后的文字

实现过程

将音频文件上传到服务器进行读取:
音频内容为:北京科技馆

#识别本地文件
pp = client.asr(get_file_content('audio\\16k.pcm'), 'pcm', 16000, {
    'lan': 'zh',
})

返回结果:
这里写图片描述

使用方法

要求python3.6环境
安装如下第三方库

pip install baidu-aip
python setup.py install

你可能感兴趣的:(建模demo)