31 OPENVINO advanced course5 语音识别

语音识别

  • 声音检测实验
    • 初始化环境
    • 开始实验
    • 播放需要检测的声音文件
    • 运行Demo
    • 挑战任务:提高程序的识别准确度
    • 思考任务
  • 声音识别实验
    • 将原生模型转换为IR格式
    • 运行声音识别Demo
    • 思考任务

声音检测实验

初始化环境

#定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab1/

export MODELS_PATH=~/OV-300/06/Lab1/

#初始化OpenVINO

source $OV/bin/setupvars.sh

开始实验

#进入实验目录

cd $WD

#下载并使用MO转换声音识别模型

bash download_audio_models.sh

#通过vi查看模型拓扑结构

vi $MODELS_PATH/audio_models/aclnet/FP32/aclnet.xml

注:可以看到该xml的版本以及 数据精度为:FP32,input shape=“1, 1, 1, 16000”。使用“:q”指令退出该界面。

播放需要检测的声音文件

#使用show命令,播放mp3

show how_are_you_doing.mp3

注:由于功能限制,必须手动逐字输入该命令。并且由于限制,平台只能够播放MP3格式文件,实验运行的声音材料为WAV格式,本平台事先已经将WAV转换成MP3格式可供使用。

运行Demo

#运行指令:

bash audio_event_detection.sh

注:屏幕上将会打印DL-Streamer的pipeline指令和该指令的全部输出结果

#运行筛选结果的指令,来查看探测到的声音种类:

bash audio_event_detection.sh | grep “label”:" | sed ‘s/label_id.*//’ |sed ‘s/.*label"/==>/’

挑战任务:提高程序的识别准确度

#你可以从音频文件听到没有昆虫的声音,但是程序检测到了昆虫的声音。请你思考一下,如何改善这个问题?

注:检测每个种类的声音是否村子都会存在一个临界值,也就是检测阈值

#修改aclnet.json 脚本来实现你的猜想:

vi $WD/model_proc/aclnet.json

解决方案:尝试 “Insects (flying)” 在 0.5 至0.9 之间更改,更改后保存完再次运行audio_event_detection.sh进行测试,直至检测不到昆虫噪音。

思考任务

你可以上传你的WAV文件进行测试,不过若是想使用平台进行播放mp3,记得使用:

ffmpeg -i xxx.wav output.mp3

转换成MP3进行播放哦,并且需要修改audio_event_detection.sh里面的输入wav名称。

注:上传与下载文件的教程在页面上角帮助手册中可以得到。该实验可按确认键跳过。

声音识别实验

初始化环境
#定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab2/

#添加OpenVINO Python API路径

export PYTHONPATH="$PYTHONPATH:/home/dc2-user/omz_demos_build/intel64/Release/lib/"

#初始化OpenVINO

source $OV/bin/setupvars.sh

#进入工作目录

cd $WD

将原生模型转换为IR格式

#使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换 :

python3 $OV/deployment_tools/tools/model_downloader/converter.py --name mozilla-deepspeech-0.6.1 -o $WD

运行声音识别Demo

#播放待识别的声音文件:

show how_are_you_doing.mp3

#运行声音识别示例:

python3 $OV/deployment_tools/inference_engine/demos/speech_recognition_deepspeech_demo/python/speech_recognition_deepspeech_demo.py -m ./public/mozilla-deepspeech-0.6.1/FP32/mozilla-deepspeech-0.6.1.xml -i how_are_you_doing.wav -p mds06x_en

思考任务

#使用你自带的wav文件进行声音识别示例,看看能否正确识别到文件中的声音。

#可以尝试使用中文或者英文作为声音输入,并且实验探究一下它们识别的准确性。

你可能感兴趣的:(OPEN,VINO,神经网络,机器视觉,机器学习,数据分析,深度学习)