#定义工作目录
export OV=/opt/intel/openvino_2021/
export WD=~/OV-300/06/Lab1/
export MODELS_PATH=~/OV-300/06/Lab1/
#初始化OpenVINO
source $OV/bin/setupvars.sh
#进入实验目录
cd $WD
#下载并使用MO转换声音识别模型
bash download_audio_models.sh
#通过vi查看模型拓扑结构
vi $MODELS_PATH/audio_models/aclnet/FP32/aclnet.xml
注:可以看到该xml的版本以及 数据精度为:FP32,input shape=“1, 1, 1, 16000”。使用“:q”指令退出该界面。
#使用show命令,播放mp3
show how_are_you_doing.mp3
注:由于功能限制,必须手动逐字输入该命令。并且由于限制,平台只能够播放MP3格式文件,实验运行的声音材料为WAV格式,本平台事先已经将WAV转换成MP3格式可供使用。
#运行指令:
bash audio_event_detection.sh
注:屏幕上将会打印DL-Streamer的pipeline指令和该指令的全部输出结果
#运行筛选结果的指令,来查看探测到的声音种类:
bash audio_event_detection.sh | grep “label”:" | sed ‘s/label_id.*//’ |sed ‘s/.*label"/==>/’
#你可以从音频文件听到没有昆虫的声音,但是程序检测到了昆虫的声音。请你思考一下,如何改善这个问题?
注:检测每个种类的声音是否村子都会存在一个临界值,也就是检测阈值
#修改aclnet.json 脚本来实现你的猜想:
vi $WD/model_proc/aclnet.json
解决方案:尝试 “Insects (flying)” 在 0.5 至0.9 之间更改,更改后保存完再次运行audio_event_detection.sh进行测试,直至检测不到昆虫噪音。
你可以上传你的WAV文件进行测试,不过若是想使用平台进行播放mp3,记得使用:
ffmpeg -i xxx.wav output.mp3
转换成MP3进行播放哦,并且需要修改audio_event_detection.sh里面的输入wav名称。
注:上传与下载文件的教程在页面上角帮助手册中可以得到。该实验可按确认键跳过。
初始化环境
#定义工作目录
export OV=/opt/intel/openvino_2021/
export WD=~/OV-300/06/Lab2/
#添加OpenVINO Python API路径
export PYTHONPATH="$PYTHONPATH:/home/dc2-user/omz_demos_build/intel64/Release/lib/"
#初始化OpenVINO
source $OV/bin/setupvars.sh
#进入工作目录
cd $WD
#使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换 :
python3 $OV/deployment_tools/tools/model_downloader/converter.py --name mozilla-deepspeech-0.6.1 -o $WD
#播放待识别的声音文件:
show how_are_you_doing.mp3
#运行声音识别示例:
python3 $OV/deployment_tools/inference_engine/demos/speech_recognition_deepspeech_demo/python/speech_recognition_deepspeech_demo.py -m ./public/mozilla-deepspeech-0.6.1/FP32/mozilla-deepspeech-0.6.1.xml -i how_are_you_doing.wav -p mds06x_en
#使用你自带的wav文件进行声音识别示例,看看能否正确识别到文件中的声音。
#可以尝试使用中文或者英文作为声音输入,并且实验探究一下它们识别的准确性。