声纹识别demo环境的搭建

获取代码

git clone https://github.com/crouchred/speaker-recognition-py3
git clone https://github.com/jameslyons/python_speech_features

代码目录结构:

声纹识别demo环境的搭建_第1张图片

安装speaker-recognition-py3依赖

sudo pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

声纹识别demo环境的搭建_第2张图片

安装python_speech_features

进入目录python_speech_features/,执行命令

python setup.py develop

声纹识别demo环境的搭建_第3张图片

之后就可以愉快的进行训练与测试了

训练:

进入speaker-recognition-py3目录,创建两个音频文件夹zilong and mary,分贝拷贝一些WAV文件进去。

声纹识别demo环境的搭建_第4张图片

执行以下命令训练:

./speaker-recognition.py -t enroll -i "./zilong ./mary" -m model.out

声纹识别demo环境的搭建_第5张图片

推理

对zilong目录中的音频文件进行推理

./speaker-recognition.py -t predict -i "./mary/*.wav" -m model.out
./speaker-recognition.py -t predict -i "./zilong/*.wav" -m model.out

声纹识别demo环境的搭建_第6张图片

对mary 目录中的文件进行推理

交叉验证

将cembalo-10.wav和apert2.wav分别移进对方目录,再次执行命令

声纹识别demo环境的搭建_第7张图片

可以看到,即便将文件混淆,程序仍然能够高概率正确识别声音的主人。


结束

你可能感兴趣的:(人工智能,算法,数学,语音识别,人工智能)