HIT SPLAB端到端说话人识别演示系统说明

部署环境要求

python 3.0+
sklearn
numpy
tensorflow
pyprind
pyaudio
scipy
python_speech_features

目录结构说明

speaker_recognition_demonstration
- model
  - model_of_extractor_with_attention
  - params_1.json
- spk_model
  - speaker_model.model
  - register_data.npy
  - register_label.npy
  - register_speaker_names.npy
- wav
  - eval
  - recorded_audio
  - register
  - tmp
speaker_recognition_function.py
spk_recognition.py
spk_recognition_with_microphone.py
spk_register.py
spk_register_with_microphone.py

model:
model/model_of_extractor_with_attention: 已训好的端到端说话人识别模型；
model/params_1.json: 模型参数；

spk_model:
spk_model/speaker_model.model: 已注册说话人模型；
spk_model/register_data.npy: 已注册说话人的embedding；
spk_model/register_label.npy: register_data.npy中embedding对应的数值标签；
spk_model/register_speaker_names.npy: register_label.npy中数值标签与真实标签的映射；

wav:
wav/eval: 存储待测试语音，可以使用整个文件夹内的数据进行识别；
wav/recorded_audio: 说话人使用实时录入语音注册时，语音临时存放文件夹，模型创建成功后文件夹内语音将会转移至wav/register；
wav/register: 注册说话人语音存放路径；
wav/tmp: 使用实时录入的方式测试模型语音临时存放路径；

系统使用流程：

方法一. 使用实时录入的方式进行注册、测试；【推荐】

使用spk_register_with_microphone录入语音，请根据“提示信息”录入语音；
ps.语音录入期间连续朗读即可，无需中断，程序会自动截取为5个3秒段作为注册语音；
该命令需要传入参数'speaker_name'，即注册说话人名称。注意: 名字不要带空格，否则python将会中断程序。以'LiuChongming'为例，代码如下:
python3 spk_register_with_microphone.py --speaker_name wav/speaker_name LiuChongming
注册成功将会输出如下内容，并在 spk_model 文件夹中保存 speaker_model.model 模型以及相应注册数据:

======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|   Speaker model has been built in spk_model/speaker_model.model    |
|                                                                    |
|                                                                    |
======================================================================

说话人识别测试：该命令需要传入参数'speaker_name'，即当前说话人名，该名称仅做标识，可随意输入，默认为'guest'；另外存在备选参数'seconds'，即录音时长，以秒为单位，默认为3秒。
以'guest'为例，代码如下:
python3 spk_recognition_with_microphone.py --speaker_name guest --seconds 3
执行成功后将会输出如下内容，其中得分越高，越接近某个说话人，程序会显示TOP5的得分:

======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|          Recognition result of guest:       LiuChongming           |
|                                                                    |
|           Similarity score:                                        |
|                                                                    |
|                      LiuChongming:           122.84                |
|                        xxxxxxxxxx:           100.46                |
|                          xxxxxxxx:            82.34                |
|                          xxxxxxxx:            76.86                |
|                          xxxxxxxx:            71.94                |
|                                                                    |
======================================================================

方法二. 使用离线数据进行注册、测试；

数据准备：
1. 在 wav 路径下创建一个文件夹，将注册音频放入该文件夹中。
  ps. 文件夹命名随意，但音频命名要符合'说话人名-编号.wav'格式，程序将以'-'作为分隔符读取说话人名称作为标签，音频要求为 wav 格式；每个说话人注册语音数量建议最好≥3，录音时长无要求，尽量大于2秒；
2. 执行注册代码，假设“步骤1”中创建的文件夹为'register'，代码如下：
  python3 spk_register.py --audio_folder_path wav/register_audio
  执行成功后，会显示与方法一一致的输出。
3. 在 wav 路径下创建一个文件夹，将测试音频放入该文件夹中。
  ps. 文件夹命名随意，其中音频命名规则无要求，只要用户能知道哪个音频属于哪个说话人即可。
4. 假设“步骤3”中创建的文件夹为'eval'，代码如下：
  python3 spk_recognition.py --audio_folder_path wav/eval_audio

使用问题：

如果想重新注册说话人，只需要将 spk_model 路径下的 'speaker_model.model' 模型删除即可；
建议使用 register 与 eval 分别作为注册语音文件夹以及测试语音文件夹；