HIT SPLAB端到端说话人识别演示系统说明

部署环境要求

  • python 3.0+
  • sklearn
  • numpy
  • tensorflow
  • pyprind
  • pyaudio
  • scipy
  • python_speech_features

目录结构说明

  • speaker_recognition_demonstration
    • model
      • model_of_extractor_with_attention
      • params_1.json
    • spk_model
      • speaker_model.model
      • register_data.npy
      • register_label.npy
      • register_speaker_names.npy
    • wav
      • eval
      • recorded_audio
      • register
      • tmp
  • speaker_recognition_function.py
  • spk_recognition.py
  • spk_recognition_with_microphone.py
  • spk_register.py
  • spk_register_with_microphone.py

model:
model/model_of_extractor_with_attention: 已训好的端到端说话人识别模型;
model/params_1.json: 模型参数;

spk_model:
spk_model/speaker_model.model: 已注册说话人模型;
spk_model/register_data.npy: 已注册说话人的embedding;
spk_model/register_label.npy: register_data.npy中embedding对应的数值标签;
spk_model/register_speaker_names.npy: register_label.npy中数值标签与真实标签的映射;

wav:
wav/eval: 存储待测试语音,可以使用整个文件夹内的数据进行识别;
wav/recorded_audio: 说话人使用实时录入语音注册时,语音临时存放文件夹,模型创建成功后文件夹内语音将会转移至wav/register;
wav/register: 注册说话人语音存放路径;
wav/tmp: 使用实时录入的方式测试模型语音临时存放路径;

系统使用流程:

方法一. 使用实时录入的方式进行注册、测试;【推荐】

  1. 使用spk_register_with_microphone录入语音,请根据“提示信息”录入语音;
    ps.语音录入期间连续朗读即可,无需中断,程序会自动截取为5个3秒段作为注册语音;
    该命令需要传入参数'speaker_name',即注册说话人名称。注意: 名字不要带空格,否则python将会中断程序。以'LiuChongming'为例,代码如下:
    python3 spk_register_with_microphone.py --speaker_name wav/speaker_name​ LiuChongming​
    注册成功将会输出如下内容,并在 spk_model 文件夹中保存 speaker_model.model 模型以及相应注册数据:
======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|   Speaker model has been built in spk_model/speaker_model.model    |
|                                                                    |
|                                                                    |
======================================================================
  1. 说话人识别测试:该命令需要传入参数'speaker_name',即当前说话人名,该名称仅做标识,可随意输入,默认为'guest';另外存在备选参数'seconds',即录音时长,以秒为单位,默认为3秒。
    以'guest'为例,代码如下:
    ​python3 spk_recognition_with_microphone.py --speaker_name guest --seconds 3
    执行成功后将会输出如下内容,其中得分越高,越接近某个说话人,程序会显示TOP5的得分:
======================================================================
|                                                                    |
|             *  HIT Speech and Signal Processing Lab  *             |
|                                                                    |
|                End-to-End Speaker Recognition Demo                 |
|                                                                    |
|                                                                    |
|                       Author: LIU Chongming                        |
|                       Mentor: HAN Jiqing                           |
|                       Date  : 2019/06/18                           |
|                                                                    |
|          Recognition result of guest:       LiuChongming           |
|                                                                    |
|           Similarity score:                                        |
|                                                                    |
|                      LiuChongming:           122.84                |
|                        xxxxxxxxxx:           100.46                |
|                          xxxxxxxx:            82.34                |
|                          xxxxxxxx:            76.86                |
|                          xxxxxxxx:            71.94                |
|                                                                    |
======================================================================

方法二. 使用离线数据进行注册、测试;

  1. 数据准备:
    1. 在 wav 路径下创建一个文件夹,将注册音频放入该文件夹中。
      ps. 文件夹命名随意,但音频命名要符合'说话人名-编号.wav'格式,程序将以'-'作为分隔符读取说话人名称作为标签,音频要求为 wav 格式;每个说话人注册语音数量建议最好≥3,录音时长无要求,尽量大于2秒;

    2. 执行注册代码,假设“步骤1”中创建的文件夹为'register',代码如下:
      python3 spk_register.py --audio_folder_path wav/register_audio
      执行成功后,会显示与方法一一致的输出。

    3. 在 wav 路径下创建一个文件夹,将测试音频放入该文件夹中。
      ps. 文件夹命名随意,其中音频命名规则无要求,只要用户能知道哪个音频属于哪个说话人即可。

    4. 假设“步骤3”中创建的文件夹为'eval',代码如下:
      python3 spk_recognition.py --audio_folder_path wav/eval_audio

使用问题:

  1. 如果想重新注册说话人,只需要将 spk_model 路径下的 'speaker_model.model' 模型删除即可;
  2. 建议使用 register 与 eval 分别作为注册语音文件夹以及测试语音文件夹;

你可能感兴趣的:(HIT SPLAB端到端说话人识别演示系统说明)