PaddleSpeech 全链路声纹识别系统 PP-VPR

(以下内容搬运自 PaddleSpeech)

PP-VPR

目录

  • 1. 简介
  • 2. 特点
  • 3. 使用教程
    • 3.1 预训练模型
    • 3.2 模型训练
    • 3.3 模型推理
    • 3.4 服务部署
  • 4. 快速开始

1. 简介

PP-VPR 是一个 提供声纹特征提取,检索功能的工具。提供了多种准工业化的方案,轻松搞定复杂场景中的难题,支持使用命令行的方式进行模型的推理。 PP-VPR 也支持界面化的操作,容器化的部署。

2. 特点

VPR 的基本流程如下图所示:

PP-VPR 的主要特点如下:

  • 提供在英文开源数据集 VoxCeleb(英文)上的预训练模型,ecapa-tdnn。
  • 支持模型训练评估功能。
  • 支持命令行方式的模型推理,可使用 paddlespeech vector --task spk --input xxx.wav 方式调用预训练模型进行推理。
  • 支持 VPR 的服务容器化部署,界面化操作。

3. 使用教程

3.1 预训练模型

支持的预训练模型列表:released_model。
更多关于模型设计的部分,可以参考 AIStudio 教程:

  • ecapa-tdnn

3.2 模型训练

模型的训练的参考脚本存放在 examples 中,并按照 examples/数据集/模型 存放,数据集主要支持 VoxCeleb,模型支持 ecapa-tdnn 模型。
具体的执行脚本的步骤记录在 run.sh 当中。具体可参考: sv0

3.3 模型推理

PP-VPR 支持在使用pip install paddlespeech后 使用命令行的方式来使用预训练模型进行推理。

具体支持的功能包括:

  • 对单条音频进行预测
  • 对两条音频进行打分
  • 支持 RTF 的计算

具体的使用方式可以参考: speaker_verification

3.4 服务部署

PP-VPR 支持 Docker 容器化服务部署。通过 Milvus, MySQL 进行高性能建库检索。

server 的 demo: audio_searching

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SPIi60ai-1666697523122)(https://ai-studio-static-online.cdn.bcebos.com/7b32dd0200084866863095677e8b40d3b725b867d2e6439e9cf21514e235dfd5)]

关于服务部署方面的更多资料,可以参考 AIStudio 教程:

  • speaker_recognition

4. 快速开始

关于如何使用 PP-VPR,可以看这里的 install,其中提供了 简单中等困难 三种安装方式。如果想体验 paddlespeech 的推理功能,可以用 简单 安装方式。


P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

你可能感兴趣的:(语音识别,MachineLearning,深度学习,人工智能,语音识别)