NeMo 声纹识别VPR-实战

声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息,从应用上看,可分为:

  • 说话人辨认(Speaker Identification):用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;
  • 说话人确认(Speaker Verification):用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。

本文主要是识别两个声音是否为同一个人。

应用场景:APP声纹验证登录、坐席辅助助手登录后坐席是否为原坐席、客户进行业务申请时验证是否为客户本人。

使用Titanet-L模型,不需要训练,即可以直接针对中文/英文声音进行识别验证。

NeMo 声纹识别VPR-实战_第1张图片

1、环境安装

pip install -U nemo_toolkit[all] ASR-metrics fastapi python-multipart uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple

2、接口代码:

from fastapi import FastAPI, Request, File, UploadFile, Form
from fastapi.responses import HTMLResponse
from transformers import AutoTokenizer, AutoModel
import uvicorn, json, datetime
import torch
from fastapi.middleware.co

你可能感兴趣的:(ASR实战,人工智能,声纹识别,声纹验证)