NeMo 中文ASR话者分离(说话人日志)实战

        话者分离或者叫说话人日志,主要是解决说话人什么时候说了什么的问题。典型的应用场景:多人会议、坐席销售/客服场景。

        NeMo 中文ASR话者分离(说话人日志)实战_第1张图片

 典型的实现过程是基于管道。

NeMo 中文ASR话者分离(说话人日志)实战_第2张图片

首先基于VAD(声音活动检测)的MarbleNet,分割声音片段,然后基于TitaNet-L提取话者特征,然后通过聚类区分话者,最后通过神经网络分离话者标签。

1、Nemo 环境安装

参考NeMo中文/英文ASR模型微调训练实践_wxl781227的博客-CSDN博客

2、引用依赖

import nemo.collections.asr as nemo_asr
import numpy as np
from IPython.display import Audio, display
import librosa
import os
import wget
import matplotlib.pyplot as plt

import nemo
import glob

import pprint
pp = pprint.PrettyPrinter

你可能感兴趣的:(ASR实战,中文ASR,话者分离,说话人日志,VAD,声音活动检测,自动语音识别)