Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance

  • 2023 icassp
  • Yuanzhe Chen,wangyuxuan
  • bytedance SAMI
  • demo page

文章目录

  • abstract
  • method
  • experiment
    • 客观评估

abstract

  • motivation:流式VC,使用ASR bn特征,提升字准,保留src speech中的韵律信息。因为非流式的ASR-AM性能折损,ppgs/bn中会有timbre leakage,使用non-stream ASR作为teacher引导训练。
  • IBF相比于PPGS明显有助于韵律强调保留,teacher guidance的训练策略,teacher model造一些平行数据,帮助student模型进行source speaker信息的过滤。

method

在这里插入图片描述
Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance_第1张图片

Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance_第2张图片

  • 团队PR的文章细节

experiment

  • stream-ASR/ non-stream ASR 都是基于conformer结构(streaming or non-streaming),18-layers, treaming-ASR的可视化chunk=160ms,基于内部数据集1000h数据训练;
  • teacher/student AM:基于aishell-3 218speakers训练,然后用目标人(male/female)3h的数据finetune
  • vocoder:TFGAN,和AM的数据以及训练方式一样,inference阶段也限制感知野
  • 整个系统延时270ms,基于Intel i5-6267 CPU

客观评估

Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance_第3张图片

  • VC的CER,非流式ASR+VC < 流式ASR+VC+TG <流式ASR+VC,说明非流式的ASR识别IBF字准确率高,TG的训练策略可以提升字准(减少source speaker信息,降低变声干扰);
  • PPC(基频一致性):随着ASR层的加深, IBF中保留的韵律强调信息明显减少,但是TG随着层的加深,受影响不大;
  • SED(speaker-emb distance):随着ASR层的加深,说话人信息被逐渐过滤掉,但是TG训练策略可以在一开始过滤掉说话人信息。
  • 选择了12th IBFs作为streaming-VC输入
    Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance_第4张图片

你可能感兴趣的:(paper笔记,人工智能,深度学习)