ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

文章目录

  • abstract
  • method
    • prosody encoder
    • Latent Prosody Vector Predictor
    • Pre-training and Fine-tuning
  • experiment
    • dataset
    • 测试

  • renyi , leiming
  • ICASSP2022

abstract

  • 韵律建模困难,在于:(1)基频提取不可避免的有误差;(2)不同的成分(picth, energy, duration)彼此依赖;(3)基频变动很大,但是用于训练的高质量数据很少。
  • (1) 加入word-level 文本信息;(2)韵律信息不来自于直接提取,训练阶段从mel经由prosody encoder提取解耦的韵律特征(word-level),预测阶段来自LPV Predictor从word-level文本信息中自回归预测。

method

  • mel reconstruct loss使用SSIM+L2 loss

prosody encoder

  • prosody encoder:核心逻辑是通过auto-encoder编码。输入mel-first20bins,包含全量韵律信息,较少的音色和文本信息。输出端拼接显式的文本信息和说话人信息,倒逼LPV的编码结果仅和韵律有关。首先一层卷积,处理成word-level的特征(按照先验的边界时长),然后经过一层卷积,送入EMA-Based vector quantization(exponential moving averages,指数移动平均线)。
  • 训练技巧:(1)前20k step,移除vector quantization,让auto-encoder自由的进行编码学习;(2)20k之后,用k-means聚类的结果初始化vector quantization的codebook;(3)将vector quantization层加回来,继续训练。如果不这样做的话,开始若干步,hidden emb是毫无意义的噪声,做vector quantization的话会index collapse(字典学崩了)。

Latent Prosody Vector Predictor

  • 自回归的结构,word-level的编码,输入word文本和 L P V i − 1 LPV_{i-1} LPVi1,预测 L P V i LPV_{i} LPVi

Pre-training and Fine-tuning

  • 整个训练过程包括TTS training(Fastspeech + prsody encoder)
  • LPV predictor的训练:unpaired text训练content encoder(BERT-masked),noisy-speech经过prosody encoder生成的noisy LPV训练LPV predictor,最后用高质量的TTS数据finetune LPV predictor。

experiment

dataset

  • 30h高质量的数据,51M网上爬取的中文文本,300h的低质量speech数据。
  • HiFiGan vocoder

测试

  • pitch dynamic time warping
  • duration KL-divergence

ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech_第1张图片

  • ProsoSpeech的各项数据都变好,相比于fastpseech2(joint)好,说明本方法对于低质量数据预训练是必要的;fastpseech2(joint)相比于fastspeech变差,说明如果直接加入脏数据训练,效果会被拉垮。
    ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech_第2张图片

你可能感兴趣的:(paper笔记,深度学习,人工智能)