diffusion-TTS : ProDiff & FastDiff

文章目录

  • Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
  • DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs
  • FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis
    • abstract
    • intro
    • method
  • ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech
    • intro

模型 RTF 生成结果

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

  • 2021 ICML
  • 华为诺亚,莫斯科
  • code

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

  • Songxiang Liu, Dan Su, Dong Yu
  • 港中文/tencent AI
  • code
  • infer interactive page

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

  • Rongjie Huang work done in tencent AI Lab
  • demo page
  • IJCAI 2022 (2021年4月的工作)

abstract

DDPMs的模型因为迭代采样的方法,因而生成速度受限。
本为提出一种快速高质量端到端TTS生成的方法:(1)使用一系列不同感知野的time-aware location-variable conv,通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor,在不牺牲质量的情况下减少采样步数。
结果:在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

intro

DDPMs方法存在的两大挑战:(1)给定optimal gradient,通过de-noise的方式生成目标,但是有可能在较多时间步以后过度降噪——对于语音上的一些气流音、声带闭合等说话特性被抹去;(2)需要数百上千的step进行生成质量优化,如果step过少,背景噪声去不干净。
DDPM的优点:可以建模多种数据分布,比如图像和时间域。

method

  • motivation
    • 问题:(1)和其他的生成模型不同,diffusion model 从带噪数据中建模,噪声的等级不同会引入更多信息变量;(2)减少迭代的时间步会明显的降低生成的质量。
    • 方案:(1) 使用time-aware location-variable conv,捕捉带噪样本的动态相关性;conv会考虑diffusion step,以及谱上的扰动,实现在反向加速过程中提高扩散模型的稳定性;(2)使用一个noise schedule predictor减少反向的时间步,

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech

  • Rongjie Huang
  • demo page
  • ACM MM 2022 (2022年9月的工作)

intro

存在的问题:(1)之前用DDPMs(Denoising diffusion probabilistic models)做TTS生成任务需要数百步才能生成高质量音频,速度很慢。难以工业应用。(2)如果减少steps,模型收敛变差,生成质量下降。
解决方法:本文提出ProDiff,progressive(逐步)diffusion model,用于高质量音频生成。之前的方式估计the gradient for data density,本文直接预测clean data,以避免在加速采样过程中造成质量损失。另外引入知识蒸馏,降低在目标域数据分布的变化。首先通过一个N-step DDIM teacher模型预测mel-spec,然后用N/2 step训练student model。如此,可以在保证生成质量的基础上,大幅减少预测速度。
取得结果:只需要2 iterations,就可以合成SOTA质量的音频。在2080 GPU上达到24x 实时。

你可能感兴趣的:(人工智能)