Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

文章目录

    • abstract
    • introduction

单位:华为诺亚俄罗斯莫斯科实验室
作者:Vadim Popo Ivan Vovk
会议:2021 ICML

备注:没看完,感觉距离实用比较远就没有仔细研究了

abstract

denoising diffusion probabilistic (DPM)model:一种从噪音中剥离出图像/音频的模型

introduction

现有的tacotron类似的结构生成语音质量很好,但是推理速度慢,且有发音错误;
Glow-TTS使用transformer-Encoder,以及Glow-Deocder,加速的同时减少了发音错误,使用Monotonic Alignment Search algorithm,减少对齐错误;

尝试用简单的分布(通常是正态分布)建模表征逐渐被打乱的前向分布,然后用神经网络建模这个反向的过程。随机微分为DPM提供了计算的基础。

截止目前,DPM vocoder的成功尝试有WaveGrad和DiffWave,但是还没有基于DPM的特征生成器。

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech_第1张图片
Grad-TTS 包括特征生成器和score-based decoder using recent diffusion probabilistic modelling insights. decoder将输出encoder的输出转换为mel-spec,encoder的输出是高斯noise。为了实现从高斯噪声中重建数据,作者写下传统的正向和反向扩散的通用版本。模型可以在输出高质量的mel-spec以及提升推理速度之间做折中。实验发现,只需要10次反向迭代,就可以生成高质量的mel-spec。还可以做end-to-end TTS,直接生成语音而不是mel-spec。

你可能感兴趣的:(paper笔记)