Pytorch使用手册—使用TACOTRON2进行文本到语音转换(专题二十四)

一、概述

本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。

文本到语音的管道流程如下:

  1. 文本预处理
    首先,输入的文本被编码为一系列符号。在本教程中,我们将使用英语字符和音标作为符号。

  2. 谱图生成
    从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。

3.时域转换
最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder(声码器)。在本教程中,我们使用了三种不同的声码器:WaveRNN、GriffinLim和Nvidia的WaveGlow。

下图展示了整个过程。
Pytorch使用手册—使用TACOTRON2进行文本到语音转换(专题二十四)_第1张图片
所有相关组件都被打包在 torchaudio.pipelines.Tacotron2TTSBundle 中,但本教程还将涵盖其内部的处理过程。

二、准备工作

首先,我们安装必要的依赖项。除了 torchaudio,还需要安装 DeepPhonemizer 以执行基于音标的编码。

 
 

你可能感兴趣的:(Pytorch入门到精通,pytorch,人工智能,python)