NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers
文章目录abstractbackgroundmethodexperimentQ&A微软KaiShen∗,ZeqianJu∗,XuTan∗,demopageabstract想要zero-shot的实现TTS音色复刻,包括对韵律,多样性风格的复刻。方法:neuralcodec/decodec的方法,和vall-e/audio_LM等不同的是,本文使用的是量化后的index编码回查码本的连续域向量(这个