TTS行业调研20221201

文章目录

  • 微软
    • 相关方向
    • 现有技术的改进点
      • 前端
      • 声学模型
      • 小样本
  • diffusion model

微软

相关方向

  • diffusion做双声道音频生成
  • 旋律生成:直接生成/给定歌词生成旋律
  • 歌曲识别:数据增广的方式修改现有说话的风格,减少和歌唱之间的gap

现有技术的改进点

前端

  • Bert改进,使用phn & sup-phn信息,增强TTS context encoder的能力;

声学模型

  • SSIM/laplace mix改进合成语音质量 (renyi也有文章2022ACL,博客也有记录)
  • DelightfulTTS:Blizzard Challenge 2021,基于comformer做的,local&global dependence
    • (1)声学模型生成16k mel, Hifinet-vocoder直接上采样到48k Hz;
    • (2)显式特征(语言id,说话人id,pitch/duration), 隐式特征(utt-level, phn-level的韵律特征)
  • DelightfulTTS2 (2022 interspeech)
    • 联合训练:DelightfulTTS-encoder,VQ-GAN(decoder&vocoder)
    • not mel(损失相位信息),VQ-GAN提取特征

小样本

  • Adaspeech 4: zero-shot TTS

diffusion model

diffusion model的首篇综述

你可能感兴趣的:(paper笔记,深度学习)