TTS 数据集

  • 来源:调用 腾讯优图API合成的数据
  • 两个实验:
    • 音频数据
      • 单人(女声) 50k的句子 大约50小时+
      • 多人:4个人,每个人6k的句子,各5个多小时,一共22小时
      • 质量: 比较流畅,不是很生硬
    • 文本数据
      • aishell 部分文本数据 AISHELL数据集是一个语音识别的数据集合,涉及多个领域,保证音素平衡
      • PS: 文本各个长度也要覆盖,保证泛化能力
  • 进一步
    • 只用一个人的语音合成,保证泛化能力的话,最好有20小时以上的音频数据
    • 多人合成,减少每个人音频的需求量大大减少,生成的质量也有一定的损失
      • 百度语音(已经收集部分,质量比腾讯优图优图差一点)
      • 科大讯飞(正在写,每天限制500次,时间长)
      • 保证质量需要一两小时(不确定?),百度的Deep Voice 2/3 在英文合成只用了平均每个人半个小时

你可能感兴趣的:(TTS 数据集)