进入AI领域做产品 —— 我的自学之路(TTS)

语音和文字处理 —— 语音合成 TTS

概念

        将文字转化为语音的过程,相当于人的嘴巴。

实现

        两种实现方法——拼接法,参数法。二者的区别在于后端声学建模方法。

拼接法:

  • 定义:
    • 从事先录制的大量语音中选择所需的基本单位拼接而成,单位可以是音节、音素,为了追求语音的连贯性也常用双音子为单位。
  • 优点:
    • 语音质量高。
  • 缺点:
    • 数据库要求高,企业级商用需要至少5万句数据;
    • 成本高,购买上述数据,需要几百万的成本。

参数法:

  • 定义:
    • 根据统计模型来产生每时每刻的参数包括基频、共振峰频率等,然后把这些参数转化为波形。
  • 模块:
    • 前端:
      • 文本解析,决定每个字的发音是什么,这句话用什么样的语调,节奏来读,哪些地方要强调等;
      • 韵律边界;
      • 重音;
      • 边界调;
      • 情感。
    • 后端:
      • 声码器。
  • 优点:
    • 数据库要求相对较小:
      • 如果只需要出声,500句即可DEMO;
      • 通用TTS需要至少5000句,6小时训练,但是准备工作需要3个月左右;
      • 个性化的TTS,大多数用参数法。
  • 缺点:
    • 质量比拼接法差一些:
      • 受限于发生算法,有损失。
    • 声码器是弱点与难点:
      • 声码器作用是复现声音信号,难在重现声音细节并不让人听出各种杂音、沉闷、机械感。

最新技术-波形统计:

  • 定义:
    • 基于深度学习的语音合成模型,不会对语音信号进行参数化,使用神经网络直接在时域预测合成语音波形的每一个采样点。
  • 优点:
    • 音质比参数合成系统好,略差于拼接合成,但是比拼接合成更稳定。
  • 缺点:
    • 由于需要预测每一个采样点,需要很大的运算量,合成时间慢,无法在实际情况下直接用在产品上。
评价标准

主观测试:

  • MOS:专家级评测;
  • ABX:普通用户评测。

客观测试:

  • 对合成系统的声学参数进行评估,计算其欧式距离;
  • 对合成系统工程上的测试:
    • 实时率;
    • 首包响应时间;
    • 内存占用;
    • CPU占用;
    • 3*24小时CRASH。

你可能感兴趣的:(AI)