人工智能的嘴巴——语音合成(Text to Speech | TTS)

本文首发在——easyAI——人工智能知识库

小白版本

语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。

做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:

  1. 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
  2. 知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来
  3. 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。(Google 已经做出了很想人类的机器声音,查看视频演示)

和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。以及还得学会一些语言规则,比如语法和韵律,才能像人类一样,说话语气、语境,能表达出字面之外的表意。不然,机器只会说出生硬、没有情感、不连贯的话(就像一些动漫或游戏作品中机器人角色的对话)。

音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。

百度百科版本

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

查看详情

维基百科版本

语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,如将语音转录为发音。

查看详情

扩展阅读

语音合成 TTS | AI 产品经理需要了解的 AI 技术概念

语音合成 TTS (Text-To-Speech) 的原理是什么?

方兴未艾的语音合成技术与应用

探秘语音合成技术的前世今生

你可能感兴趣的:(ai,名词解释)