《Text-to-Speech Synthesis》 阅读笔记 1

最近开始看Paul Talor的《Text-to-Speech Synthesis》,这本书基本上阐述了文本转语音的全部技术细节。文本转语音简称TTS,是语音识别的逆过程,也是让电脑开口说话的关键技术,基于很多因素,我今年想吃掉这本书。

1. 关于交流(Communication) 与 语言

简单来说,交流的种类有三种,从低级到高级依次为情感交流,标志交流(Iconic Communication),符号交流。

1.1 情感交流(Affective Communication)

这种交流连低等动物也可以做到,这种表达方式其实就是本能的,在动物潜意识的驱动下做出的应激反应。比如,疼痛,愤怒,喜悦。

1.2 标志交流(Iconic Communication)

标志交流比情感交流更丰富一点,但是还是属于相对低级的方式。比如路标,或者动物表达困倦时作出的休息动作。它可以是连续的,也可以是离散的。标志交流是图形化的信号或则是动物的手势。

1.3 符号交流(Symolic Communication)

符号交流是相对高级的交流,都是离散的。人类的语言就是属于符号交流,这种交流方式需要预备一定的先验知识,即符号集,和每个符号的映射的意义,当然如果涉及到人类语言,还需要关注符号如何组合成一个完整的意思,说白了就是语言的语法。

你可能感兴趣的:(《Text-to-Speech Synthesis》 阅读笔记 1)