台大数位语音处理第五课

与第四章纯数学相比,第五章针对语音场景的HMM

1. Triphone的来源

台大数位语音处理第五课_第1张图片
image.png

建模用最小,最细的phoneme

phone : a phoneme’s acoustic realization 一个phoneme有多种phone
context:上下文
coarticulation:相邻的phoneme会影响实际发音

台大数位语音处理第五课_第2张图片
image.png

不能每一个词都有训练样本(解决不了新词),用phoneme就可以拼出所有的新词。泛化性好。
最优选择:Triphone考虑上下文
有些triphone罕见没有样本,用参数共享解决

台大数位语音处理第五课_第3张图片
两种share方式

2. Information Theory基础

台大数位语音处理第五课_第4张图片
image.png

m比特数,常见取2的倍数

衡量信息量,四个属性
熵:平均信息量

分布不均匀->好猜->信息量小->混乱度小
分布平均->不好猜->信息量大->混乱度大

Data+knowledge driven:利用语言学专业知识,决策树分类,相似的归到一类。没有样本的也可以按照树走到某一类。


每个state一颗树
台大数位语音处理第五课_第5张图片

轻声,除了一二三四声以外:王爷,走吧

台大数位语音处理第五课_第6张图片
空声母韵母

为了尽量减少数量

台大数位语音处理第五课_第7张图片
远古时代
台大数位语音处理第五课_第8张图片
成绩对比

你可能感兴趣的:(台大数位语音处理第五课)