基于HMM的语音合成技术中的参数生成算法

本文转载自 http://wap.sciencenet.cn/blog-839087-653086.html?mobile=1
一、定义与定理
在基于隐马模型的语音合成技术中,连续密度隐马尔科夫模型(CD-HMM)集用于将语音参数建模,每个HMM状态的输出状态用单高斯函数(Gaussian)或混合高斯函数(GMM)表示(Zen et al., 2009),其参数生成算法的目标是在给定高斯分布序列的前提下,计算出具有最大似然函数的语音参数序列 (Tokuda et al., 1995)。

p(oλ)=allqp(oq,λ)P(qλ) p ( o ∣ λ ) = ∑ a l l q p ( o ∣ q , λ ) P ( q ∣ λ )
其中 o:={o1,o2,,oT} o := { o 1 , o 2 , … , o T } 代表语音参数矢量序列, q:={q1,q2,,qT} q := { q 1 , q 2 , … , q T } 表示高斯分布序列。本文中,大写粗体字母表示矩阵,如 W W ,小写粗体字母表示矢量,如 o o ,普通字母表示标量。小写字母 p p 专用于表示连续变量的概率分布,大写字母 P P 专用于表示离散变量的概率分布。除非特别说明,所有的矢量都是列矢量。符号 用于表示矩阵或矢量的转置,如 W W ⊤ 。由均值矢量 μ μ 和方差矩阵 Σ Σ 表示的生成数据点 ot o t 的高斯密度函数写作 N(otμ,Σ) N ( o t ∣ μ , Σ )
在传统HMM中,状态(高斯分布)序列是由转移概率矩阵决定的,既
P(qλ)=t=1TP(qtqt1,λ), P ( q ∣ λ ) = ∏ t = 1 T P ( q t ∣ q t − 1 , λ ) ,

在基于HMM的语音合成中,状态序列是由显式时长模型输出的时长特征矢量决定的。由于这种设定改变了模型的严格马尔科夫性,我们将其成为隐半马尔科夫模型(HSMM)。因此,下面的推导专注于输出概率密度函数。
在典型的语音识别和语音合成系统中,声学参数按帧提取,第 t t 帧的参数由矢量表示为
ct=[ct(1),ct(2),,ct(M)], c t = [ c t ( 1 ) , c t ( 2 ) , … , c t ( M ) ] ⊤ ,

t t 帧的观测值(对于模型来说,即输出值)通常定义为由声学特征及其一阶和二阶动态特征共同组成的矢量
ot=[ct,Δct,Δ2ct]. o t = [ c t ⊤ , Δ c t ⊤ , Δ 2 c t ⊤ ] ⊤ .

这些动态特征是以相邻帧静态特征的回归系数的形式计算得到的,即
Δct=tau=L(1)L(1)+w(1)(tau)ct+tau,Δ2ct=tau=L(2)L(2)+w(2)(tau)ct+tau Δ c t = ∑ t a u = − L − ( 1 ) L + ( 1 ) w ( 1 ) ( t a u ) c t + t a u , Δ 2 c t = ∑ t a u = − L − ( 2 ) L + ( 2 ) w ( 2 ) ( t a u ) c t + t a u

因此,特征参数序列可以表示为
o=[o1,o2,,oT],c=[c1,c2,,cT] o = [ o 1 ⊤ , o 2 ⊤ , … , o T ⊤ ] ⊤ , c = [ c 1 ⊤ , c 2 ⊤ , … , c T ⊤ ] ⊤

观测值 o o 和静态特征 c c 之间的关系为
o=Wc o = W c

其中 W W 定义为窗系数矩阵,即
W=[W1,W2,,WT]IMtimesM,Wt=[w(0)t,w(1)t,w(2)t] W = [ W 1 , W 2 , … , W T ] ⊤ ⊗ I M t i m e s M , W t = [ w t ( 0 ) , w t ( 1 ) , w t ( 2 ) ]

w(d)t w t ( d ) 是用于计算第 t t 帧第 d d 阶动态特征的窗系数,只在第 t t 位和相邻位置的元素有非零值,非零值的范围取决于窗宽度,通常为1,即前后一帧。
IM×M I M × M 表示 M×M M × M 单位矩阵,用于将相同的窗系数应用于所有 M M 维参数。
因此,似然函数表示为
p(oq,λ)=t=1Tp(otqt,λ)=t=1TN(otμqt,Σqt)=N(oμq,Σq) p ( o ∣ q , λ ) = ∏ t = 1 T p ( o t ∣ q t , λ ) = ∏ t = 1 T N ( o t ∣ μ q t , Σ q t ) = N ( o ∣ μ q , Σ q )

其中
μq=[μq1,μq2,,μqT],Σq=diag[Σq1,Σq2,,ΣqT] μ q = [ μ q 1 ⊤ , μ q 2 ⊤ , … , μ q T ⊤ ] ⊤ , Σ q = d i a g [ Σ q 1 , Σ q 2 , … , Σ q T ] ⊤

根据以上内容,我们有如下定义
static feature     c   MTtimes1 observation     o   3MTtimes1 window     W   3MTtimesMT means     μq   3MTtimes1 covariance     Σq   3MTtimes3MT static feature           c       M T t i m e s 1   observation           o       3 M T t i m e s 1   window           W       3 M T t i m e s M T   means           μ q       3 M T t i m e s 1   covariance           Σ q       3 M T t i m e s 3 M T

在开始推导参数生成算法之前,我们需要给出线性代数中的一些定理。
dxAxdx=x(A+A)=ifA=A2xA=2(Ax) dAxdx=A d x ⊤ A x d x = x ⊤ ( A + A ⊤ ) = if A ⊤ = A 2 x ⊤ A ⊤ = 2 ( A x ) ⊤   d A x d x = A

二、极大似然参数生成算法(MLPG)
给定高斯分布序列 q q ,参数生成的准则表示为

omax=argmaxop(oq,λ) =argmaxoN(oμq,Σq) o max = a r g max o p ( o ∣ q , λ )   = a r g max o N ( o ∣ μ q , Σ q )

在这里,生成的参数序列既是高斯分布的均值矢量序列,生成的语音变化不自然。为避免这个问题,引入动态窗系数作为约束(Tokuda et al., 2000)。在这个约束条件下,以 o o 为变量的函数最大化就等价于以 c c 为变量的函数最大化。
cmax=argmaxcN(Wcμq,Σq) c max = arg ⁡ max c N ( W c ∣ μ q , Σ q )

根据多变量高斯密度函数的定义,得到
N(Wcμq,Σq)=1(2π)3MT|Σq|exp12(Wcμq)Σ1q(Wcμq)=1(2π)3MT|Σq|exp12(cWΣ1qμqΣ1q)(Wcμq)=1(2π)3MT|Σq|exp12(cWΣ1qWc+μqΣ1qμqcWΣ1qμqμqΣ1qWc)(cWΣ1qμq=(μqΣ1qWc)=μqΣ1qWc)=1(2π)3MT|Σq|exp12(cWΣ1qWc+μqΣ1qμq2μqΣ1qWc) N ( W c ∣ μ q , Σ q ) = 1 ( 2 π ) 3 M T | Σ q | e x p − 1 2 ( W c − μ q ) ⊤ Σ q − 1 ( W c − μ q ) = 1 ( 2 π ) 3 M T | Σ q | e x p − 1 2 ( c ⊤ W ⊤ Σ q − 1 − μ q ⊤ Σ q − 1 ) ( W c − μ q ) = 1 ( 2 π ) 3 M T | Σ q | e x p − 1 2 ( c ⊤ W ⊤ Σ q − 1 W c + μ q ⊤ Σ q − 1 μ q − c ⊤ W ⊤ Σ q − 1 μ q − μ q ⊤ Σ q − 1 W c ) ( ∵ c ⊤ W ⊤ Σ q − 1 μ q = ( μ q ⊤ Σ q − 1 W c ) ⊤ = μ q ⊤ Σ q − 1 W c ) = 1 ( 2 π ) 3 M T | Σ q | e x p − 1 2 ( c ⊤ W ⊤ Σ q − 1 W c + μ q ⊤ Σ q − 1 μ q − 2 μ q ⊤ Σ q − 1 W c )

似然度定义为密度函数的自然对数。对似然函数求 c c 的偏导数得到
logN(Wcμq,Σq)c=12c(cWΣ1qWc)2c(μqΣ1qWc)((WΣ1qW)=WΣ1qW)122(WΣ1qWc)2(μqΣ1qW)122(WΣ1qWc)2(WΣ1qμq) ∂ log ⁡ N ( W c ∣ μ q , Σ q ) ∂ c = − 1 2 ∂ ∂ c ( c ⊤ W ⊤ Σ q − 1 W _ c ) − 2 ∂ ∂ c ( μ q ⊤ Σ q − 1 W _ c ) ( ∵ ( W ⊤ Σ q − 1 W ) ⊤ = W ⊤ Σ q − 1 W ) − 1 2 2 ( W ⊤ Σ q − 1 W c ) ⊤ − 2 ( μ q ⊤ Σ q − 1 W ) − 1 2 2 ( W ⊤ Σ q − 1 W c ) ⊤ − 2 ( W ⊤ Σ q − 1 μ q ) ⊤

logN(Wcmaxμq,Σq)/cmax=0 log ⁡ N ( W c max ∣ μ q , Σ q ) / ∂ c max = 0 , 可以得到如下线性方程(组)
Rqcmax=rq R q c max = r q

其中
Rq=WΣ1qW rq=WΣ1qμq R q = W ⊤ Σ q − 1 W   r q = W ⊤ Σ q − 1 μ q

通过求解方程(组)即可得到极大似然准则下的参数序列。

三、实现方法
目前,有三种官方发布的MLPG算法实现,
HTS工具包中的HMGenS工具
SPTK工具包中的mlpg工具
hts_engine_A\pi库中的参数生成模块
后两者的应用场景与本文相同,即给定高斯分布序列。在第一个工具中,实现了三种不同的参数生成模式,包括联合最优高斯分布序列的搜索(Tokuda et al., 2000)。但是,通过设置 M=1 M = 1 ,根据HMM的维度间独立假设,三种工具都实现了按维求取。使用Cholesky 分解, Rq R q 可以表示为

Rq=UqUq, R q = U q ⊤ U q ,

其中 Uq U q 是一个上三角矩阵。因此参数求解方程(组)可以分解为两个方程(组)
Uqgq=rq, Uqcmax=gq U q ⊤ g q = r q ,   U q c max = g q

上述方程组可以通过前向-后向迭代法(在线性代数课程中,也称为高斯消去法)求解。在以上任一工具的源代码中你都可以找到严格按照上述算法实现的参数求解模块。
目前为止,以上工具包公开发布的稳定版本为
HTS-2.2
SPTK-3.6
hts_engine_A\pi-1.06

参考文献
Keiichi Tokuda, Takao Kobayashi, and Satoshi Imai. speech parameter generation from HMM using dynamic features. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 660–663, September 1995.
Keiichi Tokuda, Takayoshi Yoshi\mura, Takashi Masuko, Takao Kobayashi, and Tadashi Kita\mura. speech parameter generation algorithms for HMM-based speech synthesis. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 1315–1318, June 2000.
Heiga Zen, Keiichi Tokuda, and Alan W Black. Statistical parametric speech synthesis. Speech Com\munication, 51(11):1039–1064, November 2009.

你可能感兴趣的:(基于HMM的语音合成技术中的参数生成算法)