学习笔记:基于GMM的语音转换

基于高斯混合模型的语音转换(Voice conversion based on Gassian mixture model)

任务:
把说话人A的声音转换成说话人B的声音,保持语义信息不变。
实验部分:男女声转换

概述

语音合成任务:

  • 语音转换(Voice Conversion, VC)
  • 文语转换(Text to Speech, TTS)
  • 语音生成(Voice Generation, VG)

今天主要学习语音转换VC任务。

语音转换

将语音经过预处理特征分析提取,然后特征配准,再训练一个转换模型,得到映射关系。
学习笔记:基于GMM的语音转换_第1张图片

特征提取

红框部分,就是声码器的工作,分解信号,合成信号。
1.常用声码器:World,STRAIGHT, Griffin-Lim(具体原理搜我博客)
2. 如这次用到的STRAIGHT,将信号分解为三部分:
---- F0基频(浊音):反映声音语调,声音的整体调域。
---- 频谱(梅尔倒谱):主要特征,反映声音中的细节,大部分语义信息,说话人信息。
----非周期特征(清音):反映声音中非周期变化。

特征对齐

最常用的就是动态时间规则DWT算法(具体原理搜我博客)。

为了解决原语音与目标语音不等长问题,DWT算法根据相似性,建立了对应关系,形成源+目标特征对。

学习笔记:基于GMM的语音转换_第2张图片

转换模型

基于GMM的特征映射
任务: 已知联合分布,求解条件分布。
原理: 假设原始语音x,目标语音y都是高斯的,所以联合起来也是高斯的。利用若干个高斯如m个,来拟合信号的分布。训练一个GMM模型,就能得到联合分布的均值,方差,就可以求条件分布。
学习笔记:基于GMM的语音转换_第3张图片

具体来看y是如何求解的?
条件概率的求解
在这里插入图片描述
第一部分:已知输入信号x,该x属于每一个高斯成分m=1~M的概率。
在这里插入图片描述
第二部分:在这个第m个高斯下,已知x,能产生出y的概率。
在这里插入图片描述

其中,E和D都有闭式解:
在这里插入图片描述

这样,就能求解y:
在这里插入图片描述
可以看到,一个xt算一个yt,就是最小均方误差求解。这种转换算法效果差点,是因为没有考虑帧间信息。

转换模型改进

针对GMM转换存在问题,2007年Toda等人提出了改进方法。

在这里插入图片描述
主要改进了三部分:
1.引入动态成分
2.将最小均方误差估计,改为最大似然估计。评估一组数据,而不是单一一帧,充分考虑序列整体性。
3.引入全局方差(GV,Global Variance)。使最终转换结果与目标分布更加接近。

具体算法:
1.此时,x不再是一帧一帧,而是一组帧,T帧,y也是。
在这里插入图片描述
2.引入相邻帧之间的差值(动态成分):
在这里插入图片描述

Y和y之间关系为:Y=W*y
学习笔记:基于GMM的语音转换_第4张图片

3.从而得到序列X和Y,还有联合特征的数据:
学习笔记:基于GMM的语音转换_第5张图片

4.用最大似然估计求解:
学习笔记:基于GMM的语音转换_第6张图片
要让上面式子值最大。
每部分含义和上面的类似。
第一部分:已知输入X的第t帧,该Xt属于每一个高斯成分m=1~M的概率。
在这里插入图片描述

第二部分:在这个第m个高斯下,已知X,能产生出Y的概率。
在这里插入图片描述

推导可得,当E和D等于如下值时,似然值最大:
在这里插入图片描述

为了计算简便,对似然函数进行了化简:
定了哪个m,只取概率最大的那个m。
学习笔记:基于GMM的语音转换_第7张图片

最终解:
将Y=W*y代入,得:
学习笔记:基于GMM的语音转换_第8张图片
这样就实现了序列级别的转换。

代码实现

用机器学习中常用的库函数sklearn。

import sklearn.mixture
from sklearn.mixture.gaussian.mixuture import _compute_precious_cholesky

学习笔记:基于GMM的语音转换_第9张图片

E的具体函数如下:
学习笔记:基于GMM的语音转换_第10张图片
D的函数,还有转换函数:
学习笔记:基于GMM的语音转换_第11张图片

全局方差的实现:
对转换后的特征方差分布,进行调整,使其符合目标特征的方差分布。

学习笔记:基于GMM的语音转换_第12张图片

算法实现

下面介绍具体的GMM语音转换。

  1. 数据准备:如男女声声音文件各70条。

  2. 特征提取:
    ---- F0基频(浊音):反映整个声音的整体调域。
    ----mcep 频谱(梅尔倒谱):主要特征,反映声音中的细节,大部分语义信息,说话人信息。
    ----ap非周期特征(清音):反映声音中非周期变化。
    ----npow:反映每帧能量,为了去静音帧。

  3. 统计信息计算:F0均值方差(单高斯转换),mcep的方差的均值和方差GV(GMM转换),利用GV进行特征修正(计算训练数据转换后的特征的方差的均值和方差)

  4. 特征配对:DWT

  5. 训GMM:训mcep特征对,训好的叫converter

  6. 特征修正:计算训练数据输入converter后,即转换后的特征方差的均值和方差

学习笔记:基于GMM的语音转换_第13张图片

代码:GMM语音转换

你可能感兴趣的:(语音转换,机器学习)