语音处理 之 问题解决

每个人的音高和音能是不一样的,说不定这个就会进入到speaker embedding中,这是否会造成影响?

个性化,就是说话人的音色,个性化模型可以通过说话人分类任务进行预训练

风格化,例如方言吧,风格化模型通常是与重构任务一起进行训练。

然而说话人分类任务也存在一定的局限性,提取的Speaker Embedding 或多或少会包含有风格信息,这会一定程度上造成解纠缠的混乱,对风格化以及个性化的效果造成影响。

不同方言对说话人特征也是有影响的,这个就要注意训练集的相同。

中文有多音字的问题,这个是第三个问题。这个用pypinyin解决。

feedback约束,

预测生成的Mel谱再输入到speaker encoder(别人做的)中生成预测语音的Speaker Embedding,

该Speaker Embedding与原始语音的Speaker Embedding(就是之前的)进行相似度比较,并加入到loss中去。

但这个就不是我做的了。

这几个问题。。。貌似都是行业问题啊。。。

自己做一个embedding。

做不了做不了,只能说

我们应该搞定这个约束反馈。。。在我看来,这个损失函数就像是一个单独的。。。

你可能感兴趣的:(自然语言处理,人工智能,机器学习,深度学习)