PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS

(以下内容搬运自 PaddleSpeech)

实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。

示例句子:

大家好,我是parrot虚拟老师,我们来读一首诗,我与春风皆过客, I and the spring breeze are passing by,你携秋水揽星河, you take the autumn water to take the galaxy。

(一)单发音人方式(有数据才行!)

使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:

中英文女:

播放音频

中英文男:

播放音频

(二)多发音人语料混合方式(音色串了!)

有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:

播放音频

(三)finetune方式(音色一致了!)

在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:

特色普通话

Baker说中英文:

播放音频

抖音鸡汤女说中英文:

播放音频

动漫

蜡笔小新说中英文:

播放音频

海绵宝宝说中英文:

播放音频

方言

东北话:

播放音频

广西话:

播放音频

河南话:

播放音频

四川话:

播放音频

天津话:

播放音频

粤语:

播放音频


后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。

×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬…××××××××××

FAQ

Q: 有开源方言可直接调用的接口吗?
A: 暂时没看到有免费的

Q: 大佬你好,上述数据是网上爬虫整理的,还是采购的,方言效果不错,如果是采购的话请问哪里可以获取?
A: 整理的呢,主要验证无英文语料的方言发音人的英文发音音色和韵律是什么效果

更多内容请参考原 Disscussion 链接。


P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

你可能感兴趣的:(语音合成,人工智能,音频)