多语言文本到音素转换工具phonemizer实践

音素是语言识别领域的最小单元,文本到音素的转换是TTS任务(文本转语音)中重要的步骤之一,最近用了下python包(phonemizer),实践了下,觉得还挺有用的,因此记录一下过程。

(1) 下载源码,https://github.com/bootphon/phonemizer

(2) 进行源码的编译和查看,发现其调用的是festival and espeak/espeak-ng 两个系统的东西,即相当于提供了一个接口调用的东西。上述两种音素转换工具的区别如下:Festival provides US English phonemization with syllable tokenization, espeak endows multiple languages but without syllable boundaries.,可见espeak支持更多的语言。

(3) 利用源码进行调试,编译,简化其输入和输出,即可进行调试。


实验一:festival调用:en-->us,输入hello,得到的是美语的音素。

多语言文本到音素转换工具phonemizer实践_第1张图片

实验二:espeak调用:en-->us,输入hello,得到的是美语的音素。

多语言文本到音素转换工具phonemizer实践_第2张图片

实验三:espeak调用:fr-->fr,输入法语的“你好世界”,得到的是法语的音素。

多语言文本到音素转换工具phonemizer实践_第3张图片

实验三:espeak调用:spanish,输入西班牙语的“你好”,得到的是西班牙语的音素。

多语言文本到音素转换工具phonemizer实践_第4张图片

你可能感兴趣的:(语音识别)