史上训练最简单,音质最好的语音合成系统

vits实现的中文TTS

GitHub - jaywalnut310/vits: VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

基于VITS 实现 16K baker TTS 的流程记录

apt-get install espeak

pip install -r requirements.txt

cd monotonic_align

python setup.py build_ext --inplace

将16K标贝音频拷贝到./baker_waves/,启动训练

python train.py -c configs/baker_base.json -m baker_base

两张1080卡,训练两天,基本可以使用了

测试

python vits_strings.py

上面的模型训练出来后存在,明显停顿的问题

原因:

1,本来已经在音素后面强插边界了,VITS又强插边界了,具体是配置参数:"add_blank": true 2,可能影响,随机时长预测,具体配置参数:use_sdp=True,

GitHub - dtx525942103/vits_chinese: vits chinese, tts chinese, tts mandarin 史上训练最简单,音质最好的语音合成系统

你可能感兴趣的:(语音识别,python,深度学习)