使用MockingBird模拟特定人物的声音

项目地址: babysor/MockingBird: AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time (github.com)icon-default.png?t=M5H6https://github.com/babysor/MockingBird

步骤:

1. 数据集制作 

  • 硕鼠,下载b站相应人物的视频资源
  • 格式工厂,一键从视频中导出大量音频素材
  • spleeter,对音频素材降噪,消除背景音乐 (生成wav或MP4格式视频)
  • videosrt,给音频文件生成字幕(配置教程参考【Videosrt】免费语音识别+字幕制作软件_哔哩哔哩_bilibili)
  • 校对字幕,同时删除质量不好的句子,用来后面做训练

2. 项目环境搭建

使用MockingBird模拟特定人物的声音_第1张图片

3. 模型训练

  • 数据预处理

使用MockingBird模拟特定人物的声音_第2张图片

 注意应在train文件夹内新建一文件夹存放数据。

  • 训练合成器
python synthesizer_train.py mandarin /SV2TTS/synthesizer
  • 模型微调:使用已经训练好的模型替换生成的mandarin.pt, 然后继续训练

4. 启动程序

python demo_toolbox.py

你可能感兴趣的:(大数据,python)