中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)

一、github克隆项目

特别注意下载的是v0.01版本
中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第1张图片

二、Python环境

1. Python3.9下载以及Pycharm安装

可以参考这位大佬的文章
https://blog.csdn.net/c_lanxiaofang/article/details/109902269

2. 下载torch:

(一) 打开pycharm控制台查看环境:括号里面的是py3.9,与我们创建的python环境一样
中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第2张图片

(二) 环境正确后安装torch,命令如下

	pip install torch==1.9.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
	pip install torchvision==0.10.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 其他必须需要的库:

	pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4. 安装webrtcvad-wheels:

	pip install webrtcvad-wheels -i https://pypi.tuna.tsinghua.edu.cn/simple

5. 安装ffmpeg:

安装过程参考:
https://blog.csdn.net/xiaoxueyaoxuexi/article/details/110451006

三、运行代码

1. 下载预训练模型

链接:https://pan.baidu.com/s/1Scp1pzKJVeSa_ZlOQm-wGA
提取码:2021

2. 将saved_models放入项目中的synthesizer目录中

中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第3张图片

3. 代码修改

找到项目中的“/synthesizer/utils/symbols.py”文件修改代码如下,直接注释上边的_characters,并把下面的_characters放开就OK啦,如下图
在这里插入图片描述

4. 终端输入指令

(一)GUI界面:
命令:

	python demo_toolbox.py

流程:

  • 先“打开本地”或者是录音,上传录音要是.wav格式
  • 推荐大家一个m4a转mav的免费网站 https://www.aconvert.com/cn/audio/m4a-to-wav/
  • 进行模型选择,按我下面这样就可以,Synthesize选择ceshi,Vocoder选择pretrained
  • 再点击右侧的“Synthesize and vocode”
  • 左下方点击“Export”可以导出文件
    截图:
    中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第4张图片
    (二)web界面:
    命令:
	python web.py

截图:
中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第5张图片

四、音质优化

  1. 导入模型后将“Enhance vocoder output”勾选好,可以提高清晰度。
    中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第6张图片

  2. 可以尝试调整style和accuracy,然后点击“synthesize only”,调节至左下角的图像出现分段,可以看出来是一个一个的吐字,及吐字清晰即可点击“vocode only”,如下图
    中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第7张图片
    效果好的语音如下图的效果:
    中文语音克隆|MockingBird(拟声鸟)github项目运行流程(一次跑通)_第8张图片

问题反馈

大家有什么问题,可以评论区提问,我了解的话会帮大家解答!

你可能感兴趣的:(Python,github,python,开发语言)