该代码:用来模仿别人说话生成的一段语音的代码。
源码地址:GitHub - babysor/MockingBird: AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
IDE:Pycharm2019
encoder:编码器
synthesizer:生成器
toolbox:ui工具箱
vocoder:解码器
如果只需要使用的话:这些都不用管,可以直接使用别人的预训练model.
输入:pip install requirements.txt
github源码中提供了一些用户预训练出来的模型。当然你也可以使用自己制作的数据集,那个github中有讲解,这里我就不写了,有点费时间。使用别人的模型就好了。
选择一个用户的文件进行下载。
下载完成之后将其中的模型文件,依次保存到
synthesizer,encoder,vocoder三个文件中。如下图所示
运行:demo_toolbox.py ----------弹出UI窗口:[中文界面]
之后将其中的配置改为这个样子:并且在Browse中导入自己要模仿的音频信息或者使用Record进行录制音频信息。
Synthesizer和vocoder是可以选择的,Encoder就一个。
MaxLength是一句话的最长长度,如果太短了,会出现被截断的声音。
最后在该文本框中输入,你要模仿的文本信息,并点击Synthesize and vecode
之后就可以听到Ai仿生的效果了。
如果要保存仿生后的音频文件,点击Export进行保存。
这里对于音频的信息进行剪切和格式转换,推荐一个免费的网站。
Online MP3 Cutter - Cut Songs, Make Ringtones
非常好用,而且免费,不会和其他软件一样要冲会员,也不会加进去一段机械音。