如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI

文章目录

  • 前言
  • 一、环境准备
    • 1.1 从github下载资源包
    • 1.2 解压压缩包安装依赖
  • 二、启动环境
    • 2.1 启动程序
    • 2.2 根据链接跳转到webui界面
  • 三.训练模型
    • 3.1 准备10分钟自己朗读的音频格式为MP3
    • 3.2 准备自己想要克隆声音过去的歌曲格式也是MP3
    • 3.3 训练模型
  • 四 推理 用自己的声音唱歌
    • 4.1 刷新推理模型并选择
    • 4.2 预处理要唱的歌曲
    • 4.3 模型推理
  • 总结


前言

使用开源项目实现克隆自己的声音唱任何歌曲

类似AI孙燕姿,AI范小勤的项目

github


一、环境准备

1.1 从github下载资源包

1)点击release
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第1张图片

2)从此跳转到HGF中下载资源包
若是没有梯子,可通过HGF的镜像网站下载
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第2张图片

1.2 解压压缩包安装依赖

3)解压.7z压缩包
在这里插入图片描述

4)根据需要安装依赖

pip install -r requirements.txt

同时需要根据自身情况,缺什么包就再补充安装什么包
比如 缺 ffmpeg 就 conda install ffmpeg 安装

二、启动环境

2.1 启动程序

python infer-web.py

在这里插入图片描述

2.2 根据链接跳转到webui界面

在这里插入图片描述
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第3张图片

三.训练模型

3.1 准备10分钟自己朗读的音频格式为MP3

3.2 准备自己想要克隆声音过去的歌曲格式也是MP3

可从油管复制视频链接到该网站进行制作转换

3.3 训练模型

1)预处理音频
指定文件名,设置自己录的音频位置
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第4张图片
点击process data
在这里插入图片描述
完成

  1. 提取特征

使用图中选项或者使用默认
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第5张图片
在这里插入图片描述

3)训练模型
按图中设置

如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第6张图片
然后点击 train model
在这里插入图片描述

在这里插入图片描述

再点击 train feature index
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第7张图片

四 推理 用自己的声音唱歌

4.1 刷新推理模型并选择

如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第8张图片
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第9张图片

4.2 预处理要唱的歌曲

按图中设置即可
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第10张图片
点击convet 就会有 声音 和 背景音乐 两个文件
在这里插入图片描述

注意名字不能有中文

4.3 模型推理

1)选择对应模型和index
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第11张图片

2)放入指定的音色点击convert
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第12张图片

3)完成推理
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第13张图片
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第14张图片

若感觉声音太尖了修改下图中的值,降到-8再进行推理,声音会更低
如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI_第15张图片


总结

效果可用,但是会带着电音,还需要后续进行更多的调试

你可能感兴趣的:(人工智能)