五、训练自己的语音

五、训练自己的语音
还是使用Bark模型,制作自己的语音格式npz文件,上传后指定该语音播放即可。
1、语音数据npz格式介绍
    提供的数据为.npz 格式,这是 Python 中用于存储数组和数据的文件格式。数据包含三个数组:semantic_prompt、coarse_prompt 和 fine_prompt。
    semantic_prompt 数组包含由 BERT 分词器从 Hugging Face 生成的一系列分词 ID。这些标记对文本输入进行编码,并用作生成音频输出的输入。这个数组的形状是 (n,),其中 n 是输入文本中的标记数。
    coarse_prompt 数组是文本到语音管道的中间输出,包含由 Facebook 的 EnCodec 编解码器的前两个代码簿生成的令牌 ID。此步骤将语义标记转换为更适合后续步骤的不同表示。这个数组的形状是 (2, m),其中 m 是经过 EnCodec Codec 转换后的 token 数量。
    fine_prompt 数组是流水线的进一步处理输出,包含来自 EnCodec 编解码器的 8 个码本。这些码本代表标记化的最后阶段,生成的标记用于生成音频输出。这个数组的形状是 (8, p),其中 p 是经过 EnCodec Codec 进一步处理后的标记数。
    总体而言,这些数组代表将文本输入转换为合成音频输出的文本到语音管道的不同阶段。semantic_prompt 数组表示输入文本,而 coarse_prompt 和 fine_prompt 分别表示标记化的中间和最后阶段。
2、在线克隆
打开这个地址:https://huggingface.co/spaces/fffiloni/clone-voice-for-bark
打开麦克风录制,并输入名称,最后下载npz文件即可;
如果要使用脚本创建,详以下步骤

你可能感兴趣的:(AI图像处理模型与应用,nlp,ai,语音识别,图像处理)