OpenVoice文本转语音大模型原理

介绍

  • 即时语音克隆(IVC)-- Instant voice cloning
  • 文本转语音(TTS)-- text-to-speech

概述

给定参考说话者的短音频样本的情况下克隆任何参考说话者的声音,而无需对参考说话者进行额外培训。它也被称为零样本TTS。IVC使用户能够灵活定制生成的声音,在各种真实世界应用中展现了巨大的价值,如媒体内容创作、定制聊天机器人以及人与计算机或大型语言模型之间的多模态交互。

原理

IVC方面已经进行了大量的先前工作:
从参考音频中提取声学标记或说话者嵌入作为自回归模型的条件
自回归模型顺序生成声学标记
然后解码为原始音频波形。

模型

此外,自回归模型在计算上相对昂贵,推理速度较慢。非自回归方法的示例包括YourTTS [2]和最近开发的Voicebox [8],它演示了显著更快的推理速度,但仍无法提供除音色以外的风格参数的灵活控制。现有方法的另一个共同缺点是,它们通常需要庞大的MSML数据集才能实现跨语言语音克隆。这种组合数据要求可能限制其灵活性,以包含新语言。另外,由于技术巨头对语音克隆研究的封闭性,研究社区难以在其基础上推动该领域的发展。

背景

我们提出了OpenVoice,这是一个灵活的即时语音克隆方法,针对该领域的以下关键问题:
• 除了克隆音色外,如何对其他重要的风格参数进行灵活控制,如情感、口音、韵律、停顿和语调?这些特征对于生成上下文自然的语音和对话非常重要,而不是单调地叙述输入文本。之前的方法只能克隆参

你可能感兴趣的:(搭建本地gpt,chatgpt,openvoice,语音识别)