Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解

-1. 说明

  1. https://github.com/CorentinJ/Real-Time-Voice-Cloning

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第1张图片

0. Abstract 

我们描述了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够在不同说话者的语音中生成语音音频,包括在培训期间看不到的语音。我们的系统由三个经过独立训练的组件组成:(1)说话者编码器网络,使用独立的嘈杂语音数据集(不含笔录)对说话者验证任务进行训练,以仅几秒钟的参考时间生成固定尺寸的嵌入矢量目标演讲者的讲话; (2)一个基于Tacotron 2的序列到序列合成网络,该网络根据说话者的嵌入情况从文本生成梅尔频谱图; (3)一个基于WaveNet的自回归声码器网络,它将mel频谱图转换为时域波形样本。我们证明了所提出的模型能够将由经过区别训练的说话者编码器学习的说话者变异性知识转移到多说话者TTS任务,并且能够从训练过程中看不见的说话者中合成自然语音我们量化在大型多样的扬声器上训练扬声器编码器的重要性,以获得最佳的泛化性能。最后,我们表明,随机采样的说话人嵌入可用于合成与训练中所使用的说话人不同的新颖说话人语音中的语音,这表明该模型已学会了高质量的说话人表示

1. Introduction

这项工作的目标是建立一个TTS系统,该系统可以以数据有效的方式为各种说话者生成自然语音。我们专门针对零镜头学习设置,在这种设置中,目标说话者的几秒钟未转录的参考音频用于合成该说话者语音中的新语音,而无需更新任何模型参数。这样的系统具有可访问性应用程序,例如

  1. 恢复了与失去语音并因此无法提供许多新培训示例的用户自然通信的能力。
  2. 跨语言传输语音以实现更自然的语音到语音翻译
  3. 资源不足的情况下从文本生成逼真的语音

 

合成自然语音需要对大量高质量的语音记录副本进行训练,而支持许多说话者通常每位说话者使用数十分钟的训练数据[8]。为许多扬声器记录大量高质量数据是不切实际的。我们的方法是通过独立地训练捕捉说话者特征空间的说话者判别嵌入网络

  1. 在较小的数据集上训练高质量的TTS模型(以第一个网络学习的表示为条件),将说话人建模与语音合成分离。对网络进行解耦可以使它们在独立数据上进行训练,从而减少了获得高质量多扬声器训练数据的需求
  2. 我们在说话人验证任务上训练说话人嵌入网络,以确定同一说话人是否说了两种不同的话语
  3. 与后续的TTS模型相反,此网络针对包含大量说话者的混响和背景噪声的未转录语音进行了训练

我们证明了speaker编码器和合成网络可以在不平衡和不相交的扬声器组上进行训练,并且仍然可以很好地推广。我们在1.2Kspeaker上训练合成网络,并显示在更大的18K扬声器上训练编码器可以提高自适应质量,并可以通过从嵌入之前进行采样来进一步合成全新的扬声器。这么多说话人的嘛???

We train the synthesis network on 1.2K speakers and show that training the encoder on a much larger set of 18K speakers improves adaptation quality, and further enables synthesis of completely novel speakers by sampling from the embedding prior.

人们对TTS模型的端到端培训非常感兴趣,该培训直接从文本音频对中进行培训,而无需依赖手工制作的中间表示[17,23]。

  1. Tacotron 2 [15]使用WaveNet [19]作为声码器来对由编码器-解码器体系结构生成的频谱图进行反演[3],将Tacotron [23]的韵律与WaveNet的音频质量相结合,获得了接近人类语音的自然度。它仅支持一个扬声器。 Gibiansky等
  2. [8]介绍了Tacotron的多扬声器变体,它为每个训练扬声器学习了低维扬声器嵌入
  3. Deep Voice 3 [13]提出了一种完全卷积的编码器/解码器架构,该架构可以扩展为支持来自LibriSpeech [12]的2,400多个扬声器。这些系统学习固定的一组扬声器嵌入,因此仅支持在训练过程中看到的语音合成
  4. 相反,VoiceLoop [18]提出了一种基于固定大小存储缓冲区的新颖体系结构,该缓冲区可以从训练过程中看不到的语音中生成语音。要获得良好的效果,新演讲者需要数十分钟的注册演讲和成绩单

最新的扩展功能使演讲者可以适应几次拍摄,每个演讲者只有几秒钟的语音(无抄录)可以用来以该发言人的语音产生新的语音:

  1. [2]扩展了Deep Voice 3,将类似于[18]的说话人自适应方法(其中模型参数(包括说话人嵌入)在少量自适应数据上进行了微调)与使用神经网络进行预测的说话人编码方法进行了比较扬声器直接从频谱图嵌入
  2. 后一种方法显着提高了数据效率,只需少量的一两次发声,就可以使用少量的适应数据来获得更高的自然度。由于它不需要数百次反向传播迭代,因此它的计算效率也明显更高 
  3. Nachmani等[10]类似地扩展了VoiceLoop以利用目标说话者编码网络来预测说话者嵌入。使用对比三重态损失与合成网络一起对该网络进行训练,以确保根据同一说话者的发音预测的嵌入比根据不同说话者计算的嵌入更近
  4. 另外,使用循环一致性损失来确保合成语音编码为与自适应话语相似的嵌入。一个类似的频谱图编码器网络,经过训练而没有三重态损失,被证明可以将目标韵律转换为合成语音[16]

不太懂上面的4条

在本文中,我们证明了训练相似的编码器来区分扬声器,可以可靠地传递扬声器的特性。我们的工作与[2,10]中的说话人编码模型最相似,不同之处在于,我们利用经过独立训练的网络对来自成千上万说话者的大量未转录音频的大型数据集进行说话者验证任务,使用最先进的广义端到端损失[22]。 [10]在他们的模型中加入了类似的说话人区分表示,但是所有组件都经过了共同训练。相比之下,我们从预先训练的说话者验证模型中探索迁移学习。 Doddipatla等。 [7]使用了类似的转移学习配置,其中从预训练的说话人分类器计算出的说话人嵌入被用来调节TTS系统。在本文中,我们利用了不依赖中间语言特征的端到端合成网络,以及不限于封闭的说话者集合的完全不同的说话者嵌入网络。此外,我们分析了质量如何随训练集中的说话者数量而变化,发现零镜头转移需要对数千个说话者进行训练,这比[7]中使用的要多得多

2. Multispeaker speech synthesis model

名字叫recurrent speaker encoder

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第2张图片

2.1. Speaker encoder

扬声器编码器用于根据来自所需目标扬声器的参考语音信号调节合成网络

  1. 良好的概括性的关键是要使用捕获不同说话者特征的表示形式
  2. 以及仅使用短适应信号来识别这些特征的能力
  3. 而与信号的语音内容和背景噪声无关

使用在与文本无关的说话者验证任务上训练的说话者区分模型可以满足这些要求

我们遵循[22],它提出了一个高度可扩展且准确的神经网络框架,用于说话人验证。网络将根据任意长度的语音发音计算出的对数梅尔频谱图帧映射到固定维嵌入矢量,称为d矢量[20,9]。训练网络以优化广义的端到端说话人验证损失,从而使来自同一说话人的话语嵌入具有较高的余弦相似度,而来自不同说话人的话语嵌入在嵌入空间中相距甚远。训练数据集由分为1.6秒的语音音频示例(定长的吗?)和相关的说话者身份标签组成;不使用任何文本标注

  1. 将输入的40通道对数梅尔频谱图传递到一个网络
  2. 该网络由768个单元的3个LSTM层的堆栈组成,每个层之后是256个尺寸的投影。最终的嵌入是通过在最终帧处L2归一化顶层的输出来创建的
  3. 在推理过程中,任意长度的语音被分成800ms的窗口,重叠50%。网络在每个窗口上独立运行,并对输出求平均值并归一化以创建最终的语音嵌入

The training dataset consists of speech audio examples segmented into 1.6 seconds and associated speaker identity labels; no transcripts are used.

Input 40-channel log-mel spectrograms are passed to a network consisting of a stack of 3 LSTM layers of 768 cells, each followed by a projection to 256 dimensions. The final embedding is created by L2-normalizing the output of the top layer at the final frame. During inference, an arbitrary length utterance is broken into 800ms windows, overlapped by 50%. The network is run independently on each window, and the outputs are averaged and normalized to create the final utterance embedding.

尽管没有直接优化网络来学习捕获与合成相关的说话人特征的表示,但我们发现对说话人识别任务的训练会导致嵌入,该嵌入直接适合于以说话人身份为条件来限制合成网络

2.2. Synthesizer

我们关注Tacotron 2体系结构扩展循环序列到序列[15],以支持类似于[8]的方案的多个扬声器。在每个时间步长,将目标扬声器的嵌入矢量与合成器编码器输出连接在一起。与[8]相比,我们发现如图1所示,简单地将嵌入传递到关注层会在不同的说话者之间收敛。

我们比较了该模型的两种变体

  1. 一种使用扬声器编码器计算嵌入
  2. 另一种是针对训练集中的每个扬声器优化固定嵌入的基线,从本质上讲类似于[8、13],学习了扬声器嵌入的查找表

合成器接受了关于文本笔录和目标音频的培训。在输入时,我们将文本映射到一个音素序列,这导致更快的收敛性并改善了稀有单词和专有名词的发音。使用预训练的说话者编码器(其参数被冻结)以转移学习配置来训练网络,以从目标音频中提取嵌入的说话者,即说话者参考信号与训练期间的目标语音相同。培训期间不使用明确的说话者标识符标签

目标频谱图特征是从以12.5ms步长计算的50ms窗口中计算出来的,并经过80通道的梅尔级滤波器组,然后进行对数动态范围压缩

  1. 我们通过用额外的L1损失增加预测频谱图上的L2损失来扩展[15]。在实践中,我们发现在嘈杂的训练数据上,这种综合损失更为稳健。
  2. 与[10]相比,我们没有基于说话人嵌入引入其他损失条款

The synthesizer is trained on pairs of text transcript and target audio. At the input, we map the text to a sequence of phonemes, which leads to faster convergence and improved pronunciation of rare words and proper nouns. The network is trained in a transfer learning configuration, using a pretrained speaker encoder (whose parameters are frozen) to extract a speaker embedding from the target audio, i.e. the speaker reference signal is the same as the target speech during training. No explicit speaker identifier labels are used during training.

Target spectrogram features are computed from 50ms windows computed with a 12.5ms step, passed through an 80-channel mel-scale filterbank followed by log dynamic range compression. We extend [15] by augmenting the L2 loss on the predicted spectrogram with an additional L1 loss. In practice, we found this combined loss to be more robust on noisy training data. In contrast to [10], we don’t introduce additional loss terms based on the speaker embedding.

2.3. Neural vocoder

The network is not directly conditioned on the output of the speaker encoder. The mel spectrogram predicted by the synthesizer network captures all of the relevant detail needed for high quality synthesis of a variety of voices, allowing a multispeaker vocoder to be constructed by simply training on data from many speakers.

2.4. Inference and zero-shot speaker adaptation

在推理过程中,使用任意未转录的语音音频调节模型,该音频无需匹配要合成的文本。由于要从音频中推断出用于合成的扬声器特性,因此可以将其以训练集以外的扬声器的音频为条件。在实践中,我们发现使用持续时间为几秒钟的单个音频剪辑足以合成具有相应说话者特征的新语音,代表对新型说话者的零声适应。在第3节中,我们评估了此过程对以前看不见的演讲者的推广程度

During inference the model is conditioned using arbitrary untranscribed speech audio, which does not need to match the text to be synthesized. Since the speaker characteristics to use for synthesis are inferred from audio, it can be conditioned on audio from speakers that are outside the training set. In practice we find that using a single audio clip of a few seconds duration is sufficient to synthesize new speech with the corresponding speaker characteristics, representing zero-shot adaptation to novel speakers.

推理过程的一个示例在图2中可视化,该图显示了使用几种不同的5秒说话者参考话语合成的声谱图;

  1. 与女性(中置和下置)扬声器相比,合成的男性(上置)扬声器声谱图具有较低的基频(在低频的密集谐波间隔(水平条纹)中可见)和共振峰(在中频中可见)
  2. 在元音(例如“ i”)在0.3秒时出现的频率峰值–顶级男性F2在梅尔通道35中,而中置扬声器的F2似乎更靠近通道40
  3. 在0.4秒处的“ s”包含的能量较低,在男性声音中的频率比在女性声音中的频率低
  4. 最终,说话者的嵌入也可以在某种程度上捕获特征语速,这可以从底部的行相比顶部的较长的信号持续时间看出。可以在右栏中对相应的参考发声谱图进行类似的观察

3. Experiments

我们使用了两个公共数据集来训练语音合成和声码器网络

  1. VCTK [21]包含来自109位演讲者的44个小时的简洁演讲,其中大部分带有英国口音。我们将音频下采样到24 kHz,将前导和尾随的静噪修整(将中值持续时间从3.3秒减少到1.8秒),并分成三个子集:训练,验证(与训练集包含相同的扬声器)和测试(包含11个)讲者从培训和验证集中脱颖而出)
  2. LibriSpeech [12]由两个“干净的”训练集的组合组成,包括来自1,172位扬声器的436小时的语音,采样频率为16 kHz。大部分语音都是美式英语,但是由于它是从有声书中获得的,因此同一位发言人的讲话语气和语气可能会明显不同。通过使用ASR模型将音频与笔录强制对齐,并在静音时中断片段,我们将数据细分为较短的发音,从而将中值持续时间从14秒减少到5秒。与原始数据集一样,抄本中没有标点符号。扬声器组在训练,验证和测试组之间是完全脱节的

LibriSpeech干净语料库中的许多录音都包含明显的环境和固定背景噪音。我们使用简单的频谱减法[4]去噪程序对目标频谱图进行了预处理,其中话语的背景噪声频谱被估计为整个信号中每个频带能量的第10个百分位数。此过程仅用于合成目标。原始的嘈杂语音已传递到扬声器编码器。我们针对这两个语料库分别训练了单独的合成和声码器网络。在本节中,我们使用经过音素输入训练的综合网络,以便控制主观评估中的发音。对于音频非常干净的VCTK数据集,我们发现以地面真相梅尔谱图训练的声码器效果很好。但是,对于噪声较大的LibriSpeech,我们发现有必要在合成器网络预测的频谱图上训练声码器。对于声码器训练,没有对目标波形进行去噪。说话者编码器是在专有的语音搜索语料库上接受训练的,该语料库包含来自美国的18K英语说话者的3600万语音,中位持续时间为3.9秒。该数据集不会被转录,但是包含匿名的说话者身份。它从未用于训练综合网络。我们主要依靠基于主观听力测试的众包平均意见评分(MOS)评估。我们所有的MOS评估均与绝对类别等级量表[14]保持一致,等级分数从1到5,以0.5点为增量。我们使用此框架从两个维度评估合成语音:其自然性和与目标说话人真实语音的相似性

  1. VCTK [21] contains 44 hours(估摸4.4w句) of clean speech from 109 speakers, the majority of which have British accents. We downsampled the audio to 24 kHz, trimmed leading and trailing silence (reducing the median duration from 3.3 seconds to 1.8 seconds), and split into three subsets: train, validation (containing the same speakers as the train set) and test (containing 11 speakers held out from the train and validation sets).  [21] Christophe Veaux, Junichi Yamagishi, Kirsten MacDonald, et al. CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit, 2017
  2. LibriSpeech [12] consists of the union of the two “clean” training sets, comprising 436 hours(估摸43w句) of speech from 1,172 speakers, sampled at 16 kHz. The majority of speech is US English, however since it is sourced from audio books, the tone and style of speech can differ significantly between utterances from the same speaker. We resegmented the data into shorter utterances by force aligning the audio to the transcript using an ASR model and breaking segments on silence, reducing the median duration from 14 to 5 seconds. As in the original dataset, there is no punctuation in transcripts. The speaker sets are completely disjoint among the train, validation, and test sets.
  3. Many recordings in the LibriSpeech clean corpus contain noticeable environmental and stationary background noise. We preprocessed the target spectrogram using a simple spectral subtraction [4] denoising procedure, where the background noise spectrum of an utterance was estimated as the 10th percentile of the energy in each frequency band across the full signal. This process was only used on the synthesis target; the original noisy speech was passed to the speaker encoder.
  4. 声码器相关: We trained separate synthesis and vocoder networks for each of these two corpora. Throughout this section, we used synthesis networks trained on phoneme inputs, in order to control for pronunciation in subjective evaluations. For the VCTK dataset, whose audio is quite clean, we found that the vocoder trained on ground truth mel spectrograms worked well. However for LibriSpeech, which is noisier, we found it necessary to train the vocoder on spectrograms predicted by the synthesizer network. No denoising was performed on the target waveform for vocoder training.
  5. Transferred speaker encoder: The speaker encoder was trained on a proprietary voice search corpus containing 36M(3600w句, 36000hours, 每人2小时) utterances with median duration of 3.9 seconds from 18K English speakers in the United States. This dataset is not transcribed, but contains anonymized speaker identities. It is never used to train synthesis networks.

3.1. Speech naturalness

我们使用在VCTK和LibriSpeech上训练的合成器和声码器比较了合成语音的自然性。我们构建了一个包含100个短语的评估集,这些短语在任何训练集中都没有出现,并且针对每种模型评估了两组说话者:一组由训练集中包含的说话者组成(Seen),另一组由那些被保留的说话者组成(看不见)。我们为VCTK使用了11个可见和不可见的说话者,为LibriSpeech使用了10个可见和不可见的说话者(附录D)。对于每个说话者,我们随机选择一个持续时间约为5秒的语音来计算说话者嵌入(请参见附录C)。每个说话者都合成了每个短语,每个评估总共约有1,000个合成话语。每个样本均由单个评估者评分,并且每个评估均独立进行:不同模型的输出未直接进行比较

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第3张图片

For each speaker, we randomly chose one utterance with duration of about 5 seconds to use to compute the speaker embedding (see Appendix C).

为什么transfer embedding比lookup table of speaker embeddings的自然度MOS要始终低一点点?

自然度上, 确保没见过的声音自然度也很高, 那为什么我用英文测的还会有发音attention的错误???Most importantly, the audio generated by our model for unseen speakers is deemed to be at least as natural as that generated for seen speakers. 

reference speech会被模仿, 但是是有时: In informal listening tests we found that the prosody of the synthesized speech sometimes mimics that of the reference, similar to [16].

This effect is larger on LibriSpeech, which contains more varied prosody.

结合这篇好好研究reference speech对Tacotron合成的影响: [16]Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron
[24]Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis

This suggests additional care must be taken

  1. disentangle speaker identity from prosody within the synthesis network
  2. perhaps by integrating(集成) a prosody encoder as in [16, 24]
  3. or by training on randomly paired reference and target utterances from the same speaker

 

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第4张图片

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第5张图片

提出的模型取决于馈入扬声器编码器的参考语音信号。如图所示表9中,增加参考语音的长度显着提高了相似度,因为我们可以使用它来计算更精确的发言人嵌入。约5秒钟时,质量饱和VCTK。较短的参考话语会带来更好的自然度,因为它们更适合用于训练合成器的参考发声的持续时间,中值持续时间为1.8秒。所提出的模型仅使用2秒钟的参考音频即可达到接近最佳的性能。仅用5秒钟的语音就能达到性能饱和,这突出表明了所提出的局限性扬声器嵌入的小容量所限制。类似的缩放比例是在[2]中发现,在有限的情况下,采用单独嵌入扬声器的方法是有效的适应性数据,但是如果需要更多信息,则需要对整个模型进行微调以提高性能数据可用。在最近的工作中也证实了这种模式[5]

3.2. Speaker similarity

为了评估合成语音与目标说话者的匹配程度,我们将每个合成发音与同一说话者随机选择的地面真实发音配对。每个对由一位评估人按以下说明进行评估:“您不应判断句子的内容,语法或音频质量;相反,只需关注说话者彼此之间的相似性即可。”结果显示在表2中。VCTK模型的得分往往比LibriSpeech的得分高,这反映了数据集的简洁性质。在有关VCTK的更高的基础真实性基线上也很明显。对于在VCTK上看过的说话者,建议的模型的性能与基线差不多,后者使用嵌入查找表进行说话者调节。然而,在LibriSpeech上,所提出的模型获得的相似性MOS比基线低,这可能是由于扬声器内变化程度较大(附录B)以及数据集中的背景噪声水平。在看不见的说话者上,提出的模型在地面实况和合成语音之间获得了较低的相似性。在VCTK上,相似度得分为3.28,在评估等级上介于“中等相似”和“非常相似”之间。非正式地,很明显,所提出的模型能够为看不见的说话者传递说话者特征的宽广笔画,从而清楚地反映出正确的性别,音调和共振峰范围(如图2所示)。但是,看不见的说话人的相似性得分大大降低,这表明有些细微差别,例如与特色韵律有关的,都迷失了。扬声器编码器仅接受北美口音训练。结果,口音不匹配会限制我们在VCTK上说话人相似性的表现,因为评估者的说明中并未指定如何判断口音,因此如果口音不匹配,评估者可能会认为一对来自不同的说话者。确实,对评分者评论的检查表明,我们的模型有时会产生与实际情况不同的口音,从而导致得分较低。但是,一些评估者评论说,尽管口音有所不同,但声音的语调和变化却非常相似

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第6张图片

“You should not judge the content, grammar, or audio quality of the sentences; instead, just focus on the similarity of the speakers to one another.”

  1. 对于见到过的: For seen speakers on VCTK, the proposed model performs about as well as the baseline which uses an embedding lookup table for speaker conditioning. However, on LibriSpeech, the proposed model obtained a lower similarity MOS than the baseline, which is likely due to the wider degree of within-speaker variation (Appendix B), and background noise level in the dataset.
  2. 但对于训练集内(in-domain)没见到过的说话人-1, 只有3分, it is clear that the proposed model is able to transfer the broad strokes of the speaker characteristics for unseen speakers, clearly reflecting the correct gender, pitch, and formant ranges (as also visualized in Figure 2)
  3. 但对于训练集内(in-domain)没见到过的说话人-2, But the significantly reduced similarity scores on unseen speakers suggests that some nuances, e.g. related to characteristic prosody, are lost.
  4. 但对于训练集内(in-domain)没见到过的说话人-3, 听起来音色也不像呀, 音色在定义中是如何定义的
  5. 但对于训练集内(in-domain)没见到过的说话人-4, 口音冲突. The speaker encoder is trained only on North American accented speech. As a result, accent mismatch constrains our performance on speaker similarity on VCTK since the rater instructions did not specify how to judge accents, so raters may consider a pair to be from different speakers if the accents do not match. Indeed, examination of rater comments shows that our model sometimes produced a different accent than the ground truth, which led to lower scores. However, a few raters commented that the tone and inflection of the voices sounded very similar despite differences in accent.
  6. 但对于训练集外(out-domain)没见到过的说话人-5, 100个说话人的librispeech效果好于vctk, 但是2.7vs1.8, 都很差

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第7张图片

作为对推广到域外说话者能力的初步评估,我们使用了在VCTK和LibriSpeech上受过训练的合成器从其他数据集中合成说话者。我们只改变了合成器和声码器网络的训练系统。两种型号均使用相同的扬声器编码器。如表3所示,该模型能够产生与表1所示的看不见但域内说话者相同程度的自然语音。但是,LibriSpeech模型合成的VCTK说话者比VCTK的说话者相似度高得多该模型能够合成LibriSpeech扬声器。 LibriSpeech模型的更好的一般化表明仅在100个扬声器上训练合成器不足以实现高质量的扬声器传输

3.3. Speaker verification

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第8张图片

作为针对看不见的说话人的合成和地面真实音频之间的说话人相似度的客观度量,我们评估了有限的说话人验证系统区分合成声音与真实语音的能力。我们使用与第2.1节相同的网络拓扑训练了一个新的仅评估扬声器的编码器,但是使用了与113K扬声器不同的28M语音训练集。使用不同的模型进行评估可确保指标不仅在特定的发言人嵌入空间上有效。我们注册了21位真实讲话者的声音:来自VCTK的11位讲话者和来自LibriSpeech的10位讲话者,并根据注册的讲话者集对合成波形进行评分。在合成器培训期间,所有注册和验证发言人均未见过。通过将每个测试发音与每个注册演讲者配对,可以估算出演讲者验证相等错误率(SV-EER)。我们为每个说话者合成了100个测试发音,因此每个评估进行了21,000或23,100次测试。如表4所示,只要在足够大的一组扬声器上(即在LibriSpeech上)训练合成器,合成语音通常与地面真实语音最相似。 LibriSpeech合成器使用参考说话者从两个数据集中获得的EER为5-6%,而经过VCTK训练的人的效果要差得多,尤其是对于域外LibriSpeech说话者。这些结果与表3中的主观评估相一致。为了衡量区分同一位发言者的真实语音和合成语音的难度,我们对注册演讲者进行了扩展评估,其中包括10个真实LibriSpeech演讲者的10个合成版本。 。在这20个语音歧视任务中,我们获得的EER为2.86%,这表明,尽管合成语音倾向于接近目标说话者(余弦相似度> 0.6,如​​表4所示),但几乎总是接近其他说话者。同一说话人的合成话语(相似度> 0.7)。由此可以得出结论,建议的模型可以生成类似于目标说话人的语音,但效果不佳,无法与真实说话人混淆

We trained a new eval-only speaker encoder with the same network topology as Section 2.1, but using a different training set of 28M(0.24hours一个人) utterances from 113K speakers. Using a different model for evaluation ensured that metrics were not only valid on a specific speaker embedding space. 

具体测试方法不太懂, 但是: These results are consistent with the subjective evaluation in Table 3. 后面的真假区分实验也没关注

之后的还没关注实验, 先回头看看github代码如何训出来的-已经更新到了

blog.csdn.net/u013625492/article/details/109738381


3.4. Speaker embedding space

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第9张图片

可视化说话者嵌入空间会进一步关联第3.2和3.3节中描述的定量结果。如图3所示,不同的扬声器在扬声器嵌入空间中彼此分离。 PCA可视化效果(左)显示,合成语音在嵌入空间中倾向于非常接近同一说话者的真实语音。但是,如t-SNE可视化图(右图)所示,合成话语仍然很容易与真实的人类语音区分开,其中每个合成说话者的话语形成一个独特的簇,与来自相应说话者的真实话语簇相邻

在PCA和t-SNE可视化图中,说话者似乎按性别很好地分开,所有女性说话者都出现在左侧,而所有男性说话者都出现在右侧。这表明扬声器编码器已经学会了扬声器空间的合理表示

3.5. Number of speaker encoder training speakers

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第10张图片

所提出的模型在各种扬声器中很好地概括的能力很可能基于扬声器编码器学习到的表示质量。因此,我们探讨了扬声器编码器训练集对合成质量的影响。我们使用了三个额外的训练集:(1)LibriSpeech Other,其中包含来自1,166位演讲者的461个小时的演讲,这些演讲者与干净的子集中的人不相交,(2)VoxCeleb [11]和(3)VoxCeleb2 [6 ],分别包含来自1,211个扬声器的139K语音和来自5,994个扬声器的109M语音。 表5比较了所提出模型的性能与用于训练扬声器编码器的扬声器数量的关系。这在训练扬声器编码器时衡量了扬声器多样性的重要性。为了避免过度拟合,在小型数据集(前两行)上训练的扬声器编码器使用较小的网络体系结构(256维LSTM单元,具有64维投影),并输出64维扬声器嵌入。 我们首先评估经过LibriSpeech Clean和Other训练的扬声器编码器,每组包含相似数量的扬声器。在Clean中,扬声器编码器和合成器是在相同的数据上训练的,其基线类似于[2]中的非微调扬声器编码器,只是在[10]中进行了判别训练。这种匹配的条件具有更好的自然度和相似度。随着培训演说者人数的增加,自然性和相似性都会大大提高。客观的EER结果也随着主观评估而提高

这些结果对多说话者TTS训练具有重要意义。扬声器编码器的数据要求比完整的TTS培训要便宜得多,(不仅是这样, 跨语言的句子转录不出来跨语言的文本),因为不需要成绩单,并且音频质量可能会比TTS培训低。我们已经表明,通过组合在大量未转录数据上训练的扬声器编码器网络与在较小一组高质量数据上训练的TTS网络,可以合成非常自然的TTS

3.6. Fictitious speakers 虚拟演讲者

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第11张图片

绕过扬声器编码器网络并在扬声器嵌入空间中的随机点上调节合成器,会导致来自虚拟扬声器的语音,而虚拟扬声器则不在合成器或扬声器编码器的序列或测试集中。这在表6中得到了证明,该表将10个这样的扬声器(从单位超球面的均匀采样点生成)与组件网络训练集中的最接近的扬声器进行了比较。 SV-EER在注册10个最近邻居的语音后,使用与第3.3节相同的设置计算。即使这些扬声器是完全虚构的,合成器和声码器也能够生成与看到或未看到的真实扬声器一样自然的音频。与最近邻训练话音的余弦相似度低且EER很高,表明它们确实与训练说话者不同

4. Conclusion

如果合成器训练集中有足够的说话者多样性,则可以通过增加说话者编码器训练数据的数量来显着提高说话者转移质量

转移学习对于实现这些结果至关重要。通过将扬声器编码器和合成器的训练分开,该系统大大降低了对多扬声器TTS训练数据的要求。它既不需要合成器训练数据的说话者身份标签,也不需要说话者编码器训练数据的高质量纯净语音或转录本。另外,与[10]相比,独立地训练组件可以显着简化合成器网络的训练配置,因为它不需要额外的三元组或对比损失

使用低维向量对说话人变化进行建模会限制利用大量参考语音的能力。给定几秒钟的参考语音,要提高说话者的相似性,就需要像[2]中以及最近在[5]中那样的模型自适应方法

最后,我们证明了该模型能够从与训练集不同的虚拟说话者生成逼真的语音,这意味着该模型已学会利用说话者变化空间的逼真的表示

另一个限制是该模型无法传递口音。给定足够的训练数据,可以通过将合成器置于独立的扬声器和重音嵌入条件下来解决。最后,我们注意到该模型也无法将说话者的声音与参考音频的韵律完全隔离开,这与[16]中观察到的趋势类似. 但是这两点正是跨语言合成需要的!!!

Appendix A. Additional joint training baselines

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第12张图片

尽管如3.5节所述,如果在较大的未转录语音语料库上对扬声器编码器进行训练,则有必要对扬声器编码器和合成器网络进行单独的训练,但在本节中,我们将评估扬声器编码器和合成器网络的联合有效性如下:基线,类似于[10]。我们在LibriSpeech的Clean子集上进行训练,该子集包含1.2K扬声器,并在3.5节之后使用64英寸的扬声器嵌入尺寸。我们比较了两种基线联合训练系统:一种类似于[16]的扬声器编码器的输出不受任何限制,另一种是通过将64维扬声器嵌入线性投影以形成为softmax扬声器分类器进行logit,优化相应的交叉熵损失。表7中显示了自然性和说话人相似性MOS结果,将这些共同训练的基准与上一节中报告的结果进行了比较。我们发现,两个共同训练的模型在Seen扬声器上都获得相似的自然MOS,而包含判别性扬声器损耗的变体在Unseen扬声器上表现更好。就看不见的扬声器的自然性和相似性而言,包含扬声器损耗的模型的性能几乎与表5的基线相同,该性能使用了经过单独训练的扬声器编码器,该编码器也进行了优化以区分扬声器。最后,我们注意到,提出的模型使用了经过18K说话者语料库单独训练的说话者编码器,大大优于所有基线,再次强调了迁移学习在此任务上的有效性

Appendix B. Speaker variation 说话者变化

LibriSpeech语音的语调和风格即使在同一扬声器下也各不相同。在一些示例中,说话者甚至试图模仿不同性别的声音。结果,比较来自同一说话者的不同话语之间的说话者相似度(即,自相似度)有时可能相对较低,并且每个说话者之间的差异都很大。由于LibriSpeech录音中的噪音水平,一些扬声器的自然评分较低。每个扬声器的情况再次明显不同。可以在表8中看到。相反,VCTK在自然性和自相似性方面更加一致。 表4显示了合成音频上不同扬声器之间自然MOS的差异。它比较了不同说话者的MOS的地面真实性和在VCTK上的综合,表明我们在VCTK上提出的模型的性能也非常取决于说话者。例如,说话者“ p240”的MOS为4.48,非常接近基本事实的MOS(4.57),但说话者“ p260”却比基本事实的MOS高0.5分

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第13张图片

C, D附录在前面

Appendix E. Fictitious speakers 虚拟演讲者

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第14张图片

Appendix F. Speaker similarity MOS evaluation interface

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解_第15张图片

 

 

你可能感兴趣的:(研三-语音合成论文,机器学习)