ruclion

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解

-1. 说明

https://github.com/CorentinJ/Real-Time-Voice-Cloning

0. Abstract

我们描述了一种基于神经网络的文本到语音（TTS）合成系统，该系统能够在不同说话者的语音中生成语音音频，包括在培训期间看不到的语音。我们的系统由三个经过独立训练的组件组成：（1）说话者编码器网络，使用独立的嘈杂语音数据集（不含笔录）对说话者验证任务进行训练，以仅几秒钟的参考时间生成固定尺寸的嵌入矢量目标演讲者的讲话；（2）一个基于Tacotron 2的序列到序列合成网络，该网络根据说话者的嵌入情况从文本生成梅尔频谱图；（3）一个基于WaveNet的自回归声码器网络，它将mel频谱图转换为时域波形样本。我们证明了所提出的模型能够将由经过区别训练的说话者编码器学习的说话者变异性知识转移到多说话者TTS任务，并且能够从训练过程中看不见的说话者中合成自然语音。我们量化在大型多样的扬声器上训练扬声器编码器的重要性，以获得最佳的泛化性能。最后，我们表明，随机采样的说话人嵌入可用于合成与训练中所使用的说话人不同的新颖说话人语音中的语音，这表明该模型已学会了高质量的说话人表示

1. Introduction

这项工作的目标是建立一个TTS系统，该系统可以以数据有效的方式为各种说话者生成自然语音。我们专门针对零镜头学习设置，在这种设置中，目标说话者的几秒钟未转录的参考音频用于合成该说话者语音中的新语音，而无需更新任何模型参数。这样的系统具有可访问性应用程序，例如

恢复了与失去语音并因此无法提供许多新培训示例的用户自然通信的能力。
跨语言传输语音以实现更自然的语音到语音翻译
资源不足的情况下从文本生成逼真的语音

合成自然语音需要对大量高质量的语音记录副本进行训练，而支持许多说话者通常每位说话者使用数十分钟的训练数据[8]。为许多扬声器记录大量高质量数据是不切实际的。我们的方法是通过独立地训练捕捉说话者特征空间的说话者判别嵌入网络

在较小的数据集上训练高质量的TTS模型（以第一个网络学习的表示为条件），将说话人建模与语音合成分离。对网络进行解耦可以使它们在独立数据上进行训练，从而减少了获得高质量多扬声器训练数据的需求
我们在说话人验证任务上训练说话人嵌入网络，以确定同一说话人是否说了两种不同的话语
与后续的TTS模型相反，此网络针对包含大量说话者的混响和背景噪声的未转录语音进行了训练

我们证明了speaker编码器和合成网络可以在不平衡和不相交的扬声器组上进行训练，并且仍然可以很好地推广。我们在1.2Kspeaker上训练合成网络，并显示在更大的18K扬声器上训练编码器可以提高自适应质量，并可以通过从嵌入之前进行采样来进一步合成全新的扬声器。这么多说话人的嘛???

We train the synthesis network on 1.2K speakers and show that training the encoder on a much larger set of 18K speakers improves adaptation quality, and further enables synthesis of completely novel speakers by sampling from the embedding prior.

人们对TTS模型的端到端培训非常感兴趣，该培训直接从文本音频对中进行培训，而无需依赖手工制作的中间表示[17，23]。

Tacotron 2 [15]使用WaveNet [19]作为声码器来对由编码器-解码器体系结构生成的频谱图进行反演[3]，将Tacotron [23]的韵律与WaveNet的音频质量相结合，获得了接近人类语音的自然度。它仅支持一个扬声器。 Gibiansky等
[8]介绍了Tacotron的多扬声器变体，它为每个训练扬声器学习了低维扬声器嵌入
Deep Voice 3 [13]提出了一种完全卷积的编码器/解码器架构，该架构可以扩展为支持来自LibriSpeech [12]的2,400多个扬声器。这些系统学习固定的一组扬声器嵌入，因此仅支持在训练过程中看到的语音合成
相反，VoiceLoop [18]提出了一种基于固定大小存储缓冲区的新颖体系结构，该缓冲区可以从训练过程中看不到的语音中生成语音。要获得良好的效果，新演讲者需要数十分钟的注册演讲和成绩单

最新的扩展功能使演讲者可以适应几次拍摄，每个演讲者只有几秒钟的语音（无抄录）可以用来以该发言人的语音产生新的语音:

[2]扩展了Deep Voice 3，将类似于[18]的说话人自适应方法（其中模型参数（包括说话人嵌入）在少量自适应数据上进行了微调）与使用神经网络进行预测的说话人编码方法进行了比较扬声器直接从频谱图嵌入
后一种方法显着提高了数据效率，只需少量的一两次发声，就可以使用少量的适应数据来获得更高的自然度。由于它不需要数百次反向传播迭代，因此它的计算效率也明显更高
Nachmani等[10]类似地扩展了VoiceLoop以利用目标说话者编码网络来预测说话者嵌入。使用对比三重态损失与合成网络一起对该网络进行训练，以确保根据同一说话者的发音预测的嵌入比根据不同说话者计算的嵌入更近
另外，使用循环一致性损失来确保合成语音编码为与自适应话语相似的嵌入。一个类似的频谱图编码器网络，经过训练而没有三重态损失，被证明可以将目标韵律转换为合成语音[16]

不太懂上面的4条

在本文中，我们证明了训练相似的编码器来区分扬声器，可以可靠地传递扬声器的特性。我们的工作与[2，10]中的说话人编码模型最相似，不同之处在于，我们利用经过独立训练的网络对来自成千上万说话者的大量未转录音频的大型数据集进行说话者验证任务，使用最先进的广义端到端损失[22]。 [10]在他们的模型中加入了类似的说话人区分表示，但是所有组件都经过了共同训练。相比之下，我们从预先训练的说话者验证模型中探索迁移学习。 Doddipatla等。 [7]使用了类似的转移学习配置，其中从预训练的说话人分类器计算出的说话人嵌入被用来调节TTS系统。在本文中，我们利用了不依赖中间语言特征的端到端合成网络，以及不限于封闭的说话者集合的完全不同的说话者嵌入网络。此外，我们分析了质量如何随训练集中的说话者数量而变化，发现零镜头转移需要对数千个说话者进行训练，这比[7]中使用的要多得多

2. Multispeaker speech synthesis model

名字叫recurrent speaker encoder

2.1. Speaker encoder

扬声器编码器用于根据来自所需目标扬声器的参考语音信号调节合成网络

良好的概括性的关键是要使用捕获不同说话者特征的表示形式
以及仅使用短适应信号来识别这些特征的能力
而与信号的语音内容和背景噪声无关

使用在与文本无关的说话者验证任务上训练的说话者区分模型可以满足这些要求

我们遵循[22]，它提出了一个高度可扩展且准确的神经网络框架，用于说话人验证。网络将根据任意长度的语音发音计算出的对数梅尔频谱图帧映射到固定维嵌入矢量，称为d矢量[20，9]。训练网络以优化广义的端到端说话人验证损失，从而使来自同一说话人的话语嵌入具有较高的余弦相似度，而来自不同说话人的话语嵌入在嵌入空间中相距甚远。训练数据集由分为1.6秒的语音音频示例(定长的吗?)和相关的说话者身份标签组成；不使用任何文本标注

将输入的40通道对数梅尔频谱图传递到一个网络
该网络由768个单元的3个LSTM层的堆栈组成，每个层之后是256个尺寸的投影。最终的嵌入是通过在最终帧处L2归一化顶层的输出来创建的
在推理过程中，任意长度的语音被分成800ms的窗口，重叠50％。网络在每个窗口上独立运行，并对输出求平均值并归一化以创建最终的语音嵌入

The training dataset consists of speech audio examples segmented into 1.6 seconds and associated speaker identity labels; no transcripts are used.

Input 40-channel log-mel spectrograms are passed to a network consisting of a stack of 3 LSTM layers of 768 cells, each followed by a projection to 256 dimensions. The final embedding is created by L2-normalizing the output of the top layer at the final frame. During inference, an arbitrary length utterance is broken into 800ms windows, overlapped by 50%. The network is run independently on each window, and the outputs are averaged and normalized to create the final utterance embedding.

尽管没有直接优化网络来学习捕获与合成相关的说话人特征的表示，但我们发现对说话人识别任务的训练会导致嵌入，该嵌入直接适合于以说话人身份为条件来限制合成网络

2.2. Synthesizer

我们关注Tacotron 2体系结构扩展循环序列到序列[15]，以支持类似于[8]的方案的多个扬声器。在每个时间步长，将目标扬声器的嵌入矢量与合成器编码器输出连接在一起。与[8]相比，我们发现如图1所示，简单地将嵌入传递到关注层会在不同的说话者之间收敛。

我们比较了该模型的两种变体

一种使用扬声器编码器计算嵌入
另一种是针对训练集中的每个扬声器优化固定嵌入的基线，从本质上讲类似于[8、13]，学习了扬声器嵌入的查找表

合成器接受了关于文本笔录和目标音频的培训。在输入时，我们将文本映射到一个音素序列，这导致更快的收敛性并改善了稀有单词和专有名词的发音。使用预训练的说话者编码器（其参数被冻结）以转移学习配置来训练网络，以从目标音频中提取嵌入的说话者，即说话者参考信号与训练期间的目标语音相同。培训期间不使用明确的说话者标识符标签

目标频谱图特征是从以12.5ms步长计算的50ms窗口中计算出来的，并经过80通道的梅尔级滤波器组，然后进行对数动态范围压缩

我们通过用额外的L1损失增加预测频谱图上的L2损失来扩展[15]。在实践中，我们发现在嘈杂的训练数据上，这种综合损失更为稳健。
与[10]相比，我们没有基于说话人嵌入引入其他损失条款

The synthesizer is trained on pairs of text transcript and target audio. At the input, we map the text to a sequence of phonemes, which leads to faster convergence and improved pronunciation of rare words and proper nouns. The network is trained in a transfer learning configuration, using a pretrained speaker encoder (whose parameters are frozen) to extract a speaker embedding from the target audio, i.e. the speaker reference signal is the same as the target speech during training. No explicit speaker identifier labels are used during training.

Target spectrogram features are computed from 50ms windows computed with a 12.5ms step, passed through an 80-channel mel-scale filterbank followed by log dynamic range compression. We extend [15] by augmenting the L2 loss on the predicted spectrogram with an additional L1 loss. In practice, we found this combined loss to be more robust on noisy training data. In contrast to [10], we don’t introduce additional loss terms based on the speaker embedding.

2.3. Neural vocoder

The network is not directly conditioned on the output of the speaker encoder. The mel spectrogram predicted by the synthesizer network captures all of the relevant detail needed for high quality synthesis of a variety of voices, allowing a multispeaker vocoder to be constructed by simply training on data from many speakers.

2.4. Inference and zero-shot speaker adaptation

在推理过程中，使用任意未转录的语音音频调节模型，该音频无需匹配要合成的文本。由于要从音频中推断出用于合成的扬声器特性，因此可以将其以训练集以外的扬声器的音频为条件。在实践中，我们发现使用持续时间为几秒钟的单个音频剪辑足以合成具有相应说话者特征的新语音，代表对新型说话者的零声适应。在第3节中，我们评估了此过程对以前看不见的演讲者的推广程度

During inference the model is conditioned using arbitrary untranscribed speech audio, which does not need to match the text to be synthesized. Since the speaker characteristics to use for synthesis are inferred from audio, it can be conditioned on audio from speakers that are outside the training set. In practice we find that using a single audio clip of a few seconds duration is sufficient to synthesize new speech with the corresponding speaker characteristics, representing zero-shot adaptation to novel speakers.

推理过程的一个示例在图2中可视化，该图显示了使用几种不同的5秒说话者参考话语合成的声谱图;

与女性（中置和下置）扬声器相比，合成的男性（上置）扬声器声谱图具有较低的基频（在低频的密集谐波间隔（水平条纹）中可见）和共振峰（在中频中可见）
在元音（例如“ i”）在0.3秒时出现的频率峰值–顶级男性F2在梅尔通道35中，而中置扬声器的F2似乎更靠近通道40
在0.4秒处的“ s”包含的能量较低，在男性声音中的频率比在女性声音中的频率低
最终，说话者的嵌入也可以在某种程度上捕获特征语速，这可以从底部的行相比顶部的较长的信号持续时间看出。可以在右栏中对相应的参考发声谱图进行类似的观察

3. Experiments

我们使用了两个公共数据集来训练语音合成和声码器网络

VCTK [21]包含来自109位演讲者的44个小时的简洁演讲，其中大部分带有英国口音。我们将音频下采样到24 kHz，将前导和尾随的静噪修整（将中值持续时间从3.3秒减少到1.8秒），并分成三个子集：训练，验证（与训练集包含相同的扬声器）和测试（包含11个）讲者从培训和验证集中脱颖而出）
LibriSpeech [12]由两个“干净的”训练集的组合组成，包括来自1,172位扬声器的436小时的语音，采样频率为16 kHz。大部分语音都是美式英语，但是由于它是从有声书中获得的，因此同一位发言人的讲话语气和语气可能会明显不同。通过使用ASR模型将音频与笔录强制对齐，并在静音时中断片段，我们将数据细分为较短的发音，从而将中值持续时间从14秒减少到5秒。与原始数据集一样，抄本中没有标点符号。扬声器组在训练，验证和测试组之间是完全脱节的

LibriSpeech干净语料库中的许多录音都包含明显的环境和固定背景噪音。我们使用简单的频谱减法[4]去噪程序对目标频谱图进行了预处理，其中话语的背景噪声频谱被估计为整个信号中每个频带能量的第10个百分位数。此过程仅用于合成目标。原始的嘈杂语音已传递到扬声器编码器。我们针对这两个语料库分别训练了单独的合成和声码器网络。在本节中，我们使用经过音素输入训练的综合网络，以便控制主观评估中的发音。对于音频非常干净的VCTK数据集，我们发现以地面真相梅尔谱图训练的声码器效果很好。但是，对于噪声较大的LibriSpeech，我们发现有必要在合成器网络预测的频谱图上训练声码器。对于声码器训练，没有对目标波形进行去噪。说话者编码器是在专有的语音搜索语料库上接受训练的，该语料库包含来自美国的18K英语说话者的3600万语音，中位持续时间为3.9秒。该数据集不会被转录，但是包含匿名的说话者身份。它从未用于训练综合网络。我们主要依靠基于主观听力测试的众包平均意见评分（MOS）评估。我们所有的MOS评估均与绝对类别等级量表[14]保持一致，等级分数从1到5，以0.5点为增量。我们使用此框架从两个维度评估合成语音：其自然性和与目标说话人真实语音的相似性

VCTK [21] contains 44 hours(估摸4.4w句) of clean speech from 109 speakers, the majority of which have British accents. We downsampled the audio to 24 kHz, trimmed leading and trailing silence (reducing the median duration from 3.3 seconds to 1.8 seconds), and split into three subsets: train, validation (containing the same speakers as the train set) and test (containing 11 speakers held out from the train and validation sets). [21] Christophe Veaux, Junichi Yamagishi, Kirsten MacDonald, et al. CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit, 2017
LibriSpeech [12] consists of the union of the two “clean” training sets, comprising 436 hours(估摸43w句) of speech from 1,172 speakers, sampled at 16 kHz. The majority of speech is US English, however since it is sourced from audio books, the tone and style of speech can differ significantly between utterances from the same speaker. We resegmented the data into shorter utterances by force aligning the audio to the transcript using an ASR model and breaking segments on silence, reducing the median duration from 14 to 5 seconds. As in the original dataset, there is no punctuation in transcripts. The speaker sets are completely disjoint among the train, validation, and test sets.
Many recordings in the LibriSpeech clean corpus contain noticeable environmental and stationary background noise. We preprocessed the target spectrogram using a simple spectral subtraction [4] denoising procedure, where the background noise spectrum of an utterance was estimated as the 10th percentile of the energy in each frequency band across the full signal. This process was only used on the synthesis target; the original noisy speech was passed to the speaker encoder.
声码器相关: We trained separate synthesis and vocoder networks for each of these two corpora. Throughout this section, we used synthesis networks trained on phoneme inputs, in order to control for pronunciation in subjective evaluations. For the VCTK dataset, whose audio is quite clean, we found that the vocoder trained on ground truth mel spectrograms worked well. However for LibriSpeech, which is noisier, we found it necessary to train the vocoder on spectrograms predicted by the synthesizer network. No denoising was performed on the target waveform for vocoder training.
Transferred speaker encoder: The speaker encoder was trained on a proprietary voice search corpus containing 36M(3600w句, 36000hours, 每人2小时) utterances with median duration of 3.9 seconds from 18K English speakers in the United States. This dataset is not transcribed, but contains anonymized speaker identities. It is never used to train synthesis networks.

3.1. Speech naturalness

我们使用在VCTK和LibriSpeech上训练的合成器和声码器比较了合成语音的自然性。我们构建了一个包含100个短语的评估集，这些短语在任何训练集中都没有出现，并且针对每种模型评估了两组说话者：一组由训练集中包含的说话者组成（Seen），另一组由那些被保留的说话者组成（看不见）。我们为VCTK使用了11个可见和不可见的说话者，为LibriSpeech使用了10个可见和不可见的说话者（附录D）。对于每个说话者，我们随机选择一个持续时间约为5秒的语音来计算说话者嵌入（请参见附录C）。每个说话者都合成了每个短语，每个评估总共约有1,000个合成话语。每个样本均由单个评估者评分，并且每个评估均独立进行：不同模型的输出未直接进行比较

For each speaker, we randomly chose one utterance with duration of about 5 seconds to use to compute the speaker embedding (see Appendix C).

为什么transfer embedding比lookup table of speaker embeddings的自然度MOS要始终低一点点?

自然度上, 确保没见过的声音自然度也很高, 那为什么我用英文测的还会有发音attention的错误???Most importantly, the audio generated by our model for unseen speakers is deemed to be at least as natural as that generated for seen speakers.

reference speech会被模仿, 但是是有时: In informal listening tests we found that the prosody of the synthesized speech sometimes mimics that of the reference, similar to [16].

This effect is larger on LibriSpeech, which contains more varied prosody.

结合这篇好好研究reference speech对Tacotron合成的影响: [16]Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron
[24]Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis

This suggests additional care must be taken

disentangle speaker identity from prosody within the synthesis network
perhaps by integrating(集成) a prosody encoder as in [16, 24]
or by training on randomly paired reference and target utterances from the same speaker

提出的模型取决于馈入扬声器编码器的参考语音信号。如图所示表9中，增加参考语音的长度显着提高了相似度，因为我们可以使用它来计算更精确的发言人嵌入。约5秒钟时，质量饱和VCTK。较短的参考话语会带来更好的自然度，因为它们更适合用于训练合成器的参考发声的持续时间，中值持续时间为1.8秒。所提出的模型仅使用2秒钟的参考音频即可达到接近最佳的性能。仅用5秒钟的语音就能达到性能饱和，这突出表明了所提出的局限性扬声器嵌入的小容量所限制。类似的缩放比例是在[2]中发现，在有限的情况下，采用单独嵌入扬声器的方法是有效的适应性数据，但是如果需要更多信息，则需要对整个模型进行微调以提高性能数据可用。在最近的工作中也证实了这种模式[5]

3.2. Speaker similarity

为了评估合成语音与目标说话者的匹配程度，我们将每个合成发音与同一说话者随机选择的地面真实发音配对。每个对由一位评估人按以下说明进行评估：“您不应判断句子的内容，语法或音频质量；相反，只需关注说话者彼此之间的相似性即可。”结果显示在表2中。VCTK模型的得分往往比LibriSpeech的得分高，这反映了数据集的简洁性质。在有关VCTK的更高的基础真实性基线上也很明显。对于在VCTK上看过的说话者，建议的模型的性能与基线差不多，后者使用嵌入查找表进行说话者调节。然而，在LibriSpeech上，所提出的模型获得的相似性MOS比基线低，这可能是由于扬声器内变化程度较大（附录B）以及数据集中的背景噪声水平。在看不见的说话者上，提出的模型在地面实况和合成语音之间获得了较低的相似性。在VCTK上，相似度得分为3.28，在评估等级上介于“中等相似”和“非常相似”之间。非正式地，很明显，所提出的模型能够为看不见的说话者传递说话者特征的宽广笔画，从而清楚地反映出正确的性别，音调和共振峰范围（如图2所示）。但是，看不见的说话人的相似性得分大大降低，这表明有些细微差别，例如与特色韵律有关的，都迷失了。扬声器编码器仅接受北美口音训练。结果，口音不匹配会限制我们在VCTK上说话人相似性的表现，因为评估者的说明中并未指定如何判断口音，因此如果口音不匹配，评估者可能会认为一对来自不同的说话者。确实，对评分者评论的检查表明，我们的模型有时会产生与实际情况不同的口音，从而导致得分较低。但是，一些评估者评论说，尽管口音有所不同，但声音的语调和变化却非常相似

“You should not judge the content, grammar, or audio quality of the sentences; instead, just focus on the similarity of the speakers to one another.”

对于见到过的: For seen speakers on VCTK, the proposed model performs about as well as the baseline which uses an embedding lookup table for speaker conditioning. However, on LibriSpeech, the proposed model obtained a lower similarity MOS than the baseline, which is likely due to the wider degree of within-speaker variation (Appendix B), and background noise level in the dataset.
但对于训练集内(in-domain)没见到过的说话人-1, 只有3分, it is clear that the proposed model is able to transfer the broad strokes of the speaker characteristics for unseen speakers, clearly reflecting the correct gender, pitch, and formant ranges (as also visualized in Figure 2)
但对于训练集内(in-domain)没见到过的说话人-2, But the significantly reduced similarity scores on unseen speakers suggests that some nuances, e.g. related to characteristic prosody, are lost.
但对于训练集内(in-domain)没见到过的说话人-3, 听起来音色也不像呀, 音色在定义中是如何定义的
但对于训练集内(in-domain)没见到过的说话人-4, 口音冲突. The speaker encoder is trained only on North American accented speech. As a result, accent mismatch constrains our performance on speaker similarity on VCTK since the rater instructions did not specify how to judge accents, so raters may consider a pair to be from different speakers if the accents do not match. Indeed, examination of rater comments shows that our model sometimes produced a different accent than the ground truth, which led to lower scores. However, a few raters commented that the tone and inflection of the voices sounded very similar despite differences in accent.
但对于训练集外(out-domain)没见到过的说话人-5, 100个说话人的librispeech效果好于vctk, 但是2.7vs1.8, 都很差

作为对推广到域外说话者能力的初步评估，我们使用了在VCTK和LibriSpeech上受过训练的合成器从其他数据集中合成说话者。我们只改变了合成器和声码器网络的训练系统。两种型号均使用相同的扬声器编码器。如表3所示，该模型能够产生与表1所示的看不见但域内说话者相同程度的自然语音。但是，LibriSpeech模型合成的VCTK说话者比VCTK的说话者相似度高得多该模型能够合成LibriSpeech扬声器。 LibriSpeech模型的更好的一般化表明仅在100个扬声器上训练合成器不足以实现高质量的扬声器传输

3.3. Speaker verification

作为针对看不见的说话人的合成和地面真实音频之间的说话人相似度的客观度量，我们评估了有限的说话人验证系统区分合成声音与真实语音的能力。我们使用与第2.1节相同的网络拓扑训练了一个新的仅评估扬声器的编码器，但是使用了与113K扬声器不同的28M语音训练集。使用不同的模型进行评估可确保指标不仅在特定的发言人嵌入空间上有效。我们注册了21位真实讲话者的声音：来自VCTK的11位讲话者和来自LibriSpeech的10位讲话者，并根据注册的讲话者集对合成波形进行评分。在合成器培训期间，所有注册和验证发言人均未见过。通过将每个测试发音与每个注册演讲者配对，可以估算出演讲者验证相等错误率（SV-EER）。我们为每个说话者合成了100个测试发音，因此每个评估进行了21,000或23,100次测试。如表4所示，只要在足够大的一组扬声器上（即在LibriSpeech上）训练合成器，合成语音通常与地面真实语音最相似。 LibriSpeech合成器使用参考说话者从两个数据集中获得的EER为5-6％，而经过VCTK训练的人的效果要差得多，尤其是对于域外LibriSpeech说话者。这些结果与表3中的主观评估相一致。为了衡量区分同一位发言者的真实语音和合成语音的难度，我们对注册演讲者进行了扩展评估，其中包括10个真实LibriSpeech演讲者的10个合成版本。。在这20个语音歧视任务中，我们获得的EER为2.86％，这表明，尽管合成语音倾向于接近目标说话者（余弦相似度> 0.6，如表4所示），但几乎总是接近其他说话者。同一说话人的合成话语（相似度> 0.7）。由此可以得出结论，建议的模型可以生成类似于目标说话人的语音，但效果不佳，无法与真实说话人混淆

We trained a new eval-only speaker encoder with the same network topology as Section 2.1, but using a different training set of 28M(0.24hours一个人) utterances from 113K speakers. Using a different model for evaluation ensured that metrics were not only valid on a specific speaker embedding space.

具体测试方法不太懂, 但是: These results are consistent with the subjective evaluation in Table 3. 后面的真假区分实验也没关注

之后的还没关注实验, 先回头看看github代码如何训出来的-已经更新到了

blog.csdn.net/u013625492/article/details/109738381

3.4. Speaker embedding space

可视化说话者嵌入空间会进一步关联第3.2和3.3节中描述的定量结果。如图3所示，不同的扬声器在扬声器嵌入空间中彼此分离。 PCA可视化效果（左）显示，合成语音在嵌入空间中倾向于非常接近同一说话者的真实语音。但是，如t-SNE可视化图（右图）所示，合成话语仍然很容易与真实的人类语音区分开，其中每个合成说话者的话语形成一个独特的簇，与来自相应说话者的真实话语簇相邻

在PCA和t-SNE可视化图中，说话者似乎按性别很好地分开，所有女性说话者都出现在左侧，而所有男性说话者都出现在右侧。这表明扬声器编码器已经学会了扬声器空间的合理表示

3.5. Number of speaker encoder training speakers

所提出的模型在各种扬声器中很好地概括的能力很可能基于扬声器编码器学习到的表示质量。因此，我们探讨了扬声器编码器训练集对合成质量的影响。我们使用了三个额外的训练集：（1）LibriSpeech Other，其中包含来自1,166位演讲者的461个小时的演讲，这些演讲者与干净的子集中的人不相交，（2）VoxCeleb [11]和（3）VoxCeleb2 [6 ]，分别包含来自1,211个扬声器的139K语音和来自5,994个扬声器的109M语音。表5比较了所提出模型的性能与用于训练扬声器编码器的扬声器数量的关系。这在训练扬声器编码器时衡量了扬声器多样性的重要性。为了避免过度拟合，在小型数据集（前两行）上训练的扬声器编码器使用较小的网络体系结构（256维LSTM单元，具有64维投影），并输出64维扬声器嵌入。我们首先评估经过LibriSpeech Clean和Other训练的扬声器编码器，每组包含相似数量的扬声器。在Clean中，扬声器编码器和合成器是在相同的数据上训练的，其基线类似于[2]中的非微调扬声器编码器，只是在[10]中进行了判别训练。这种匹配的条件具有更好的自然度和相似度。随着培训演说者人数的增加，自然性和相似性都会大大提高。客观的EER结果也随着主观评估而提高

这些结果对多说话者TTS训练具有重要意义。扬声器编码器的数据要求比完整的TTS培训要便宜得多,(不仅是这样, 跨语言的句子转录不出来跨语言的文本)，因为不需要成绩单，并且音频质量可能会比TTS培训低。我们已经表明，通过组合在大量未转录数据上训练的扬声器编码器网络与在较小一组高质量数据上训练的TTS网络，可以合成非常自然的TTS

3.6. Fictitious speakers 虚拟演讲者

绕过扬声器编码器网络并在扬声器嵌入空间中的随机点上调节合成器，会导致来自虚拟扬声器的语音，而虚拟扬声器则不在合成器或扬声器编码器的序列或测试集中。这在表6中得到了证明，该表将10个这样的扬声器（从单位超球面的均匀采样点生成）与组件网络训练集中的最接近的扬声器进行了比较。 SV-EER在注册10个最近邻居的语音后，使用与第3.3节相同的设置计算。即使这些扬声器是完全虚构的，合成器和声码器也能够生成与看到或未看到的真实扬声器一样自然的音频。与最近邻训练话音的余弦相似度低且EER很高，表明它们确实与训练说话者不同

4. Conclusion

如果合成器训练集中有足够的说话者多样性，则可以通过增加说话者编码器训练数据的数量来显着提高说话者转移质量

转移学习对于实现这些结果至关重要。通过将扬声器编码器和合成器的训练分开，该系统大大降低了对多扬声器TTS训练数据的要求。它既不需要合成器训练数据的说话者身份标签，也不需要说话者编码器训练数据的高质量纯净语音或转录本。另外，与[10]相比，独立地训练组件可以显着简化合成器网络的训练配置，因为它不需要额外的三元组或对比损失

使用低维向量对说话人变化进行建模会限制利用大量参考语音的能力。给定几秒钟的参考语音，要提高说话者的相似性，就需要像[2]中以及最近在[5]中那样的模型自适应方法

最后，我们证明了该模型能够从与训练集不同的虚拟说话者生成逼真的语音，这意味着该模型已学会利用说话者变化空间的逼真的表示

另一个限制是该模型无法传递口音。给定足够的训练数据，可以通过将合成器置于独立的扬声器和重音嵌入条件下来解决。最后，我们注意到该模型也无法将说话者的声音与参考音频的韵律完全隔离开，这与[16]中观察到的趋势类似. 但是这两点正是跨语言合成需要的!!!

Appendix A. Additional joint training baselines

尽管如3.5节所述，如果在较大的未转录语音语料库上对扬声器编码器进行训练，则有必要对扬声器编码器和合成器网络进行单独的训练，但在本节中，我们将评估扬声器编码器和合成器网络的联合有效性如下：基线，类似于[10]。我们在LibriSpeech的Clean子集上进行训练，该子集包含1.2K扬声器，并在3.5节之后使用64英寸的扬声器嵌入尺寸。我们比较了两种基线联合训练系统：一种类似于[16]的扬声器编码器的输出不受任何限制，另一种是通过将64维扬声器嵌入线性投影以形成为softmax扬声器分类器进行logit，优化相应的交叉熵损失。表7中显示了自然性和说话人相似性MOS结果，将这些共同训练的基准与上一节中报告的结果进行了比较。我们发现，两个共同训练的模型在Seen扬声器上都获得相似的自然MOS，而包含判别性扬声器损耗的变体在Unseen扬声器上表现更好。就看不见的扬声器的自然性和相似性而言，包含扬声器损耗的模型的性能几乎与表5的基线相同，该性能使用了经过单独训练的扬声器编码器，该编码器也进行了优化以区分扬声器。最后，我们注意到，提出的模型使用了经过18K说话者语料库单独训练的说话者编码器，大大优于所有基线，再次强调了迁移学习在此任务上的有效性

Appendix B. Speaker variation 说话者变化

LibriSpeech语音的语调和风格即使在同一扬声器下也各不相同。在一些示例中，说话者甚至试图模仿不同性别的声音。结果，比较来自同一说话者的不同话语之间的说话者相似度（即，自相似度）有时可能相对较低，并且每个说话者之间的差异都很大。由于LibriSpeech录音中的噪音水平，一些扬声器的自然评分较低。每个扬声器的情况再次明显不同。可以在表8中看到。相反，VCTK在自然性和自相似性方面更加一致。表4显示了合成音频上不同扬声器之间自然MOS的差异。它比较了不同说话者的MOS的地面真实性和在VCTK上的综合，表明我们在VCTK上提出的模型的性能也非常取决于说话者。例如，说话者“ p240”的MOS为4.48，非常接近基本事实的MOS（4.57），但说话者“ p260”却比基本事实的MOS高0.5分

C, D附录在前面

Appendix E. Fictitious speakers 虚拟演讲者

Appendix F. Speaker similarity MOS evaluation interface

你可能感兴趣的:(研三-语音合成论文,机器学习)

机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
JavaScript 性能优化实战：优化循环结构提升效率 deying0865423 javascript 开发语言
目录一、理解循环的性能损耗二、减少循环迭代次数（一）缓存数组长度（二）提前终止循环三、优化循环内部操作（一）避免在循环内执行复杂计算（二）减少DOM操作四、选择合适的循环类型（一）for循环与while循环的选择（二）for...in与for...of的使用场景在JavaScript编程中，循环结构是实现重复执行任务的基础工具。然而，不当的循环使用常常会导致性能瓶颈，特别是在处理大量数据时，循环的
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
员工管理(3)-删除员工-修改员工-全局异常处理器-员工信息统计汐栊 java 数据库开发语言
目录员工管理:删除员工：Controller层：Service层：Mapper接口：接受参数的两种方式：修改员工：查询回显：Controller层：Service层：Mapper接口：修改数据：Controller层：Service层：Mapper接口：程序优化：员工信息统计：职位统计开发Controller层：Service层：Mapper接口：性别统计：员工管理:删除员工：明确三层架构职责：C
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
HTML--表格 MK-mm html 前端
HTML表格一，语法表格的标签为,行的标签为,表项的标签为，可以用表示列或行的第一个单元格。格式为：标题表头1表头2...表头n表头表项1......表项n-1...快捷键：table>tr*个数>td*个数二，属性补充：设置表格背景图像，可用bgcolor或background属性，在标签内设置。三，不规则表格使用colspan和rowspan属性建立-跨行：单元格垂直方向合并，语法为单元格内容
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
计算机基础：源码、反码、补码、位运算。盘点源码常见的位运算操作，祝您源码阅读更上一层楼。 pumpkin的玄学 my 二进制 java kotlin 计算机基础二进制
源码、反码、补码计算机中对数字的编码表示有三种方式：「原码」，「反码」，「补码」：「原码」：原码表示法在数值前面增加了一位符号位（即最高位为符号位）：正数该位为0，负数该位为1。比如十进制10如果用8个二进制位来表示就是00001010，-10就是10001010。「反码」：反码表示方法：正数的反码是其本身；负数的反码是在其原码的基础上，符号位不变，其余各个位取反。「补码」：补码表示方法：正数的补
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
三维点云重建的原理及代码晚风微凉～ matlab 图像处理
点云重建是将来自各种传感器（如激光雷达、相机等）采集的离散点云数据转换为具有结构和几何形状的物体模型的过程。在这个过程中，算法的核心任务是从大量的离散点中提取出具有几何意义的特征，并将这些特征组合成相应的物体模型。在实际应用中，无法获得物体所有表面的三维坐标数据，因此点云重建算法必须处理部分点云数据，尽可能准确地还原物体的几何结构。点云重建的目标是通过对描述物体表面形状的点数据进行处理，根据它们的
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
Transposed convolution（2016 IEEE）刘若里论文阅读人工智能计算机视觉学习网络笔记
论文标题FullyConvolutionalNetworksforSemanticSegmentation论文作者EvanShelhamer,JonathanLong,TrevorDarrell发表日期2016年05月01日GB引用>ShelhamerEvan,LongJonathan,DarrellTrevor.FullyConvolutionalNetworksforSemanticSegme
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
【论文复现】——基于SIFT特征点结合ICP的点云配准方法点云侠点云配准专题开发语言计算机视觉算法 3d c++
目录一、论文概述二、代码实现三、结果展示1、初始位置2、配准结果四、实验心得一、论文概述在点云配准过程中，针对迭代最近点(ICP)算法对点云初始位置依赖性强且迭代速度慢的问题，提出一种基于尺度不变特征变换(SIFT)特征点结合ICP的点云配准方法。首先利用SIFT算法提取待配准点云和目标点云的特征点;接着计算出特征点的快速点特征直方图(FPFH)特征;然后依据该特征使用采样一致性初始配准(SA
RK3588开发笔记-DDR4降频实战与系统稳定性优化 flypig哗啦啦 RK3588 DDR
目录前言一、DDR变频原理与工具准备1.1DDR变频机制1.2工具链配置二、DDR降频操作步骤2.1找到RK3588DDR默认bin文件2.2修改DDRbin文件频率三、进阶优化与调试3.1温控策略调整3.2电源设计优化四、常见问题与解决方案总结前言RK3588作为瑞芯微旗舰级SoC，其DDR4/LPDDR4X内存接口最高支持2112MHz频率，但在实际开发中，高频可能导致系统不稳定或功耗过高。例
鸿蒙5开发：Ark-TS UI 动效设计指南：让你的应用界面 “活” 起来 harmonyos-next
在鸿蒙5应用开发中，Ark-TSUI不仅能让你快速构建漂亮的界面，还提供了丰富的动效功能，让界面交互更加流畅和有趣。今天咱们聊聊Ark-TSUI的动效设计，看看如何用几行代码实现按钮点击动画、页面过渡效果等，让你的应用“眼前一亮”。一、Ark-TSUI动效的核心玩法：简单又强大Ark-TSUI的动效设计基于Animator类和内置的过渡效果，无需复杂的第三方库，就能实现多种动画效果。比如：按钮点击
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
通过SSH隧道与跳板机实现本地端口映射访问服务器文件 t.y.Tang ssh 服务器运维
文章目录场景需求一、服务器端配置1.启动HTTP文件服务2.配置防火墙3.验证服务状态二、SSH隧道建立1.直接连接场景2.通过跳板机连接三、Windows端配置1.使用PowerShell建立隧道2.保持隧道稳定四、浏览器验证五、高阶配置建议1.生产环境增强2.SSH安全加固故障排查指南原理解析场景需求在Windows浏览器访问127.0.0.1:12138自动显示服务器指定路径下的文件列表通过
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
项目解决方案：博物馆视频监控系统建设解决方案威迪斯特解决方案博物馆视频联网资源汇聚监控软件音视频客户端
目录一.相关项目背景1.1技术革新背景1.2技术提升背景1.3发展趋势背景1.4合规性要求背景二.与客户确认的需求2.1实时远程监控与高清识别2.2权限管理灵活且安全2.3多平台访问，随时随地监控2.4视频汇聚，集中管理三.实现特点3.1智能预警，守护安全3.2全面支持，无忧运营3.3成本控制，效益最大化3.4拓展集成，信息联动四.必实现的建设目标4.1安全可靠4.2贴合需要4.3易于拓展4.4性
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，