FallenDarkStar

【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》

《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》论文学习

文章目录

《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》论文学习
- 摘要
- 1 介绍
- 2 多说话人语音合成模型
- - 2.1 说话人编码器
  - 2.2 合成器
  - 2.3 神经声码器
  - 2.4 推理和零样本的说话者适应
- 3 实验部分
- - 3.1 语音自然度
  - 3.2 说话人相似度
  - 3.3 说话人验证
  - 3.4 说话人嵌入空间
  - 3.5 训练说话人编码器的数量
  - 3.6 虚构的说话人
- 4 结论

摘要

我们描述了一种基于神经网络的文本到语音(TTS)合成系统，该系统能够在不同的说话人的声音中生成语音音频，包括那些在训练期间未见过的说话人。我们的系统由三个独立训练的组件组成：（1）一个说话人编码器网络，在一个说话人验证任务中使用一个独立的数据集，该数据集包含不含数千个说话人的文本的嘈杂语音，从目标说话人的仅几秒参考语音生成一个固定维的嵌入向量；（2）基于Tacotron 2的序列到序列合成网络，以说话人嵌入为条件，从文本生成语音谱图；（3）一种基于自回归WaveNet网络的声码器网络，可将mel谱图转换为时域波形样本。
我们证明，该模型能够将经过鉴别训练的说话人编码器学习到的说话人变异性知识转移到多说话人的TTS任务中，并能够从训练中未见过的说话人合成自然语音。为了获得最佳的泛化性能，我们量化了在一个大而多样的说话人集合上训练说话人编码器的重要性。最后，我们证明了随机采样的说话人嵌入可以在不同于训练中使用的说话人的声音中合成语音，表明该模型学习了高质量的说话人表示。

1 介绍

本工作的目标是建立一个能够以数据高效的方式为各种说话人生成自然语音的TTS系统。我们专门解决了零样本学习设置，其中几秒钟的未转录参考音频从目标发言人的声音合成新的语音，而不更新任何模型参数。这类系统具有可访问性应用程序，例如恢复与失去声音因而无法提供许多新的训练示例的用户自然交流的能力。
它们还可以支持新的应用程序，如跨语言传输语音以实现更自然的语音对语音翻译，或在低资源设置下从文本生成真实的语音。然而，同样重要的是要注意到这种技术可能被滥用，例如未经他人同意就模仿他人的声音。为了解决与(《Artificial Intelligence at Google – Our Principles》)等原则一致的安全问题，我们验证了所提出的模型生成的声音可以很容易地与真实的声音区分开来。

合成自然语音需要对大量高质量的语音文本对进行训练，支持多个说话人通常使用每个说话人(《Deep Voice 2: Multi-speaker neural text-to-speech》)几十分钟的训练数据。为许多说话人记录大量高质量数据是不切实际的。我们的方法是将说话人建模与语音合成分离，方法是独立训练一个说话人识别的嵌入网络，该网络捕获说话人特征的空间，并以第一个网络学习的表示为条件，在更小的数据集上训练高质量的TTS模型。
解耦网络使它们能够在独立的数据上进行训练，从而减少了获得高质量多说话人训练数据的需要。我们在一个说话人验证任务中训练说话人嵌入网络，以确定两个不同的话语是否出自同一说话人之口。与后续的TTS模型不同的是，该网络是针对包含大量混响和背景噪声的未转录语音进行训练的。

我们证明了说话人编码器和合成网络可以在不平衡和不相交的说话人集合上训练，并且仍然具有很好的泛化性。我们在1.2K说话人数据集上训练合成网络，结果表明，在更大的18K说话人数据集上训练编码器可以提高自适应质量，并进一步使从嵌入之前的采样合成完全新颖的说话人成为可能。

人们对TTS模型的端到端训练非常感兴趣，该模型直接从文本-音频对中进行训练，而不依赖于手工制作的中间表示(《Char2Wav: End-to-end speech synthesis》，《Tacotron: Towards end-to-end speech synthesis》)。Tacotron 2(《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》)使用WaveNet(《WaveNet: A generative model for raw audio》)作为声码器，将关注(《Neural machine translation by jointly learning to align and translate》)的编解码器结构生成的谱图进行反相，将Tacotron(《Tacotron: Towards end-to-end speech synthesis》)韵律与WaveNet的音质相结合，获得接近人类语言的自然感。它只支持一个说话人。

Gibiansky等人(《Deep Voice 2: Multi-speaker neural text-to-speech》)引入了Tacotron的多说话人变体，为每个训练说话人学习了低维说话人嵌入。Deep Voice 3(《Deep Voice 3: 2000-speaker neural text-to-speech》)提出了一个完全卷积的编码器-解码器架构，扩大到支持超过2400个来自LibriSpeech(《LibriSpeech: an ASR corpus based on public domain audio books》)的说话人。

这些系统学习一组固定的说话者嵌入，因此只支持在训练中看到的声音的合成。相比之下，VoiceLoop(《VoiceLoop: Voice fitting and synthesis via a phonological loop》)提出了一种基于固定大小的内存缓冲区的新体系结构，可以从训练过程未见过的声音中生成语音。要想取得好成绩，新说话人需要数十分钟的源语音和语音转录。

最近的扩展已经启动了少样本说话人适应，每个说话人(没有文本)只有几秒钟的讲话，就可以用来生成新的讲话在该说话人的声音。(《Neural voice cloning with a few samples》)扩展了Deep Voice 3，将类似VoiceLoop的说话人自适应方法与使用神经网络直接从声谱图预测说话人嵌入的说话人编码方法进行了比较。VoiceLoop的模型参数(包括说话人嵌入)是根据少量自适应数据进行微调的。后一种方法显著提高了数据效率，使用少量的自适应数据获得更高的自然度，仅在一两个话语中。它的计算效率也显著提高，因为它不需要数百次反向传播迭代。

Nachmani等人(《Fitting new speakers based on a short untranscribed sample》)类似地扩展了VoiceLoop，利用目标说话人编码网络来预测说话人嵌入。该网络与使用对比三联体损耗的合成网络联合训练，以确保从同一说话人的话语中预测的嵌入比从不同说话人的话语中计算的嵌入更接近。此外，为了保证合成语音编码与自适应语音具有相似的嵌入特征，还采用了周期一致性损失算法。

一个类似的谱图编码器网络，在没有三连音损失的情况下训练，被证明可以将目标韵律转移到合成语音(《Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron》)。在这篇文章中，我们证明了训练一个类似的编码器来区分说话人会导致可靠的说话人特征转移。
我们的工作与(《Neural voice cloning with a few samples》，《Fitting new speakers based on a short untranscribed sample》)中的说话人编码模型最相似，除了我们使用了一个独立训练的网络，用于在来自数万个说话人的未转录音频的大数据集上进行说话人验证任务，使用的是最先进的通用端到端损失(《Generalized end-to-end loss for speaker verification》)。(《Fitting new speakers based on a short untranscribed sample》)在他们的模型中加入了一个类似的说话者区别表示，然而所有的成分是联合训练的。相比之下，我们探索了从一个预先训练的说话者验证模型迁移学习。

Doddipatla等人(《Speaker adaptation in dnnbased speech synthesis using d-vectors》)使用了类似的迁移学习配置，其中从预先训练的说话者分类器计算出的说话者嵌入被用来调节TTS系统。在本文中，我们利用了一个不依赖中间语言特征的端到端合成网络和一个本质上不同的说话人嵌入网络，它不局限于一个封闭的说话人集合。此外，我们分析了训练集中扬声器的数量对质量的影响，发现零样本传输需要训练数千个扬声器，比(《Speaker adaptation in dnnbased speech synthesis using d-vectors》)中使用的多得多。

2 多说话人语音合成模型

我们的系统由三个独立训练的神经网络组成，如图1所示：
   （1）基于(《Generalized end-to-end loss for speaker verification》)的循环说话人编码器，该编码器从语音信号中计算出固定维向量；
   （2）基于(《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》)的序列对序列合成器，以说话人嵌入向量为条件，从字母或音素输入序列预测MEL谱图；
   （3）自回归WaveNet(《WaveNet: A generative model for raw audio》)声码器，它可以将声谱图转换为时域波形。

2.1 说话人编码器

说话人编码器用于将合成网络置于来自目标说话人的参考语音信号上。对于良好的泛化来说，关键是使用一种能够捕捉不同说话人特征的表征，以及仅使用一个较短的适应信号来识别这些特征的能力，而不依赖于语音内容和背景噪声。在文本无关的说话人验证任务上训练的说话人识别模型可以满足这些要求。

我们遵循(《Generalized end-to-end loss for speaker verification》)，它提出了一个高度可扩展和精确的神经网络框架用于说话人验证。该网络将从任意长度的语音计算得到的log-mel谱图帧序列映射到固定维的嵌入向量，称为d-vector(《Deep neural networks for small footprint text-dependent speaker verification》，《End-to-end text-dependent speaker verification》)。该网络经过训练以优化广义端到端说话人验证损失，使来自同一说话人的话语嵌入具有较高的余弦相似度，而来自不同说话人的话语嵌入空间相差很远。训练数据集由被分割为1.6秒的语音音频示例和相关的说话人标识标签组成；不使用文字记录。

输入40通道log-mel谱图被传递到一个网络，该网络由3个LSTM层组成，共768个单元，每个单元后面都有一个256维的投影。最终的嵌入是通过在最终帧对顶层的输出进行L2-normalizing来创建的。在推理过程中，任意长度的话语被分割成800ms的窗口，重叠50%。该网络在每个窗口上独立运行，并对输出进行平均和归一化，形成最终的话语嵌入。

尽管该网络没有直接优化以学习捕捉与合成相关的说话人特征的表示，但我们发现，在说话人识别任务上的训练导致了一个直接适合于将合成网络条件反射到说话人身份的嵌入。

2.2 合成器

我们扩展了Tacotron 2架构(《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》)的重复序列到序列，以支持多个扬声器遵循类似(《Deep Voice 2: Multi-speaker neural text-to-speech》)的方案。目标扬声器的嵌入向量在每个时间步长与合成器编码器输出相连接。与(《Deep Voice 2: Multi-speaker neural text-to-speech》)相比，我们发现，简单地将嵌入信息传递到注意层(如图1所示)，会在不同的说话者之间汇聚。

我们比较了该模型的两种变体，一种是使用说话人编码器计算嵌入，另一种是基线，该基线为训练集中的每个说话人优化固定嵌入，本质上学习了一个类似于(《Deep Voice 2: Multi-speaker neural text-to-speech》，《Deep Voice 3: 2000-speaker neural text-to-speech》)的说话人嵌入查找表。

合成器是训练对文本文本和目标音频。在输入时，我们将文本映射到一个音素序列，这可以加快收敛速度，改善生僻词和专有名词的发音。网络在迁移学习配置中进行训练，使用预先训练的说话人编码器(其参数被冻结)从目标音频中提取一个说话人嵌入，即训练时说话人参考信号与目标语音相同。训练期间没有使用明确的说话人标识标签。

目标谱图特征由12.5ms步长计算的50ms窗口计算出来，通过80通道梅尔尺度滤波器组，然后进行日志动态范围压缩。我们通过在预测谱图上增加L2损耗和L1损耗来扩展《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》。在实践中，我们发现这种综合损失对噪声训练数据更有鲁棒性。与《Fitting new speakers based on a short untranscribed sample》相比，我们没有引入基于扬声器嵌入的额外损耗项。

2.3 神经声码器

我们使用逐样自回归WaveNet作为声码器，将合成网络发出的合成的mel谱图转换为时域波形。其结构与Tacotron中描述的相同，由30个扩张卷积层组成。网络并不直接取决于说话人编码器的输出。由合成器网络预测的mel谱图捕获了各种声音的高质量合成所需的所有相关细节，允许多说话人声码器通过简单地训练来自多个说话人的数据来构建。

2.4 推理和零样本的说话者适应

在推理过程中，模型条件使用任意未转录的语音音频，不需要匹配要合成的文本。由于用于合成的说话人特征是从音频中推断出来的，因此它可以以训练集之外的说话人的音频为条件。在实践中，我们发现使用一个几秒长的音频片段就足以合成具有相应说话人特征的新语音，代表了对新说话人的零样本适应。在第3节中，我们评估了这个过程对之前未见过的演讲者的推广效果。

图2显示了推理过程的一个示例，其中显示了使用几个不同的5秒说话人参考话语合成的谱图。合成的男性(上)说话人声谱图与女性(中、下)说话人声谱图相比，基频明显较低，在低频较密集的谐波间隔(水平条纹)和共振峰中可见，在元音中出现的中频峰值可见，比如在0.3秒时的i，最顶端的男性F2在mel通道35，而中间说话者的F2似乎更接近通道40。
类似的差异在咝咝声中也可见，例如，0.4秒的s在男性声音中比在女性声音中含有更多的能量，频率更低。最后，说话人嵌入也在一定程度上捕获了特征说话率，从下面一行的信号持续时间比上面两行长可以看出。右边一栏对应的参考语音的声谱图也可以做类似的观察。

3 实验部分

我们使用两个公共数据集来训练语音合成和声码器网络。VCTK(《CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit》)包含了来自109位演讲说话人的44个小时的清晰语音，其中大多数人都有英国口音。我们将音频采样到24kHz，调整了开头和结尾的静音(将中间持续时间从3.3秒减少到1.8秒)，并将其分成三个子集：训练、验证(包含与训练集相同的说话人)和测试(包含从训练和验证集中取出的11个说话人)。

LibriSpeech(《LibriSpeech: an ASR corpus based on public domain audio books》)由两个干净训练集的联合组成，包含来自1172个说话人的436小时的讲话，采样频率为16khz。大部分的口语都是美式英语，但是由于它来源于有声读物，同一个人说话的语气和风格会有很大的不同。我们将数据重新分割为较短的话语，通过使用ASR模型将音频与文本对齐，并在沉默中分割片段，将中值持续时间从14秒减少到5秒。与原始数据集一样，文本中没有标点符号。说话人数据集在训练、验证和测试集之间是完全不相交的。

LibrisSpeech干净语料库中的许多录音都含有明显的环境噪声和静止的背景噪声。我们使用简单的谱减法(《Suppression of acoustic noise in speech using spectral subtraction》)去噪程序对目标谱图进行预处理，其中语音的背景噪声谱估计为整个信号中每个频带能量的第十百分位。此工艺仅用于合成目标物；原始的噪声语音被传递给说话人编码器。

我们为这两个语料库分别训练了合成和声码网络。在本节中，我们使用经过音素输入训练的合成网络，以控制主观评价中的发音。对于音频相当清晰的VCTK数据集，我们发现在ground truth mel谱图上训练的声码器效果良好。但是对于噪声较大的LibriSpeech，我们发现有必要在合成网络预测的谱图上训练声码器。对声码器训练的目标波形不进行去噪处理。

说话人编码器是在一个专有的语音搜索语料库上训练的，该语料库包含36M个来自美国18K讲英语的人的话语，平均持续时间为3.9秒。此数据集未转录，但包含匿名发言者身份。它从未被用于训练合成网络。

我们主要依赖于基于主观听力测试的众包平均意见评分(MOS)评估。我们所有的MOS评估都符合绝对类别评级量表(《Methods for subjective determination of transmission quality》)，评级分数从1到5，以0.5分的增量。我们使用这个框架从两个维度来评估合成语音：它的自然度和与目标说话人真实语音的相似度。

3.1 语音自然度

我们比较了使用VCTK和LibriSpeech训练的合成器和声码器合成语音的自然度。我们构建了一个由100个没有出现在任何训练集中的短语组成的评价集，并为每个模型评估了两组说话人：一组由包含在训练集中的说话人组成(Seen)，另一组由那些被扣留的说话人组成(Unseen)。我们在VCTK中使用了11个出现过和未出现过的说话人，在LibriSpeech中使用了10个可见和不可见的说话人。对于每个说话人，我们随机选择一个持续时间约为5秒的话语来计算说话人嵌入。每次评估总共有大约1000个合成话语。每个样本由一个评分者进行评分，并且每个评价都是独立进行的：不同模型的输出不直接进行比较。

结果如表1所示，将提出的模型与使用类似于(《Deep Voice 2: Multi-speaker neural text-to-speech》，《Deep Voice 3: 2000-speaker neural text-to-speech》)的说话人嵌入查找表的基线多说话人模型进行比较，但其他方面与提出的合成器网络具有相同的架构。提出的模型在所有数据集上获得了约4.0的MOS，其中VCTK模型获得的MOS比LibriSpeech模型高出0.2个点。这是LibriSpeech数据集的两个缺点造成的结果：（1）文本中缺少标点符号，这使得模型很难学会自然地停顿；（2）与VCTK相比，背景噪声水平更高，尽管对上述训练目标去噪，但合成器已经学会再现其中的一些噪声。

最重要的是，我们的模型为未见过的说话人生成的音频与为见过的说话人生成的音频几乎一样自然。令人惊讶的是，在LibriSpeech上看不见的演讲者的MOS比看到的演讲者的MOS高0.2个百分点。这是每个说话人随机选择指称话语的结果，指称话语有时包含不均匀和非中性的韵律。在非正式的听力测试中，我们发现合成语音的韵律有时与参考语音的韵律相似，类似于(《Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron》)。这种影响在LibriSpeech上更大，因为它包含更多的韵律。这表明必须采取额外的注意，在合成网络中从韵律中分离说话人的身份，也许可以像(《Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron》，《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》)那样集成一个韵律编码器，或者通过训练来自同一说话人的随机配对参考和目标话语。

3.2 说话人相似度

为了评估合成语音与目标说话者的匹配程度，我们将每个合成语音与来自同一说话者的随机选择的ground truth语音进行配对。此处不应该判断句子的内容、语法或音频质量；相反，只关注说话者之间的相似之处。

结果如表2所示。VCTK模型的得分往往高于LibriSpeech，这反映了数据集的清洁性质。这在VCTK上更高的地面真实基线中也很明显。对于在VCTK上看到的说话人，所提出的模型的性能与使用嵌入查找表进行说话人条件设置的基线差不多。然而，在LibriSpeech上，所提出的模型获得了比基线更低的相似度MOS，这可能是由于说话人内部变化的更大程度，以及数据集中的背景噪声水平。

在未见过的说话人的情况下，该模型获得了较低的ground truth与合成语音的相似度。在VCTK上，相似度得分为3.28，在评价量表上介于中度相似和非常相似之间。不正式地说，该模型很明显能够转换未见过的说话人概括性的说话特征，清楚地反映出正确的性别，音高，和共振峰范围(如图2)。但在未见过的说话人身上，相似度评分显著降低，这表明一些细微差别，比如与特色韵律相关的差别，已经消失了。

说话人编码器只接受北美口音的训练。因此，口音不匹配限制了我们在VCTK上对说话人相似度的表现，因为评分者指令没有指定如何判断口音，所以如果口音不匹配，评分者可能会认为一对来自不同的说话人。事实上，对评分者评论的检查表明，我们的模型有时会产生与基本事实不同的口音，从而导致较低的分数。然而，一些评价者评论说，尽管口音不同，但音调和音调的变化听起来非常相似。

我们使用VCTK和LibriSpeech训练过的合成器从其他数据集合成说话人，作为对域外说话人的能力的初步评估。我们只改变了合成器和声码器网络的序列集；两种型号都使用了相同的说说话人编码器。如表3所示，该模型能够生成与表1中未见但在域内的说话人相同的自然程度的语音。
然而，LibriSpeech模型合成的VCTK说话人具有明显更高的说话人相似度，而VCTK模型能够合成LibriSpeech说话人。LibriSpeech模型的较好泛化表明，仅在100个说话人上训练合成器不足以实现高质量的说话人转换。

3.3 说话人验证

我们评估了一个有限的说话人验证系统区分合成语音和真实语音的能力，作为一个客观度量合成语音和真实语音之间的相似度的度量。我们训练了一个新的只用评估的说话人编码器，其网络拓扑与第2.1节相同，但使用了来自113K说话人的28M话语的不同训练集。使用不同的评估模型确保指标不仅在特定的说话人嵌入空间有效。
我们记录了21个真实的说话人的声音：11个来自VCTK，10个来自LibriSpeech，并根据记录的说话人集合成波形。在合成器训练期间，看不到所有记录和验证的说话人。通过将每个测试话语与每个记录的说话人配对，估计说话人验证的等错误率。我们为每个说话人合成了100个测试话语，因此每一个评价都进行了21000或23100次试验。

如表4所示，只要将合成器训练在足够大的说话人集上，即在LibriSpeech上，合成的语音通常与ground truth声音最相似。使用两个数据集的参考说话人，LibriSpeech合成器获得相似的5-6%的EER，而在VCTK上训练的结果更差，特别是在域外的LibriSpeech扬声器上。这些结果与表3中的主观评价一致。

为了衡量区分同一个说话人的真实语音和合成语音的难度，我们对一组选用的说话人进行了额外的评估，其中包括10个真实LibriSpeech演讲者的合成版本。在这20个语音识别任务中，我们得到了2.86% 的EER，表明合成语音倾向于接近目标说话人(余弦相似度>0.6，并且如表4所示)，它几乎总是更接近于同一说话人的其他合成话语(相似度>0.7)。由此，我们可以得出结论，提出的模型可以生成类似于目标说话人的语音，但不够好到能与真正的说话人混淆。

3.4 说话人嵌入空间

将说话人嵌入空间可视化，进一步将3.2节和3.3节中描述的量化结果语境化。如图3所示，不同的说话人在说话人嵌入空间中被很好地分离。主成分分析可视化(左)显示，在嵌入空间中，合成的话语往往与来自同一说话人的真实话语非常接近。然而，合成话语仍然很容易与真实的人类话语区分开来，正如t-SNE可视化(右图)所示，每个合成说话人的话语形成一个不同的簇，与对应说话人的真实话语簇相邻。

在主成分分析(PCA)和t-SNE可视化中，说话者似乎很好地按性别分开，所有女性说话者出现在左边，所有男性说话者出现在右边。这表明说话人编码器已经学会了说话人空间的合理表示。

3.5 训练说话人编码器的数量

很可能，所提出的模型能够很好地概括各种各样的发言者是基于发言者编码器学习的表示质量。因此，我们探讨了说话人编码器训练集对合成质量的影响。我们用了三个额外的训练集：（1）LibriSpeech Other，它包含了来自一组1166个说话人的461小时的语音，这些说话人与干净子集中的说话人不相关联；（2）VoxCeleb(《VoxCeleb: A large-scale speaker identification dataset》)；(3)VoxCeleb2(《VoxCeleb2: Deep speaker recognition》)含有1211个说话人说的139k条语音，以及5994个说话人说的1.09M条语音。

表5比较了作为训练说话人编码器的说话人数量的函数，所提出的模型的性能。这衡量了在训练说话人编码器时说话人多样性的重要性。为了避免过拟合，在小数据集(前两行)上训练的说话人编码器使用更小的网络结构(256维的LSTM单元与64维的预测)并输出64维说话人嵌入。

我们首先评估在LibriSpeech Clean和Other集合上训练的说话人编码器，每个集合包含相似数量的说话人。在Clean中，说话人编码器和合成器在相同的数据上进行训练，这一基线类似于(《Neural voice cloning with a few samples》)中的非微调说话人编码器，只是它与(《Fitting new speakers based on a short untranscribed sample》)中的训练具有区别性。这种匹配条件给出了稍好一点的自然度和相似度。随着训练说话人数量的增加，自然度和相似度都有显著提高。客观的EER结果也随着主观评价而改善。

这些结果对多说话人TTS训练具有重要意义。说话人编码器的数据要求比完整的TTS训练少得多，因为不需要文字记录，而且音频质量可能比TTS训练低。我们已经证明，将训练于大量未转录数据的说话者编码器网络与训练于较小的高质量数据集的TTS网络相结合，是有可能合成非常自然的TTS的。

3.6 虚构的说话人

绕过说话人编码器网络并将合成器设置在说话人嵌入空间的随机点上，就会产生来自虚拟说话人的语音，这些虚拟说话人并不存在于合成器或扬声器编码器的训练集或测试集中。这在表6中得到了证明，它比较了由单位超球表面均匀采样点生成的10个这样的说话人与它们在组件网络训练集中最近邻的说话人。SV-EERs 是在记录了10个最近相邻的声音后，使用与3.3节相同的设置计算的。即使这些说话人是完全虚构的，合成器和声码器能够产生的音频，就像见过或未见过的真实说话人一样自然。与最近相邻训练语音的余弦相似度较低，而EER较高，表明它们确实不同于训练说话人。

4 结论

提出了一种基于神经网络的多说话人TTS合成系统。该系统结合了一个独立训练的说话人编码器网络，序列到序列的TTS合成网络和基于Tacotron 2的神经声码器。通过利用鉴别说话人编码器所学习的知识，合成器能够不仅能够为在训练中见过的说话人，而且也能够为从未见过的说话人生成高质量的语音。通过基于说话人验证系统的评价和主观听力测试，我们证明了合成的语音与目标说话人的真实语音相当相似，即使是在这些未见过的说话人身上。

我们进行了实验来分析用于训练不同组件的数据量的影响，发现如果在合成器训练集中有足够的说话人多样性，增加说话人编码器训练数据量可以显著提高说话人转换质量。

迁移学习是实现这些结果的关键。通过分离说话人编码器和合成器的训练，系统显著降低了对多说话人TTS训练数据的要求。它既不需要为合成器训练数据的说话人身份标签，也不需要为说话人编码器训练数据的高质量干净的讲话或文本。此外，与《Fitting new speakers based on a short untranscribed sample》相比，独立训练这些组件显著简化了合成器网络的训练配置，因为它不需要额外的三连音或对比损耗。然而，使用低维向量建模说话人的变化限制了利用大量参考语音的能力。对于超过几秒的参考语音，提高说话人的相似度需要像《Neural voice cloning with a few samples》和最近《* Sample efficient adaptive text-to-speech*》中的模型适应方法。

最后，我们证明该模型能够从与训练集不同的虚构说话人生成真实的说话人，这意味着该模型已经学会利用说话人变化空间的真实表示。

尽管使用了WaveNet声码器（以及它非常高的推理成本），但与《Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions》的单说话者结果相比，所提出的模型并没有达到人类水平的自然度。这是由于为不同的说话人生成语音的额外困难，每个说话人的数据明显更少，以及使用数据质量较低的数据集。另外一个限制是模型不能转移重音。如果有足够的训练数据，可以通过将合成器设置为独立说话人和重音嵌入来解决这个问题。最后，我们注意到该模型也不能完全将说话人的声音从参考音频的韵律中分离出来，这与《Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron》中观察到的趋势类似。

你可能感兴趣的:(语音伪造,TTS,说话人验证,迁移学习,语音转换,one-shot)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
活给自己看，笑容才灿烂听着了么
白岩松说“有时候，我们活得很累，并非生活过于刻薄，而是我们太容易被外界的氛围所感染，被他人的情绪所左右。”心情是自己的。若只是活在别人的眼里、嘴里，便掌握不了让自己开心的主动权。人活着，不是为了活给别人看的，唯有做最真实的自己，活给自己看，笑容才灿烂。诚然，世事纷繁复杂，人人都有一张嘴，管也管不了。永远有人欣赏你，也永远有人批评你，不可能做到让所有人都满意，开心做自己才是最重要的。人生苦短，有太多
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
我的黑历史袖手围观有来有去
孩子同学与我们一起共进晚餐，俩孩子加我三个人。小同学是一个大方率性礼貌的小孩，我们也都非常喜欢。好了，回到正题上来让我把这个故事讲完。俩孩子都喜欢吃鱼，所以就发生了小孩子之间常会发生的事。我狠狠的盯了我家孩子，孩子表情有些狼狈。和孩子单独一起的时候，见她尚未释怀，并谴责我不该狠盯她，让她没面子。也许是她触动了我的童年往事吧。由此，一狠心，给她讲了一段埋藏心里极深的黑历史：我奶奶有四个儿子，四个儿子
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
万物难度不度己边度512
你好，陌生人！你是否有过迷茫，在别人的面前自己却不曾展示！你是否自己承担着所有的痛苦，却又笑对人生！你是否在很多时候想找人诉说，翻开手机却发现，手机里面空无一人！你是否有很多事情想做，最后却因你自己拖延，最后发现自己什么都做不了！对没有错，我的名字就叫你是否！不要怀疑！不要悲伤！我们的生活可是还有很到要继续的呢！还有很多那个人，很多地方我们都没有去过！所以我们已经没有退路了！那就继续向前吧！加油！
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &