zzfive

VITS论文阅读

论文链接：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

文章目录

摘要
简介
方法
- Variational Inference
- - 概述
  - 重建损失
  - KL散度
- Alignment Estimation
- - 单调对齐搜索/MONOTONIC ALIGNMENT SEARCH
  - 基于文本的持续时间预测
- 对抗训练
- 最后的损失
- 模型架构
- - 后验编码器
  - 先验编码器
  - 解码器
  - 判别器
  - 随机持续时间预测器
实验
- 数据集
- 预处理
- 训练
- 对比实验设置
结果
- 语音合成质量
- Mutil-Speakers TTS的泛化
- 语音变化
- 合成速度
相关工作
- 端到端TTS
- VAE
- 非自回归TTS的持续时间预测
结论
补充材料
- A.单调对齐搜索
- B.模型配置
- - B.1.先验编码器和后验编码器
  - B.2.解码器和判别器
  - B.3.随机持续时间预测器
- C.并排评估
- D.语音转换

摘要

最近有人提出了几个支持单阶段训练和并行采样的端到端文本到语音(TTS)模型，但它们的样本质量与两阶段TTS系统的样本质量不匹配。这项工作提出一种并行的端到端TTS方法，比目前的两级模型产生更自然的探测音频。本方法采用归一化流程扩充的变分推理（基于归一化流的变分增广）和对抗性训练过程，提高了生成式建模的表达能力。还提出了一个随机持续时间预测器来从输入文本中合成具有不同节奏的语音。通过潜在变量的不确定性建模和随机持续时间预测器，提出的方法表达了自然的一对多关系，即文本输入可以以不同音高和节奏的多种方式说话。在LJSpeech上的MOS表明，该方法优于最佳的公开可用TTS系统，并实现了与gt数据相当的MOS。

简介

文本到语音 (TTS) 系统通过几个组件从给定文本合成原始语音波形。随着深度神经网络的快速发展，除了文本规范化和音素化等文本预处理之外，TTS 系统管道已被简化为两阶段生成建模。第一阶段是从预处理的文本中生成中间语音表示，例如mel谱图或语言特征；第二阶段是以中间表示为条件生成原始波形。每个两级管道的模型都是独立开发的。

基于神经网络的自回归TTS系统已显示出合成逼真语音的能力，但它们的顺序生成过程使得难以充分利用现代并行处理器。为了克服这一限制并提高合成速度，已经提出了几种非自回归方法。在文本到频谱图生成步骤中，尝试从预训练的自回归教师网络中提取注意力图，以降低学习文本和频谱图之间对齐的难度。最近，基于可能性的方法通过估计或学习最大化目标梅尔谱图可能性的对齐，进一步消除了对外部对齐器的依赖。同时，生成对抗网络 (GAN) 已在第二阶段模型中进行了探索。基于GAN的前馈网络具有多个判别器，每个判别器区分不同尺度或周期的样本，实现高质量的原始波形合成。

尽管并行TTS系统取得了进展，但两阶段管道仍然存在问题，因为它们需要顺序训练或微调以进行高质量生产，其中后期模型使用早期模型的生成样本。此外，它们对预定义的中间特征的依赖妨碍了应用学习到的隐藏表示来进一步提高性能。最近，一些工作，即FastSpeech 2s和EATS，提出了有效的端到端训练方法，例如对短音频片段而不是整个波形进行训练，利用mel谱图解码器来帮助文本表示学习，并设计一个专门的谱图损失来缓解目标和生成的语音之间的长度不匹配。然而，尽管通过利用学习的表示可能会提高性能，但它们的合成质量仍落后于两阶段系统。

这项工作提出了一种并行的端到端TTS方法，它比当前的两阶段模型生成更自然的声音。使用变分自动编码器 (VAE， Auto-Encoding Variational Bayes)，通过潜在变量连接TTS系统的两个模块，以实现高效的端到端学习。为了提高本方法的表达能力以便可以合成高质量的语音波形，将归一化流应用于条件先验分布和波形域的对抗训练。除了生成细粒度的音频外，TTS系统表达一对多的关系也很重要，在这种关系中，文本输入可以以多种方式说出，具有不同的变化（例如，音高和持续时间）。为了解决一对多的问题，还提出了一个随机持续时间预测器，以从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机持续时间预测器，提出的方法捕获了无法用文本表示的语音变化（随机的原因是因为随机预测器是一个基于flow的vae架构，预测的是一个分布，使用时需要随机采样）。

与具有HiFi-GAN的最佳公开TTS系统Glow-TTS相比，本方法获得了更自然的语音和更高的采样效率。官方源码：https://github.com/jaywalnut310/vits

方法

所提出的方法主要在前三个小节中描述：有条件的VAE公式；从变分推断得出的对齐估计；提高合成质量的对抗性训练。图1a和1b分别显示了本文方法的训练和推理过程。将提出的方法称为变分推理与端到端文本到语音的对抗学习（VITS）。

图1 VITS系统流程图；(a)训练过程，(b)推理过程；所提出的模型可以看作是一个有条件的VAE、后编码器、解码器和具有基于流的随机持续时间预测器的条件先验（其中绿色块从上到下分别是归一化流、映射层和文本编码器）

Variational Inference

概述

VITS可以表示为条件VAE，其目标是最大化变分下限，也称为置信下限(ELBO)，是一个不可解的对数似然 $log p_θ(x|c)$ ：
$\log p_θ(x|c)≥E_{q_{\phi}(z|x)}[\log p_θ(x|z)-\log\frac{q_{\phi}(z|x)}{p_θ(z|c)}]$
其中 $p_θ(z|c)$ 表示给定条件 $c$ 的潜在变量 $z$ 的先验分布， $p_θ(x|z)$ 是数据点 $x$ 的似然函数， $q_{\phi}(z|x)$ 是一个近似的后验分布。训练损失就是负ELBO，可以看成是重构损失(- $log p_θ(x|c)$ )和KL散度( $\log{q_{\phi}(z|x)}-log{p_θ(z|c)}$ )的和，其中 $z$ 符合后验分布 $q_{\phi}(z|x)$ 。

重建损失

作为重建损失中的目标数据点，使用梅尔谱图而不是原始波形，用 $x_{mel}$ 表示。通过解码器将潜在变量 $z$ 上采样到波形域 $\hat{y}$ 并将 $\hat{y}$ 变换到梅尔谱图域 $\hat{x}_{mel}$ 。然后将预测和目标梅尔谱图之间的 $L 1$ 损失用作重建损失： $L_{recon} = ||x_{mel} - \hat{x}_{mel}||_1$ 。

这可以看作是假设数据分布的拉普拉斯分布并忽略常数项的最大似然估计。定义了 mel谱图域中的重建损失，以通过使用近似人类听觉系统响应的mel谱图尺度来提高感知质量。请注意，原始波形的梅尔谱图估计不需要可训练的参数，因为它只使用 STFT 和线性投影到梅尔尺度上。此外，估计仅在训练期间使用，而不是在推理期间使用。在实践中，不会对整个潜在变量 z 进行上采样，而是使用部分序列作为解码器的输入，这是用于高效端到端训练的窗口生成器训练。

KL散度

先验编码器的输入条件 $c$ 由从文本中提取的音素 $c_{text}$ 以及音素和潜在变量之间的对齐 $A$ 组成。对齐矩阵 $A$ 是一个尺寸为 $c_{text}|×|z|$ 的硬单调注意矩阵，表示每个输入音素扩展多长时间以与目标语音时间对齐。因为对齐没有真实标签，必须在每次训练迭代时估计对齐。在问题设置中，目标是为后编码器提供更高分辨率的信息。因此，使用目标语音 $x_{lin}$ 的线性尺度频谱图而不是mel频谱图作为输入。请注意，修改后的输入不违反变分推理的属性。KL散度是： $L_{kl}=logq_{\phi}(z|x_{lin})-logp_θ(z|c_{text},A), z \backsim q_{\phi}(z|x_{lin})=N(z;\mu_{\phi}(x_{lin}),\sigma_{\phi}(x_{lin}))$

分解的正态分布用于参数化先验和后验编码器。发现增加先验分布的表现力对于生成真实样本很重要。因此，应用归一化流 $f_θ$ ，它允许在分解的正态先验分布之上，按照变量变化的规则将简单分布可逆地转换为更复杂的分布：
$p_θ(z|c)=N(f_θ(z);\mu_θ(c), \sigma_θ(c))|det\frac{\partial f_θ(z)}{\partial z}|, c=[c_{text}, A]$

Alignment Estimation

单调对齐搜索/MONOTONIC ALIGNMENT SEARCH

为了估计输入文本和目标语音之间的对齐 A，采用单调对齐搜索 (MAS，Glow-TTS)，这是一种搜索对齐的方法，该方法可以最大化由归一化流 f 参数化的数据的可能性：

其中由于人类按顺序阅读文本而不跳过任何单词，因此候选对齐被限制为单调且不可跳过。为了找到最佳对齐方式，Glow-TTS中使用动态规划。在本方法的设置中直接应用 MAS 很困难，因为目标是 ELBO，而不是精确的对数似然。因此，本方法重新定义 MAS 以找到最大化 ELBO 的对齐方式，这简化为找到最大化潜在变量 z 的对数似然的对齐方式：

附录 A 包括 MAS 的伪代码。

基于文本的持续时间预测

可以通过对估计的对齐的每一行中的所有列求和，即 $\sum_jA_{i,j}$ 来计算每个输入标记 $d_i$ 的持续时间。如Glow-TTS所提出的，持续时间可用于训练确定性持续时间预测器，但它无法表达一个人每次以不同语速说话的方式。为了生成类似人类的语音节奏，设计了一个随机持续时间预测器，以便其样本遵循给定音素的持续时间分布。随机持续时间预测器是基于流的生成模型，通常通过最大似然估计进行训练。然而，最大似然估计的直接应用是困难的，因为每个输入音素的持续时间是 1) 一个离散整数，需要对其进行反量化以使用连续归一化流，以及 2) 一个标量，它可以防止高维变换可逆性。应用变分去量化和变分数据增强来解决这些问题。具体来说，引入了两个随机变量 $u$ 和 $ν$ ，它们具有与持续时间序列 $d$ 相同的时间分辨率和维度，分别用于变分去量化和变分数据增强。将 $u$ 的支持限制为 [0, 1)，以便 $d - u$ 成为正实数序列，并且将 $ν$ 和 $d$ 逐个通道连接以形成更高维的潜在表示；通过一个近似的后验分布 $q_{\phi}(u, ν|d, c_{text})$ 对这两个变量进行采样。由此产生的目标是音素持续时间的对数似然的变分下限:

训练损失 $L_{dur}$ 是负变分下限。将停止梯度算子应用于输入条件，以防止对输入的梯度进行反向传播，以便持续时间预测器的训练不会影响其他模块的训练。采样过程相对简单，通过随机时长预测器的逆变换从随机噪声中采样音素时长，然后将其转换为整数

对抗训练

为了在学习系统中采用对抗性训练，增加了一个鉴别器D，该鉴别器D区分由解码器G产生的输出和地面真实波形y。在这项工作中，使用了两种在语音合成中成功应用的损失类型：用于对抗性训练的最小二乘损失函数，以及用于训练生成器的附加特征匹配损失：

其中， $T$ 表示鉴别器中的总层数，而 $D^l$ 输出具有 $N_l$ 个特征的鉴别器的第 $l$ 层的特征映射。值得注意的是，特征匹配损失可以被视为在建议作为VAE的基于元素的重建损失的替代方案的鉴别器的隐藏层中测量的重建损失。

最后的损失

结合VAE和GAN训练，有条件的VAE训练的总损失可以表示如下：
$L_{vae}=L_{recon}+L_{kl}+L_{dur}+L_{adv}(G)+L_{fm}(G)$

模型架构

所提出模型的整体架构由后验编码器、先验编码器、解码器、鉴别器和随机持续时间预测器组成。后验编码器和鉴别器仅用于训练，不用于推理。架构细节可在附录 B 中找到。

后验编码器

对于后验编码器，使用 WaveGlow和 Glow-TTS中使用的非因果 WaveNet 残差块。 WaveNet 残差块由具有门控激活单元和skip连接的扩张卷积层组成。WaveNet 残差块上方的线性投影层产生正态后验分布的均值和方差。对于mutil-speakers的情况，在残差块中使用全局调节来添加说话人嵌入。

先验编码器

先验编码器由处理输入音素 $c_{text}$ 的文本编码器和提高先验分布灵活性的标准化流 $f_θ$ 组成。文本编码器是一种Transformer编码器，它使用相对位置表示而不是绝对位置编码。可以通过文本编码器和文本编码器上方的线性投影层从 $c_{text}$ 中获取隐藏表示 $h_{text}$ ，该线性投影层产生用于构造先验分布的均值和方差。归一化流是由一堆WaveNet残差块组成的仿射耦合层堆栈。为简单起见，将归一化流设计为雅可比行列式为1的体积不变的变换。对于mutil-speakers设置，通过全局调节将speaker嵌入添加到归一化流中的残差块中。

解码器

解码器本质上是HiFi-GAN V1生成器。它由一堆转置卷积组成，每个转置卷积后面都有一个多感受野融合模块（MRF）。MRF的输出是具有不同感受野大小的残差块的输出之和。对于mutil-speakers设置，添加了一个线性层来转换speaker嵌入并将其添加到输入潜在变量 $z$ 。

判别器

遵循HiFi-GAN中提出的多周期鉴别器的鉴别器架构。多周期鉴别器是基于马尔可夫窗口的子鉴别器的混合体，每个子鉴别器都对输入波形的不同周期模式进行操作。

随机持续时间预测器

随机持续时间预测器根据条件输入 $h_{text}$ 估计音素持续时间的分布。为了随机持续时间预测器的有效参数化，将残差块与扩张和深度可分离的卷积层堆叠在一起。还将neural spline flows应用到耦合层，它通过使用单调有理二次样条采用可逆非线性变换的形式。与常用的仿射耦合层相比，neural spline flows以相似数量的参数提高了变换表达能力。对于mutil-speakers设置，添加一个线性层来转换speaker嵌入并将其添加到输入 $h_{text}$ 。

实验

数据集

对两个不同的数据集进行了实验。使用LJSpeech数据集与其他公开可用的模型和 VCTK 数据集进行比较，以验证本模型是否可以学习和表达不同的语音特征。LJSpeech数据集由单个speaker的13100个短音频片段组成，总长度约为24小时。音频格式是16位 PCM，采样率为22 kHz，使用它没有任何操作。将数据集随机分为训练集（12,500 个样本）、验证集（100 个样本）和测试集（500 个样本）。VCTK 数据集包含大约 44,000 个简短的音频片段，由 109 位以不同口音为母语的英语人士发出。音频剪辑的总长度约为 44 小时。音频格式为 16 位 PCM，采样率为 44 kHz。将采样率降低到 22 kHz。将数据集随机分为训练集（43,470 个样本）、验证集（100 个样本）和测试集（500 个样本）。

预处理

使用可以通过短时傅里叶变换（STFT）从原始波形中获得的线性频谱图，作为后编码器的输入。变换的 FFT 大小、窗口大小和跳数大小分别设置为 1024、1024 和 256。使用 80 波段 mel 尺度谱图进行重建损失，这是通过将 mel 滤波器组应用于线性谱图获得的。使用国际音标(IPA)序列作为先验编码器的输入，使用开源软件Bernard将文本序列转换为IPA音素序列，并在Glow-TTS实现后将转换后的序列点缀一个空白令牌。

训练

使用AdamW优化器训练网络， $β_1=0.8，β_2=0.99$ ，权重衰减 $λ = 0.01$ 。在初始学习速率为 $2×10^{−4}$ 的情况下，每个epoch的学习速率衰减按 $0.999^{1/8}$ 倍进行。在先前的工作(FastSpeech2和EATS)的基础上，采用了加窗生成器训练，这是一种只生成部分原始波形的方法，以减少训练时间和训练期间的内存使用。随机提取窗口大小为32的潜在表示片段，以提供给解码器，而不是提供整个潜在表示，并从GT原始波形中提取相应的音频片段作为训练目标。在4个NVIDIA V100 gpu上使用混合精确训练。批处理大小设置为每个GPU 64个，模型训练到800k步。

对比实验设置

将提出的模型与最好的公开模型进行了比较，使用自回归模型Tacotron 2和基于流的非自回归模型Glow-TTS作为第一阶段模型，HiFi-GAN作为第二阶段模型；使用他们的公共实现和预先训练的权重。由于两阶段 TTS 系统理论上可以通过顺序训练实现更高的合成质量，因此将微调的 HiFi-GAN 包含在第一阶段模型的预测输出中，最高可达 100k 步。凭经验发现，在教师强制模式下使用从 Tacotron 2 生成的梅尔谱图对 HiFi-GAN 进行微调，与使用从 Glow-TTS 生成的梅尔谱图进行微调相比，Tacotron 2 和 GlowTTS 的质量更好，所以将更好的微调 HiFi-GAN 添加到 Tacotron 2 和 Glow-TTS。

由于每个模型在采样过程中都具有一定程度的随机性，因此在整个实验过程中固定了控制每个模型随机性的超参数。 Tactron 2 的 pre-net 中 dropout 的概率设置为 0.5。对于 GlowTTS，先验分布的标准差设置为 0.333。对于 VITS，随机持续时间预测器的输入噪声的标准偏差设置为 0.8，将比例因子 0.667 乘以先验分布的标准偏差。

结果

语音合成质量

进行了众包 MOS 测试来评估质量。评分者聆听随机选择的音频样本，并以从 1 到 5 的 5 分等级对其自然度进行评分。评分者被允许对每个音频样本进行一次评估，对所有音频片段进行归一化以避免幅度差异对分数的影响。这项工作中的所有质量评估都是以这种方式进行的。

评估结果如表1所示。VITS优于其他 TTS 系统，并实现了与 ground truth 相似的 MOS。 VITS (DDP) 采用与 GlowTTS 中相同的确定性持续时间预测器架构，而不是随机持续时间预测器，在MOS评估中的TTS系统中得分第二高。这些结果表明:1)随机持续时间预测器产生的音素持续时间比确定性持续时间预测器更真实;2)本文的端到端训练方法是一种比其他TTS模型更有效的方法，即使保持相似的持续时间预测器架构。

表1 LJSpeech数据集上评估MOS与95%置信区间的比较

进行了消融研究，以证明本文的方法的有效性，包括先验编码器中的归一化流和线性尺度谱图后输入。消融研究中的所有模型都被训练到300k步。结果如表2所示。去除先验编码器中的归一化流，结果比基线降低1.52 MOS，表明先验分布的灵活性显著影响合成质量。用mel谱图代替后输入的线性尺度谱图，其质量下降(-0.19 MOS)，表明高分辨率信息对VITS的合成质量是有效的。

表2 消融实验中的MOS比较

Mutil-Speakers TTS的泛化

为了验证提出的模型可以学习和表达不同的语音特征，将模型与 Tacotron 2、Glow-TTS 和 HiFi-GAN 进行了比较，它们展示了扩展到mutil-speakers语音合成的能力。在 VCTK 数据集上训练模型，将说话人嵌入添加到模型中。对于 Tacotron 2，广播了扬声器嵌入并将其与编码器输出连接，对于 Glow-TTS，在之前的工作之后应用了全局调节。评估结果如表 3 所示，提出的模型比其他模型实现了更高的 MOS，表明本模型以端到端的方式学习和表达各种语音特征。

表3 VCTK 数据集上评估的 MOS 与 95% 置信区间的比较

语音变化

验证了随机持续时间预测器产生了多少不同长度的语音，以及合成样本有多少不同的语音特征。

与Flowtron类似，这里的所有样本都是从一句话“How much variation is there?”中生成的。图2a显示了每个模型生成的100个话语长度的直方图。由于确定性的持续时间预测器，Glow-TTS只生成固定长度的话语，而模型中的样本遵循与Tacotron 2相似的长度分布。图2b显示了在mutil-speakers设置下，提出的模型中使用五个说话者身份生成的100个话语的长度，这意味着模型学习了speaker依赖的音素持续时间。图3中用YIN算法提取的10个话语的F0轮廓显示，本模型生成了具有不同音高和节奏的语音，图3d中由每个不同speaker生成的五个样本显示，模型对每个speaker表达了非常不同的长度和音高。值得注意的是，Glow-TTS可以通过增加先验分布的标准差来增加基音的多样性，但相反，它会降低合成质量。

图2 在(a) LJ Speech数据集和(b) VCTK数据集上以秒为单位的采样持续时间

图3 “How much variation is there?”这句话的音高轨迹样本来自(a) VITS， (b) Tacotron 2和(c) Glow-TTS在单扬声器设置下和(d) VITS在multi-speakers设置下

合成速度

将模型的合成速度与并行的两阶段 TTS 系统 Glow-TTS 和 HiFi-GAN 进行了比较。测量了整个过程的同步经过时间，以从音素序列生成原始波形，其中 100 个句子从 LJSpeech 数据集的测试集中随机选择。使用单个 NVIDIA V100 GPU，批量大小为 1。结果如表 4 所示。由于提出的模型不需要模块来生成预定义的中间表示，因此它的采样效率和速度得到了极大的提高。

表4 合成速度的比较。n kHz的速度意味着该模型每秒可以生成n×1000个原始音频样本；实时是指合成速度超过实时

结论

本工作提出了一个并行 TTS 系统 VITS，它可以以端到端的方式学习和生成。进一步引入了随机持续时间预测器来表达不同的语音节奏。由此产生的系统直接从文本中合成自然发音的语音波形，而无需经过预定义的中间语音表示。实验结果表明，本方法优于两阶段 TTS 系统并达到接近人类的质量。希望所提出的方法将用于许多使用两阶段 TTS 系统的语音合成任务，以实现性能提升并享受简化的训练过程。同事指出，尽管本方法在 TTS 系统中集成了两个分离的生成管道，但仍然存在文本预处理问题。研究语言表示的自我监督学习可能是删除文本预处理步骤的一个可能方向。

补充材料

A.单调对齐搜索

在图4中展示了MAS的伪代码。虽然搜索最大化ELBO的对齐而不是数据的精确对数似然，但可以使用 Glow-TTS 的 MAS 实现。

图4 单调对齐搜索的伪代码

B.模型配置

主要描述 VITS 的新增部分，因为对模型的几个部分遵循Glow-TTS和HiFi-GAN的配置：使用与Glow-TTS相同的Transformer编码器和WaveNet残差块；解码器和多周期鉴别器分别与HiFi-GAN的生成器和多周期鉴别器相同，只是为解码器使用不同的输入维度并附加一个子鉴别器。

B.1.先验编码器和后验编码器

先验编码器中的归一化流是由4个仿射耦合层叠加而成，每个耦合层由4个WaveNet残差块组成。由于限制仿射耦合层为体积保持变换，所以耦合层不产生尺度参数。后验码器由16个WaveNet残差块组成，采用线性尺度对数幅度谱图并产生具有192个通道的潜在变量。

B.2.解码器和判别器

解码器的输入是先验或后验编码器生成的潜在变量，因此解码器的输入通道大小为 192。对于解码器的最后一个卷积层，移除了一个偏置参数，因为它在混合精度训练期间导致不稳定的梯度尺度。

对于鉴别器，HiFi-GAN使用包含五个周期子鉴别器[2,3,5,7,11]的多周期鉴别器和包含三个子鉴别器的多尺度鉴别器。为了提高训练效率，只留下操作于原始波形的多尺度鉴别器的第一个子鉴别器，而丢弃操作于平均池波形的两个子鉴别器。由此得到的鉴别器可以看作具有周期[1,2,3,5,7,11]的多周期鉴别器。

B.3.随机持续时间预测器

图5a和5b分别显示了随机持续时间预测器的训练和推理过程。随机持续时间预测器的主要构建块是膨胀和深度可分离卷积 (DDSConv) 残差块，如图5 所示。DDSConv块中的每个卷积层后跟一个层归一化层和 GELU 激活函数。选择使用扩张和深度可分离的卷积层来提高参数效率，同时保持较大的感受野大小。

持续时间预测器中的后验编码器和归一化流模块是基于流的神经网络，具有相似的架构。不同之处在于后验编码器将一个高斯噪声序列转化为两个随机变量 $ν$ 和 $u$ 来表达近似的后验分布 $q_{\phi}(u, ν|d, c_{text})$ ，归一化流模块将 $d - u$ 和 $ν$ 转化为高斯噪声序列来表达增强和去量化数据日志 $p_θ(d − u, ν|c_{text})$ 。

图5 框图描述了随机持续时间预测器的 (a) 训练过程和 (b) 推理过程。随机持续时间预测器的主要构建块是 (c) 膨胀和深度可分离的卷积残差块

所有输入条件都通过条件编码器进行处理，每个条件编码器由两个 1x1 卷积层和一个 DDSConv 残差块组成。后编码器和归一化流模块有四个耦合层的神经样条流。每个耦合层首先通过 DDSConv 模块处理输入和输入条件，并生成 29 个通道参数，用于构造 10 个有理二次函数。将所有耦合层和条件编码器的隐藏维度设置为 192。图6a和6b显示了随机持续时间预测器中使用的条件编码器和耦合层的架构。

图6 (a) 条件编码器和 (b) 随机持续时间预测器中使用的耦合层的架构

C.并排评估

通过对 50 个项目的 500 个评级，在 VITS 和基本事实之间进行了 7 点比较平均意见评分 (CMOS) 评估。提出的模型在 LJ Speech 和 VCTK 数据集上分别实现了 -0.106 和 -0.270 CMOS，如表 5 所示。这表明尽管模型优于最好的公开可用的 TTS 系统、Glow-TTS 和 HiFi-GAN，并且实现了在 MOS 评估中与基本事实相当的分数，与本模型相比，评估者对基本事实的偏好仍然很小。

表5 评估的 VITS 的 CMOS 与GT相比

D.语音转换

在mutil-speakers设置中，不向文本编码器提供说话人身份，这使得从文本编码器估计的潜在变量学习与说话人无关的表示。使用与speaker无关的表示，可以将一个speaker的录音转换为另一个speaker的声音。对于给定的说话人身份 $s$ 和说话人的话语，可以从相应的话语音频中获得线性频谱图 $x_{lin}$ 。可以通过后编码器和先验编码器中的归一化流将 $x_{lin}$ 换为与说话者无关的表示 $e$ ：
$z～q_{\phi}(z|x_{lin},s)$ $e=f_θ(z|s)$

然后，可以通过归一化流 $f^{-1}_θ$ 和解码器 $G$ 的逆变换，从表示 $e$ 合成目标说话者身份 $\hat{s}$ 的语音 $\hat{y}$ ：
$\hat{y}=G(f^{-1}_θ(e|\hat{s})|\hat{s})$

学习与speaker无关的表示并将其用于语音转换可以看作是Glow-TTS中提出的语音转换方法的扩展。本文的语音转换方法提供原始波形而不是Glow-TTS中的mel谱图。语音转换结果如图 7 所示。它显示了不同音高水平的音高轨迹的相似趋势。

图7 具有不同说话人身份的GT样本和对应的语音转换样本的基音轨迹

你可能感兴趣的:(TTS,论文阅读,论文阅读,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
VITS 源码解析2-模型概述迪三 #NN_Audio 音频人工智能
VITs是文本到语音(Text-to-Speech,TTS)任务中最流行的技术之一，其实现思路是将文本语音信息融合到了HiFiGAN潜空间内,通过文本控制HiFiGAN的生成器，输出含文本语义的声音。VITs主要以GAN的方式训练,其生成器G是SynthesizerTrn，判别器D是MPD。VITS的判别器几乎和HiFiGAN一样，生成器则融合了文本、时序、声音三大类模型1.文件概述模型部分包含三
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc