Yee_Ko

把 WaveGlow 拆开来看

文章目录

Generative Model
补充知识：WaveNet
WaveGlow

基础知识
代码解读
损失函数

参考资料

本来要学习 WaveGlow，但是越看越晕，很多博客又绕出了很多新的概念，即基于流的生成式网络 Glow ，以及那些不是基于流的生成网络的介绍如 GAN 和 VAE 等，所以在学习 WaveGlow 之前就得先学习这些概念，妈呀……

在 Glow 论文之前，又有两个基于流的生成模型 NICE 和 RealNVP，这两个是 Glow 的基石。

Generative Model

生成式模型是什么？给出的一般的未标记的数据点，一个生成式模型会尝试去学习什么样的概率分布会生成这些数据点，目的是为了通过利用学习分布来产生新的数据点（与输入数据点相似）。
一个生成式模型是显式建模模型的话，意味着我们明确的定义概率分布并尝试去适配每一个输入的未标记数据点。与它形成对比，一个隐式生成式模型学习一个概率分布，可以直接取样新数据点而不需要明确的定义。GANs（生成对抗网络），目前深度学习领域的圣杯，就属于隐式生成式模型。然而，WaveNet和它的表亲Pixel CNNs/RNNs（像素卷积神经网络模型/递归神经网络模型）都属于显式生成式模型。

生成式网络有四个分类：

Component by Component （也就是 Regressive model 即自回归网络，生成一幅图片的过程是一个像素一个像素地生成）
Variational Auto Encoder
GAN（Generative Adversarial Network 即大名鼎鼎的生成对抗网络）
Flow-based Generative Model 即基于流的生成式模型

基于流的生成模型可以大致理解为：它希望将数据表示成简单的隐变量分布，并可以从该分布中完全还原真实数据的分布。也就是说，它要学习一个可逆函数。利用雅克比矩阵的这个性质：一个函数的雅克比矩阵的逆矩阵，是该函数的反函数的雅克比矩阵。

补充知识：WaveNet

WaveGlow 的模型构建综合参考了 WaveNet 和 Glow，所以在实现的时候使用到了WaveNet的网络，之前不太了解，就另外看了一下。

WaveNet预测的直接是时域上的音波强度，也就是原始的语音采样。因此有必要了解一下语音的编码形式，语音是使用 16 bits 进行编码的，也就是说一个时间点的音强范围为 $2^{15}, 2^{15}-1]$ 。然后WaveNet预测的是分类分布，也就是说每一个时间点输出的是语音编码长度的向量，然后使用softmax便可以找出其预测得到的音强。但是预测的向量维度太大，对于语音这种采样率这么高的数据，会占用很多的资源，所以需要对编码输出进行压缩。

WaveNet中采用的是 $\mu$ 律压缩，公式为：

代码实现如下：
$f(x_t) = sign(x_t)\frac{ln(1+\mu |x_t|)}{ln(1+\mu)}\\ y_t = \frac{f(x_t)+1}{2}*\mu\\ 其中的 x_t为语音音强除以2^{15}归一化后的结果，\mu为255$

def mu_law(x, mu=255):
    x = numpy.clip(x, -1, 1)
    x_mu = numpy.sign(x) * numpy.log(1 + mu*numpy.abs(x))/numpy.log(1 + mu)
    return ((x_mu + 1)/2 * mu).astype('int16')

# mu law前先将数据归一化，即幅值范围下降
ret = [mu_law(x / 2 ** 15) for x in used_data] 
ret = numpy.array(ret,dtype=numpy.float)
print(max(ret),min(ret))

plt.figure(figsize=(12, 8))
librosa.display.waveplot(ret, sr=16000)
plt.xlim(0, 1)
plt.tight_layout()

WaveGlow

基础知识

要学明白WaveGlow，首先要知道三件事：

Jacobian(雅可比矩阵)：
$z=\left[ \begin{array}{ccc} z_1 \\ z_2 \end{array} \right], x=\left[ \begin{array}{ccc} x_1\\ x_2 \end{array} \right] \\ x=f(z)\\ 那么函数f的雅可比矩阵为：\\J_f=\left[ \begin{array}{ccc} \partial x_1/\partial z_1 & \partial x_1/\partial z_2 \\ \partial x_2/\partial z_1 & \partial x_2/\partial z_2 \end{array} \right]\\ 另外函数f的反函数f^{-1}的雅可比矩阵为：\\ J_{f^{-1}}=\left[ \begin{array}{ccc} \partial z_1/\partial x_1 & \partial z_1/\partial x_2 \\ \partial z_2/\partial x_1 & \partial z_2/\partial x_2 \end{array} \right]\\ 而上面的两个雅可比乘起来的话，可以得到单位矩阵，也就是说明上面两个矩阵互为逆矩阵$
Determinant(行列式)：行列式计算得到一个scalar。另外很重要的一个公式是：
$det(A)=\frac{1}{det(A^{-1})}\\ det(J_f)=\frac{1}{det(J_{f^{-1}})}$
其实行列式是有含义的：行列式代表了高维空间中的体积的概念
Change of Variable Theorem：给定输入的分布和输出的分布，找出两者之间的转换关系

代码解读

代码参考的是 NVIDIA实现的版本，仓库地址在这里。后面代码的解读都是基于这个实现。

模型的输入：mel spectrum + audio （推理的时候只需要输入mel spectrum）

模型的输出：根据mel spectrum 生成的语音信号

下面以模型 inference 的过程讲述代码逻辑以及网络结构的解读：

# 假设现在输入的 mel spectrum 的维度为 [B, 80, 190] (190为要生成语音的那句话文本经过Tacotron2后得到的mel spectrum 序列长度)
# 根据 WaveNet，输入的这一段 mel spectrum 是需要作为 local conditioning 输入到 WN 网络中去运算的，也就是论文中所说的“By conditioning the model on other input variables, we can guide WaveNet's generation to produce audio with the required characteristics”
# 输进去的mel spectrum 会经过采用转置卷积的上采样
spect = torch.nn.ConvTranspose1d(n_mel_channels, n_mel_channels, kernel_size=1024, stride=256) # 对应论文中的“we first transform this time series using a transposed convolutional network(learned upsample) that map it to a new time series y=f(h) with the same resolution as the audio signal” 
# spect 序列的长度经过上采样之后，会被修剪为对应的audio的长度，接着会被unfold成８份，然后变成 [B, 8*80, audio_length]这样的数据规格，这一步的转换明显是根据mel 频谱和对应的audio的长度做的转变
# 接着初始化一个norm分布的逆过程的输入的z变量即audio，这里的self.n_remaining_channels＝４是训练是最后一层的输出channels，其实self.n_remaining_channels最开始是等于n_group也就是8，但是因为waveglow采用的early output机制，其每经过4个flow就先输出2个channels，因此12个flows就会有两次提前输出到机会，于是最后的self.n_remaining_channels=8 -2 -2=4。因为现在是inference过程，所以反着来，
audio = torch.cuda.FloatTensor(spect.size(0), self.n_remaining_channels, spect.size(2)).normal_()
# 之后经过flows的过程也是和训练过程相反的
for k in reversed(range(self.n_flows)):
	n_half = int(audio.size(1)/2)
    audio_0 = audio[:, :n_half, :]
    audio_1 = audio[:, n_half:, :]
    output = self.WN[k]((audio_0, spect)) # 注意：输入到WaveNet中的是前半段audio_0和spect
    s = output[:, n_half:, :]
    b = output[:, :n_half, :]
    
    audio_1 = (audio_1 - b) / torch.exp(s)
    audio = torch.cat([audio_0, audio_1], dim=1)
    audio = self.convinv[k](audio, reverse=True) # 就连耦合层与1x1卷积层的顺序也要反着来
    # 下面的这一段也很有意思，在训练的时候，我们是每经过４个flows就先将两个channels输出来，也就是channels数会变少，而inference的时候则相反，我们要给audio信号增加两个channels
    if k % self.n_early_every == 0 and k > 0:
        z = torch.cuda.FloatTensor(spect.size(0), self.n_early_size, spect.size(2)).normal_()
        audio = torch.cat((sigma*z, audio), 1)

# 反着经过12个flows之后，得到的audio输出需要转为[B, audio_length]的格式，也就是语音信号
audio = audio.permute(0,2,1).contiguous().view(audio.size(0), -1).data
# 又因为我们这里生成的audio数据是经过u律压缩的8bits，所以还需要后处理将8bits的数据恢复到16bits
waveform = (audio*32000).squeeze() # 因为以上生成的audio的数值都比较小，为了还原到原始16bits的数值的话，乘以一个32000
waveform = np.clip(waveform, -32768, 32767) # 超过两个边界值的统一置为边界值
waveform = waveform.astype(np.int16)
# 最后还有一步是调节生成的语音信号的速度、音量以及音调

以上就是WaveGlow根据Tacotron2生成语音信号的全流程了，现在唯一不理解的就是 WaveNet 的网络结构了。WaveNet 的网络在 WaveGlow 中充当了耦合层的角色，使得前后运算可逆。下面扒一扒WaveNet的内部实现：

对于mel spectrum在WN中的作用请看下面WaveNet中的这段描述（文中的 $h_t$ 对应的就是代码中的mel spectrum）：

注意下面这个图是在WaveNet中的结构图，WaveGlow中的实现与其很不一样的，其实WaveGlow的WN结构中并没有用到因果卷积这种东西，因为因果卷积是用在自回归模型中的，而WaveGlow可以实现并行计算。

'''
WN_config: {"n_layers":8, "n_channels":256, "kernel_size":3}
'''
'''
def fused_add_tanh_sigmoid_multiply(input_a, input_b, n_channels):
	n_channels_int = n_channels[0]
	in_act = input_a + input_b
	t_act = torch.tanh(in_act[:, :n_channels_int :]) # 注意两个激活函数使用的通道是不同的
	s_act = torch.sigmoid(in_act[:, n_channels_int:, :])
	acts = t_act * s_act
	return acts
'''

# 注意输入到WN网络中的是完整audio的half，理解这个需要学习耦合层
def WN(audio, spect):
	audio = self.start(audio)  # self.start()是一个Conv1d一维卷积层，audio的维度从[B, 2, audio_length]变成[B, 256, audio_length] 也就是WaveNet网络中的channels数
    out_put = torch.zeros_like(audio)  # 先构造一个全零的
    spect = torch.nn.Conv1d(spect.size(1), 2*n_channels*n_layers, 1) # 这里做卷积也就对应与上面论文截图中的对y的卷积操作，输出维度里面有一个乘以 n_layers 的操作，也就意味着WN的每一层参与运算的spect是不同的，后面会做切片处理平均分给每层
    for i in range(self.n_layers):
        spect_offset = i*2*self.n_channels
        acts = fused_add_tanh_sigmoid_multipy(  # 这个函数实现的就是上面截图中的公式，具体定义看上面
        	self.in_layers[i](audio),　# in_layers[i] = torch.nn.Conv1d(n_channels, 2*n_channels, kernel_size, dilation=2**i, padding =int((kernel_size*dilation-dilation)/2))
            spect[:, spect_offset:spect_offset+2*self.n_channels, :],
            n_channels_tensor) # n_channels_tensor就是一个值为256的tensor
       	res_skip_acts = self.res_skip_layers[i](acts) # 这里的self.res_skip_layers[i]同样是一个Conv1d一维卷积层
        if i < self.n_layers-1:　# 最后一层前res_skip_acts输出的维度为2*self.n_channels，一般用于直接加到输出上，一般加到audio中
            audio = audio + res_skip_acts[:, :self.n_channels, :]
            output = output + res_skip_acts[:, self.n_channels, :]
        else:
            output = output + res_skip_acts
    return self.end(output)  # self.end与self.start一样，是一位卷积层，输入输出维度是(n_channels, 2*n_in_channels) 这里返回的2*n_in_channels会被分成 s 和 t 两部分，用于audio_1 的仿射变换。

损失函数

最后我们再来聊一聊WaveGlow的损失函数：

也就是说，模型整体的损失函数由三部分组成：一是训练过程中生成的 z ，二是仿射变换层的 log(s)，三是 1x1 卷积层的卷积核参数W的行列式。至于为什么是这样，请详细推理过程请参考参考资料中的 “李宏毅教学视频” 。

代码实现的话跟公式是一样的，即优化的是上面公式计算出来的损失乘以-1，也就是负的最大似然。

class WaveGlowLoss(torch,nn.Module):
    def __init__(self, sigma=1.0):
        super(WaveGlowLoss, self).__init__()
        self.sigma = sigma
    def forward(self, model_output):
        z, log_s_list, log_det_W_list = model_output # 这是在训练过程中存下来的，log_s_list是每一层的s，log_det_ｗ_list是每一个1x1层的卷积核参数
        for i, log_s in enumerate(log_s_list):
            if i==0:
                log_s_total = torch.sum(log_s)
                log_det_W_total = log_det_W_list[i]
            else:
                log_s_total = log_s_total + torch.sum(log_s)
                log_det_W_total += log_det_W_list[i]
        loss = torch.sum(z*z)/(2*self.sigma*sigma) - log_s_total - log_det_W_total
        return loss/(z.size(0)*z.size(1)*z.size(2)) # 求平均

参考资料

李宏毅教学视频
音频处理时的mu law与反mu law变换
一文带你读懂 WaveNet：谷歌助手的声音合成器

基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
推荐项目：VITS2 Chinese - 轻松转化你的中文语音至文本傅尉艺Maggie
推荐项目：VITS2Chinese-轻松转化你的中文语音至文本VITS2-ChineseVITS2forChinesespeech|最新VITS2中文语音合成项目地址:https://gitcode.com/gh_mirrors/vi/VITS2-Chinese项目介绍VITS2Chinese是一个针对中文语音的自动转文字工具，它简化了传统语音识别的复杂流程，让用户只需上传音频文件，就能一键完成语
探索MB-iSTFT-VITS：一款高效的语音合成工具张姿桃Erwin
探索MB-iSTFT-VITS：一款高效的语音合成工具MB-iSTFT-VITSLightweightandHigh-FidelityEnd-to-EndText-to-SpeechwithMulti-BandGenerationandInverseShort-TimeFourierTransform项目地址:https://gitcode.com/gh_mirrors/mb/MB-iSTFT-V
WhisperX: 带时间戳的自动语音识别及说话人分离史恋姬Quimby
WhisperX:带时间戳的自动语音识别及说话人分离whisperXm-bain/whisperX:是一个用于实现语音识别和语音合成的JavaScript库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的API，支持多种语音识别和语音合成引擎，并且能够自定义语音识别和语音合成的行为。项目地址:https://gitcode.com/gh_mirrors/wh/whisp
标贝科技个性化音色定制方案解锁语音合成无限可能标贝科技科技语音识别人工智能人机交互
近日，标贝科技语音合成音色库又有新进展。针对智能客服场景，上新两个温和风格音色，适用于服务回访、业务咨询、产品介绍等细分业务场景。加上前不久的两款严肃客服音色，标贝科技已累计上线20多个风格迥异的男女客服发音人，全力加速企业客服中心的智能化转型。此外，本次也同步上线两个泰语女声音色和法语女声音色，以满足更多细分场景的应用需求。大模型驱动语音合成更“拟人”传统的语音合成，因为技术上的限制，通常是采集
SPIRNGBOOT+VUE实现浏览器播放音频流并合成音频定制开发才有价值音视频人工智能语音合成
一、语音合成支持流式返回，通过WS可以实时拿到音频流，那么我们如何在VUE项目中实现合成功能呢。语音合成应用非常广泛，如商家广告合成、驾校声音合成、新闻播报、在线听书等等场景都会用到语音合成。二、VUE下实现合成并使用浏览器播放代码如下：在线语音合成流式版{{ttsText}}立即合成DOWNWAVimport*asbase64from'js-base64'importCryptoJSfrom'.
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
YeAudio音频工具的介绍和使用夜雨飘零1 语音音视频语音识别 python ffmpeg
夜雨飘零音频工具这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。安装使用pip安装。pipinstallyeaudio-U-ihttps://pypi.tuna.tsinghua.edu.cn/simple（推荐）使用源码安装。gitclonehttps
探索前沿科技：在本地系统上安装和使用Style TTS2进行高质量语音合成七哥的AI日常 tts
我们正处于一个令人激动的时代，有如此多的选择，不仅在大型语言模型方面，还有现在的文本到语音（TTS）模型。在这篇文章中，我将向您展示如何在本地系统上轻松安装这个非常出色的模型——StyleTTS2，然后进行语音克隆，或者您可以进行多语音或单语音的文本到语音转换，操作非常简单、快捷，并且具有人类级别的语音质量。StyleTTS2：前沿的文本到语音模型StyleTTS2是一款前沿的文本到语音模型，能够
增强语音对车载语音质量测试的挑战众乐认证 itu
一、什么是增强语音语音助手是实现智慧车联的关键之一，通过助手，方可去掉按键。其中一个比较典型的功能就是目前比较流行的enhancedsiri。二、增强语音的难点1.语音合成技术语音合成技术在车内环境中的表现至关重要。语音合成采用了混合单元选择系统，结合了单元选择和参数合成的优势，并通过深度学习进一步提升了语音质量。这种技术的应用，使得语音助手能够在车内环境中提供流畅自然且易于理解的语音交互体验。2
GPT-SoVITS语音合成服务器部署，可远程访问（全部代码和详细部署步骤）学术菜鸟小晨最新人工智能技术 gpt 人工智能
GPT-SoVITS是一个开源项目，它使用大约一分钟的语音数据便可以训练出一个优秀的TTS模型。项目的核心技术是Zero-shotTTS和Few-shotTTS。Zero-shotTTS可以让用户输入5秒钟的语音样本并立即体验转换后的语音，而Few-shotTTS则可以通过使用仅一分钟的训练数据进行模型微调，从而提高语音相似度和真实性。该项目支持多语言推理，包括但不限于英语，日语和中文。此外，项目
WebKit的语音交互新篇章：Web Speech API深度解析 2401_85742452 前端 webkit 交互
WebKit的语音交互新篇章：WebSpeechAPI深度解析随着技术的进步，人机交互的方式正在不断演变。WebSpeechAPI作为现代Web技术的一部分，为浏览器提供了语音识别和语音合成的能力。这项API在WebKit中的支持为开发者带来了创建具有语音交互功能的Web应用的可能性。本文将详细介绍WebKit对WebSpeechAPI的支持，并提供实际的代码示例。一、WebSpeechAPI简介
开源的语音合成项目-EdgeTTS，无需部署无需Key AI码上来人工智能语音识别
前几天和大家分享了：全网爆火的AI语音合成工具-ChatTTS。有很多小伙伴反应模型下载还有点麻烦~今天再给大家带来一款开源的语音合成TTS项目-EdgeTTS，相比ChatTTS，操作起来对小白更友好。因为其底层是使用微软Edge的在线语音合成服务，所以不需要下载任何模型，甚至连api_key都给你省了，简直不要太良心~关键是，除了支持普通话外，还支持很多地方口音(比如:粤语、台湾口音、陕西话、
iOS Unity导出的工程基础百度语音合成SDK问题 Fintecher
没有基础百度语音合成sdk前,Unity可以正常播放声音。集成后百度语音合成sdk能够播放声音，但是Unity却不能播放声音。研究了一个多小时，终于在百度语音的sdk中发现一点蛛丝马迹。配置百度sdk的时候讲AVSession管理关闭[[BDSSpeechSynthesizersharedInstance]setSynthParam:@(0)forKey:BDS_SYNTHESIZER_PARAM
扩展语音识别系统：增强功能与多语言支持 GT开发算法工程师语音识别人工智能
一、引言在之前的博客中，我们成功构建了一个基于LibriSpeech数据集的英文语音识别系统。现在，我们将对系统进行扩展，增加一些增强功能，并尝试支持多语言识别。二、增加增强功能语音合成--除了语音识别，我们还可以增加语音合成（Text-to-Speech,TTS）功能，将文本转换为语音输出。这可以使得我们的系统不仅仅是一个转录工具，还能够进行语音交互。情感分析--通过结合情感分析模型，我们可以识
windows 环境实现文字转语音。咕噜咕噜_87bc
目前有很多提供语音合成的SDK，比如科大讯飞，百度，腾讯云等。其实windowspowershell里自带语音合成。例如：Add-Type-AssemblyNameSystem.speech;$speak=New-ObjectSystem.Speech.Synthesis.SpeechSynthesizer;$speak.Rate=1;//朗读速度$speak.SetOutputToWaveFil
虚拟人专题报告：虚拟人深度产业分析报告人工智能学派 xr
今天分享的是虚拟人系列深度研究报告：《虚拟人专题报告：虚拟人深度产业分析报告》。（报告出品方：Q量子位）报告共计：18页技术背景虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚
语音合成（TTS）技术在有道词典笔中的应用实践有道AI情报局有道技术团队语音识别人工智能
1.背景介绍自2017年10月推出有道翻译蛋开始，网易有道已先后推出了二十余款智能学习硬件产品，包括有道翻译王、有道口袋打印机、有道超级词典、有道词典笔、有道听力宝等。其中，有道词典笔开创了智能词典笔品类，连续两年获天猫、京东销量第一，并广受用户好评。在近期有道词典笔的全新软件升级中（关联阅读：全新软件升级！真的很有料），有两个重要的优化，分别是：发音接近真人，告别机械式发音准确度提升，正确朗读多
阿里云智能语音交互：API连接，助力用户运营 api
【无代码开发，轻松实现智能语音交互】随着技术的不断进步，智能客服系统已经变得越来越高效。阿里云智能语音交互技术是这一进步的典型代表。这种基于先进的语音识别、语音合成以及自然语言理解技术的服务，为用户提供了一种全新的人机交互体验。更重要的是，企业可以通过无代码开发轻松连接和集成这些服务，极大地提升了企业运营的效率。【API连接，简易的集成过程】对于想要使用阿里云智能语音交互服务的企业来说，连接和集成
python 文字转语音带情感_Python文字转换语音，让你的文字会「说话」抠脚大汉秒变撒娇萌妹... weixin_39947961 python 文字转语音带情感
APP也有文字转换为语音的功能，虽然听起来很别扭，但是基本能解决长辈们看不清文字或者眼睛疲劳，通过文字转换为语音来获取信息。我们用Python能否实现文字转语音呢，可以的，百度有个语音接口，可以在Python中直接调用，甚至提供了多种声音选择，当然可以选择萌妹子的声音。安装百度接口通过pip命令直接安装(-i后面是豆瓣的镜像，这样下载安装速度更快)创建应用百度语音合成地址如下：点击立即使用，没有登
PHP文字转语音排号声音_文字转语音真人发声在线怎么转换？这种操作最简单有书 PHP文字转语音排号声音
文字转语音真人发声在线怎么转换？我们在学习和生活中经常会需要给视频进行配音，但你可能会存在担心自己的声音不够好听，或者是不想暴露自己原有声音。下面笔者就来给大家安利一款非常不错的工具—文字转语音助手，帮助你轻松实现语音合成、在线文字。工具介绍文字转语音助手是一款文字语音转换应用，亦是我千挑万选出来的办公助手。它可以轻松帮助我们将文档或文字快速的转变成音频输出，还可将音频设置成有感情的女声或男声。在
TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码) 夏天｜여름이다 -Speech -#TTS -生成模型 -人工智能语音合成 vits
----------------------------------️语音合成VITS相关系列直达️-------------------------------------VITS：TTS|保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)MB-iSTFT-VITS：TTS|轻量级语音合成论文详解及项目实现MB-iSTFT-VITS2：TTS|轻量级VITS2的项目实现以及API
【记录】Python3｜用百度语音 API 朗读你的小说TXT shandianchengzi 代码 python 百度语音识别
百度语音合成官方教程_AI开放平台百度语音合成官方demo_github.com简单地写了一个按段落朗读文本的demo：DEMO链接_gitee.com。有时候会请求不到数据，不知道是网络原因还是什么，已添加自动重新请求。config.ini：;关于语音合成的相关配置[default]api_key=Yourapikeysecret_key=Yoursecretkey;发音人选择,基础音库：0为度
Stability AI一种新型随心所欲生成不同音调、口音、语气的文本到语音（TTS）音频模型喜好儿网人工智能语音识别
该模型无需提前录制人声样本作为参考，仅凭文字描述就能生成所需的声音特征。用户只需描述他们想要的声音特点，例如“一个语速较快、带有英国口音的女声”，模型即可相应地生成符合要求的语音。它不仅能模仿已有的声音，还能根据用户的描述合成全新的声音，展现出强大的语音生成能力。这一特性使得该模型在语音合成领域具有极高的灵活性和实用性。主要功能特点：高保真语音生成：此模型能依据文字描述，在各种口音、韵律风格、通道
vue 文字转语音mp3_vue 语音合成 - 梦魂清风的个人空间 - OSCHINA - 中文开源技术交流社区... 左锦辉 vue 文字转语音mp3
1、百度语音restAPIhttps请求，在线语音合成免费tex必填合成的文本，使用UTF-8编码。小于2048个中文字或者英文数字。(文本在百度服务器内转换为GBK后，长度必须小于4096字节)tok必填开放平台获取到的开发者access_token(见上面的“鉴权认证机制”段落)cuid必填用户唯一标识，用来计算UV值。建议填写能区分用户的机器MAC地址或IMEI码，长度为60字符以内ctp必
使用speech_sambert-hifigan_tts_zh-cn_16k模型语音合成 m0_67235149 python
一、下载模型语音合成-中文-多情感领域-16k-多发音人·模型库(modelscope.cn)二、安装类库安装modelscope参考官方文档：环境安装·文档中心(modelscope.cn)运行示例代码报错，还需要安装以下类库：pipinstallmatplotlibpipinstallkantts-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/
sambert中英混文本到语音训练教程小李学不会编程 python conda github 语音识别人工智能
sambert语音转文字使用教程搭建视频教程：开源项目sambert语言合成，手把手教你搭建和训练效果最好的中英混TTS项目，实现个性化语音合成。_哔哩哔哩_bilibili1.参考文档ModelScope魔搭社区#sambert，支持中文、英文、中英混音频的语言合成。个性化语音合成-自动标注模型-16k#数据标注，支持中文、英文、中英混音频的标注FRCRN语音降噪-单麦-16k#若声音有噪声，可
【语音合成】中文-多情感领域-16k-多发音人太空眼睛人工智能 tts 语音合成数字人 modelscope python
模型介绍语音合成-中文-多情感领域-16k-多发音人框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用，故此处仅涉及参数法。参数TTS系统可分为两大模块：前端和后端。前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块，它的功能是把输入文本进行解析，获得音素、音调、停顿和位置等语言学特征。后端包含时长模型、声学模型和声码器，它
PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】心安成长 PyTorch python pytorch windows
AI时代，我们不仅要学习Python，同时机器学习，深度学习利器也要逐步掌握，再次开始Pytorch学习教程记录。PyTorch是一个流行的开源深度学习框架，它可以用于构建、训练和部署各种机器学习和深度学习模型。PyTorch可以用于以下领域：计算机视觉：图像分类、目标检测、图像分割、人脸识别等。自然语言处理：机器翻译、文本分类、情感分析、问答系统等。语音处理：语音识别、语音合成、说话人识别等。生
百度语音合成API swoole~ PHP 百度 php
引言：随着语音合成技术的不断发展和应用，越来越多的开发者开始关注和学习如何将语音合成功能应用到自己的项目中。百度语音合成接口是一款强大的工具，提供了丰富的功能和灵活的调用方式。本文将介绍如何使用PHP语言实现对接百度语音合成接口的技巧与注意事项，并附上代码示例。一、准备工作要使用百度语音合成接口，首先需要拥有一个百度账号并创建一个应用，在创建应用时会分配给你一个APIKey和一个SecretKey
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin