小湉湉

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

(以下内容搬运自飞桨PaddleSpeech语音技术课程，点击链接可直接运行源码)

PP-TTS：流式语音合成原理及服务部署

1 流式语音合成服务的场景与产业应用

语音合成（Speech Sysnthesis），又称文本转语音（Text-to-Speech, TTS），指的是将一段文本按照一定需求转化成对应的音频的技术。

非流式合成适合语音输出，流式合成适合语音交互

语音合成分为非流式合成和流式合成，两者在实时性上有所不同。非流式语音合成，一次性输入文字，一次性输出语音，注重语音合成系统的整体运算速度，不适合做语音交互；流式语音合成，可以对输入文本进行分词断句、声学模型和声码器局部合成语音特征和音频，分段传回合成的音频，这种语音合成方式主要关注首包响应时间，首包响应时间越短，用户就会越快收到响应，用户等待时间减少，就不会因为等待回应而失去耐心，因此整体体验感更好，更适合作为语音交互场景的语音合成方案。

语音交互场景下，离线语音合成为更好的选择

目前，语音合成系统分为云端语音合成和离线语音合成。云端语音合成主要配套端到端或多层神经网络算法，语音输出质量高、算力强，但实时性更差，不适于语音交互；近年来，离线语音合成算法和算力得到逐步更新，一些参数化的合成方案质量也可达到一定的水平，适合于合成语音的交互类场景。

2 语音合成的基本流程

本教程主要讲解基于深度学习的语音合成技术，流水线包含 文本前端（Text Frontend）、声学模型（Acoustic Model） 和 声码器（Vocoder） 三个主要模块:

文本前端模块将原始文本转换为字符/音素
声学模型将字符/音素转换为声学特征，如线性频谱图、mel 频谱图、LPC 特征等
声码器将声学特征转换为波形

语音合成基本流程图

2.1 文本前端

文本前端模块主要包含：分段（Text Segmentation）、文本正则化（Text Normalization, TN）、分词（Word Segmentation, 主要是在中文中）、词性标注（Part-of-Speech, PoS）、韵律预测（Prosody）和字音转换（Grapheme-to-Phoneme，G2P）等。

其中最重要的模块是文本正则化模块和字音转换（TTS 中更常用 G2P 代指）模块。

各模块输出示例:

• Text: 全国一共有112所211高校
• Text Normalization: 全国一共有一百一十二所二一一高校
• Word Segmentation: 全国/一共/有/一百一十二/所/二一一/高校/
• G2P（注意此句中“一”的读音）:
    quan2 guo2 yi2 gong4 you3 yi4 bai3 yi1 shi2 er4 suo3 er4 yao1 yao1 gao1 xiao4
    （可以进一步把声母和韵母分开）
    q uan2 g uo2 y i2 g ong4 y ou3 y i4 b ai3 y i1 sh i2 er4 s uo3 er4 y ao1 y ao1 g ao1 x iao4
    （把音调和声韵母分开）
    q uan g uo y i g ong y ou y i b ai y i sh i er s uo er y ao y ao g ao x iao
    0 2 0 2 0 2 0 4 0 3 ...
• Prosody (prosodic words #1, prosodic phrases #2, intonation phrases #3, sentence #4):
    全国#2一共有#2一百#1一十二所#2二一一#1高校#4
    （分词的结果一般是固定的，但是不同人习惯不同，可能有不同的韵律）

2.2 声学模型

声学模型将字符/音素转换为声学特征，如线性频谱图、mel 频谱图、LPC 特征等。声学特征以 “帧” 为单位，一般一帧是 10ms 左右，一个音素一般对应 5~20 帧左右。声学模型需要解决的是 “不等长序列间的映射问题”，“不等长”是指，同一个人发不同音素的持续时间不同，同一个人在不同时刻说同一句话的语速可能不同，对应各个音素的持续时间不同，不同人说话的特色不同，对应各个音素的持续时间不同。这是一个困难的 “一对多” 问题。

# 卡尔普陪外孙玩滑梯
000001|baker_corpus|sil 20 k 12 a2 4 er2 10 p 12 u3 12 p 9 ei2 9 uai4 15 s 11 uen1 12 uan2 14 h 10 ua2 11 t 15 i1 16 sil 20

声学模型主要分为自回归模型和非自回归模型。自回归模型在 t 时刻的预测需要依赖 t-1 时刻的输出作为输入，预测时间长，但是音质相对较好；非自回归模型不存在预测上的依赖关系，预测时间快，音质相对较差。

主流声学模型：

自回归模型： Tacotron、Tacotron2 和 Transformer TTS 等
非自回归模型： FastSpeech、SpeedySpeech、FastPitch 和 FastSpeech2 等

2.3 声码器

声码器将声学特征转换为波形，它需要解决的是 “信息缺失的补全问题”。信息缺失是指，在音频波形转换为频谱图时，存在相位信息的缺失；在频谱图转换为 mel 频谱图时，存在频域压缩导致的信息缺失。假设音频的采样率是 16kHz，即 1s 的音频有 16000 个采样点，一帧的音频有 10ms，则 1s 中包含 100 帧，每一帧有 160 个采样点。声码器的作用就是将一个频谱帧变成音频波形的 160 个采样点，所以声码器中一般会包含上采样模块。

与声学模型类似，声码器也分为自回归模型和非自回归模型：

自回归模型：WaveNet、WaveRNN 和 LPCNet 等
非自回归模型：Parallel WaveGAN、Multi Band MelGAN、Style MelGAN 和 HiFiGAN 等

更多关于语音合成基础的精彩细节，请参考之前的课程。

3 流式语音合成模型设计

语音合成的基本流程如下：

流式合成的核心思路：
将 整条音频输出 转换成以 chunk 的方式进行输出。能否进行流式合成，取决于模型的结构，一般文本前端、声学模型和声码器都可以做流式处理。

流式语音合成要求语音合成系统的实时率（Real Time Factor） RTF < 1，即合成 1s 的音频所需的时间要小于 1s，否则无法达到实时地流式合成。

为了使得语音合成系统的 RTF < 1，PaddleSpeech 选择的声学模型和声码器都是速度更快的非自回归模型，本教程以 FastSpeech2 和 HiFiGAN 为例搭建流式语音合成系统。

3.1 文本前端优化

若训练过程中没有使用韵律特征，可以以产生 sp、sil 等静音段处（对应文本输入的标点符号位置）作为子句的划分标准。
若训练过程中使用了韵律特征，可以以四级韵律划分为例（#1， #2，#3， #4），以产生 #4 处作为子句的划分标准。

PaddleSpeech TTS 流式推理按照标点符号，将长文本切为短文本，分句处理输入文本，在保证模型推理时间的前提下，还能防止因输入文本过长导致的语音效果不佳的问题（FastSpeech2 是 Transformer 结构，虽然有 Positional Embedding，但是若输入文本过长，末尾的音频质量会明显差于开头的音频质量）。

3.2 声学模型流式合成

3.2.1 自回归模型（以 Tacotron2 为例）

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第1张图片

Tacotron2 模型结构图
Tacotron2 结构主要分为 Encoder 和 Decoder ：

Encoder：
- Character Embedding
- ConvLayers
- Bidirectional LSTM

Encoder 计算量小，合成速度快。

Decoder：
- LSTM Layers
- Layer PreNet
- Linear Projection
- Conv Layer PostNet

Decoder 计算量大，PreNet 逐帧输出，所有的帧计算完 concat 到一起，再输入到 PostNet。

Tacotron2 模型在进行前向计算时，主要时间消耗在 Decoder 部分，流式合成系统在 Decoder 部分进行流式计算，对 Mel 进行逐帧输出。

流式合成思路：

方案一：修改模型结构，砍掉 PostNet。

PreNet 与 PostNet 使用的是相同的 Loss，PreNet 逐帧输出，累积到一定帧长后，输入到 Vocoder
代价是合成的效果相对于原版会有所下降，需要考虑在实际测试过程，这个代价是否可以接受

方案二：多级缓存。

PreNet 输出的结果，先进入 Buffer 缓存，在达到了一定的长度之后，再输入到 PostNet
进入 PostNet 前对特征添加一定长度的 padding，可保持流式推理与非流式推理的结果一致

此处我们主要介绍方案二。

流式合成步骤：

Input Text 经过 Encoder 计算后得到 Encoder Feature
Encoder Feature 配合初始化的 Decoder State 和 Decoder Input 进入 Decoder 中进行解码得到当前帧 Mel 与下一帧计算所需的 Decoder State
Decoder State 与上一帧 Mel 循环得到下一帧 Mel
单帧的 Mel 进入缓冲区（Buffer），累计到一定长度后送入 PostNet 中，进入 PostNet 前进行 Padding，将前后切片的部分特征填充到当前切片中
计算完成后移除 Padding 部分对应的输出，得到最终需要的 Mel 送入二级 Buffer 块中，累积到一定长度后进入声码器中进行计算得到音频

计算流程图如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第2张图片

Tacotron2 流式合成结构图

3.2.2 非自回归模型（以 FastSpeech2 为例）

FastSpeech2 模型由 Phoneme Embedding、Encoder、Variance adaptor 和 Decoder 等几个部分组成。其前向计算主要耗时集中在 Decoder 部分，因此我们选择对 Decoder 部分进行流式计算。

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第3张图片

FastSpeech2 模型结构图

FastSpeech2 Encoder 和 Decoder 都是使用 FFT Block，FFT Block 中的 Multi-Head Attention 是全局依赖的，无法直接通过 chunk 的方式进行流式合成。

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第4张图片

FFT Block 结构图

流式合成思路：

方案一：用基于局部感受野的 Attention 替换依赖全局感受野的 Attention

方案二：更换 FFT Block，用局部感受野的模块替换，如，以 Covn1D 为主体的模块

方案一

常见于基于 Transformer/Conformer 结构的流式 ASR 结构。

将 Decoder 的 Attention 更换成基于 chunk 的 attention，chunk 内部不会依赖于右侧的数值；同时将 Conv1D 结构更换成因果卷积（Causal Convolution），避免右侧上下文对计算的影响。基于 chunk 的 Attention 有多种选择方式，既可以是固定大小的 chunk，也可以是动态大小；可以只关注自己 chunk 内的数值，也可以只关注从开头到自己 chunk 内的数值。训练时使用基于动态 chunk 的 attention 结构，在推理过程中，可以直接使用切片后的 Encoder Feature 输入 Decoder 模块中解码，计算结果与整体合成的结果保持一致。

更多细节可参考：语音识别-流式服务-模型部分。

方案二

将 Decoder 的 FFT Block 替换成 Conv1D Residual Block（不限于图中结构），其模型结构如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第5张图片

Conv1D Residual Block 结构图

Conv1D Residual Block 结构并不会依赖于整个序列，而是依赖于局部序列，因此 Decoder 部分可以通过切片的方式进行流式合成，只要保证对局部的 chunk 输入，padding 足够多的前后信息，就可以使拼接起来的局部输出与输入完整信息得到的输出在数值上一致。

流式合成步骤如下：

Input Text 经过 Phoneme Embedding 之后，通过 Encoder 模块的计算得到 Encoder Feature（图中简写为 EF）
对 Encoder Feature 进行切片，切片后的特征进行 Padding，将前后切片的部分特征填充到当前切片中
添加了前后 Padding 信息的 EF 经过 Decoder 计算得到 Decoder Feature(DF)
移除 Padding 部分对应的输出，则可以得到与整体计算结果一致的 DF

计算流程图如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第6张图片

FastSpeech2 流式合成结构图

PaddleSpeech 流式语音合成的声学模型选择 FastSpeech2 的方案二，声学模型流式推理过程请参考：synthesize_streaming.py

3.3 声码器流式合成

声码器流式合成以 HiFiGAN 模型为例进行说明。基于 GAN 的声码器流式合成的原理与 FastSpeech2 流式合成的方案二类似，因为 GAN Vocoder 的生成器主要是由卷积块组成的，只要保证对局部的 chunk 输入，padding 足够多的前后信息，就可以使拼接起来的局部输出与输入完整信息得到的输出在数值上一致。

基于 GAN 的 Vocoder 模型主体结构分为两个部分，生成器（Generator）与判别器（Discriminator）。

在推理过程中仅需要使用生成器模块，生成器主体部分由 Conv1D、Conv1DTranspose 和 Residual Block 等模块组成。

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第7张图片

HiFiGAN 生成器结构图

语音合成的推理过程与 Vocoder 的判别器无关。

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第8张图片

HiFiGAN 判别器结构图

声码器流式合成时，Mel Spectrogram（图中简写 M）通过 Vocoder 的生成器模块计算得到对应的 Wave（图中简写 W）。

声码器流式合成步骤如下：

在进入 Vocoder 之前，对 Mel Spectrogram 进行切片，切片后的特征进行 Padding，将前后切片的部分特征填充到当前切片中
添加了前后 Padding 信息的 Mel 块输入给 Vocoder 计算得到添加了 Padding 的 Wave
移除 Padding 部分对应的 Wave 块，得到与整体计算数值一致的 Wave 块

计算流程图如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第9张图片

Vocoder 流式合成结构图

不同模块 padding 的大小因感受野不同而变化，目前 PaddleSpeech 提供的模型配置，与整体计算数值一致的 padding 值：

FastSpeech2_CNNDecoder: 12
Multi Band MelGAN: 14
HiFiGAN: 19

实际应用中，可根据推理速度上的需求，在不影响合成效果的前提下，适当降低 padding 值。

4 基于 ONNXRuntime 的语音合成推理引擎

ONNX 是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。它使得不同的深度学习框架（如 PaddlePaddle 、Pytorch、TensorFlow 等）可以采用相同格式存储模型数据。是一种便于在各个主流深度学习框架中迁移模型的中间表达格式。

ONNXRuntime 是微软推出的一款推理框架，用户可以非常便利的用其运行 ONNX 模型，它支持多种运行后端包括 CPU、GPU、TensorRT 和 DML 等。把深度学习框架训练好的模型转换成 ONNX 格式的模型，再利用 ONNXRuntime 引擎进行推理，会达到比用该深度学习框架原生推理引擎更快的速度，一般的交互式硬件只有质量一般的 CPU，并没有 GPU，利用 ONNXRuntime-CPU，可以多线程地运行神经网络推理流程，大大加快语音合成模型的推理速度，更好地满足流式语音合成的要求。

ONNX 模型的通用性，使开发者可以把模型替换成在其他深度学习框架训练好的模型，而不需要对流式语音合成服务的代码进行大的修改。极大地提升了语音合成服务代码的复用性。

使用 ONNXRuntime 进行流式推理，需要经过如下步骤：

动态图训练
动转静
静态图推理（保证静态图模型没问题）
静态图 Paddle2ONNX
ONNXRuntime / ONNX 推理

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第10张图片

Paddle 模型实现 ONNXRuntime 推理流程图

参考： tts3/run.sh （default FastSpeech2）和 tts3/run_cnndecoder.sh （FastSpeech2_CNNDecoder）

4.1 动态图训练

PaddlePaddle 在模型开发时，推荐采用动态图编程。可获得更好的编程体验、更易用的接口、更友好的调试交互机制。

run.sh 的 stage0 数据预处理和 stage1 训练

if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    # prepare data
    ./local/preprocess.sh ${conf_path} || exit -1
fi

if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # train model, all `ckpt` under `train_output_path/checkpoints/` dir
    CUDA_VISIBLE_DEVICES=${gpus} ./local/train.sh ${conf_path} ${train_output_path} || exit -1
fi

4.2 动转静

若要使用 PaddleInference 推理引擎或者将 Paddle 模型转换成通用的 ONNX 模型，需要对 Paddle 的动态图模型进行动转静。

Paddle 动转静相关概念请参考动态图转静态图。

run.sh 的 stage3

if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
    # synthesize_e2e, vocoder is pwgan
    CUDA_VISIBLE_DEVICES=${gpus} ./local/synthesize_e2e.sh ${conf_path} ${train_output_path} ${ckpt_name} || exit -1
fi

run_cnndecoder.sh 的 stage3（完整推理）和 stage5（流式推理）

# synthesize_e2e non-streaming
if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
    # synthesize_e2e, vocoder is pwgan
    CUDA_VISIBLE_DEVICES=${gpus} ./local/synthesize_e2e.sh ${conf_path} ${train_output_path} ${ckpt_name} || exit -1
fi

# synthesize_e2e streaming
if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
    # synthesize_e2e, vocoder is pwgan
    CUDA_VISIBLE_DEVICES=${gpus} ./local/synthesize_streaming.sh ${conf_path} ${train_output_path} ${ckpt_name} || exit -1
fi

PaddleSpeech 在运行 synthesize_e2e.py 和 synthesize_streaming.py 脚本时，如果输入了 --inference_dir，会执行动转静、保存静态模型后 load、再用 load 的静态参数推理：

jit.to_static()
jit.save()
jit.load()

注意，FastSpeech2_CNNDecoder 用于流式合成时，在动转静时需要导出 3 个静态模型，分别是：

fastspeech2_csmsc_am_encoder_infer.*
fastspeech2_csmsc_am_decoder.*
fastspeech2_csmsc_am_postnet.*

参考 synthesize_streaming.py

FastSpeech2_CNNDecoder 用于非流式合成时，可以只导出一个模型，参考 synthesize_e2e.py

4.3 静态图推理

静态图推理的目的是保证动转静导出的模型没问题，使用 PaddleInference 引擎进行推理。

run.sh 的 stage4

if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
    # inference with static model
    CUDA_VISIBLE_DEVICES=${gpus} ./local/inference.sh ${train_output_path} || exit -1
fi

run_cnndecoder.sh 的 stage4（完整推理）和 stage6（流式推理）

# inference non-streaming
if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
    # inference with static model
    CUDA_VISIBLE_DEVICES=${gpus} ./local/inference.sh ${train_output_path} || exit -1
fi

# inference streaming
if [ ${stage} -le 6 ] && [ ${stop_stage} -ge 6 ]; then
    # inference with static model
    CUDA_VISIBLE_DEVICES=${gpus} ./local/inference_streaming.sh ${train_output_path} || exit -1
fi

4.4 Paddle2ONNX

可以使用 Paddle2ONNX 把 Paddle 的静态图模型转换成通用的 ONNX 模型格式。

run.sh 的 stage5

# paddle2onnx, please make sure the static models are in ${train_output_path}/inference first
# we have only tested the following models so far
if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
    # install paddle2onnx
    version=$(echo `pip list |grep "paddle2onnx"` |awk -F" " '{print $2}')
    if [[ -z "$version" || ${version} != '0.9.5' ]]; then
        pip install paddle2onnx==0.9.5
    fi
    ./local/paddle2onnx.sh ${train_output_path} inference inference_onnx fastspeech2_csmsc
    ./local/paddle2onnx.sh ${train_output_path} inference inference_onnx hifigan_csmsc
    ./local/paddle2onnx.sh ${train_output_path} inference inference_onnx mb_melgan_csmsc
fi

run_cnndecoder.sh 的 stage7（完整推理）和 stage9（流式推理）

# paddle2onnx non streaming
if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 7 ]; then
    # install paddle2onnx
    version=$(echo `pip list |grep "paddle2onnx"` |awk -F" " '{print $2}')
    if [[ -z "$version" || ${version} != '0.9.5' ]]; then
        pip install paddle2onnx==0.9.5
    fi
    ./local/paddle2onnx.sh ${train_output_path} inference inference_onnx fastspeech2_csmsc
    ./local/paddle2onnx.sh ${train_output_path} inference inference_onnx hifigan_csmsc
fi

# paddle2onnx streaming
if [ ${stage} -le 9 ] && [ ${stop_stage} -ge 9 ]; then
    # install paddle2onnx
    version=$(echo `pip list |grep "paddle2onnx"` |awk -F" " '{print $2}')
    if [[ -z "$version" || ${version} != '0.9.5' ]]; then
        pip install paddle2onnx==0.9.5
    fi
    # streaming acoustic model
    ./local/paddle2onnx.sh ${train_output_path} inference_streaming inference_onnx_streaming fastspeech2_csmsc_am_encoder_infer
    ./local/paddle2onnx.sh ${train_output_path} inference_streaming inference_onnx_streaming fastspeech2_csmsc_am_decoder
    ./local/paddle2onnx.sh ${train_output_path} inference_streaming inference_onnx_streaming fastspeech2_csmsc_am_postnet
    # vocoder
    ./local/paddle2onnx.sh ${train_output_path} inference_streaming inference_onnx_streaming hifigan_csmsc
fi

4.5 ONNX / ONNXRuntime 推理

导出 ONNX 格式的模型后，就可以用 ONNX 引擎或者 ONNXRuntime 进行推理啦，此处我们选择 ONNXRuntime 作为推理引擎。采用 ONNXRuntime 作为推理引擎，FastSpeech2 + HIFIGAN 即使在低压 CPU 上也可以达到实时，满足流式合成的要求。

run.sh 的 stage6

# inference with onnxruntime, use fastspeech2 + hifigan by default
if [ ${stage} -le 6 ] && [ ${stop_stage} -ge 6 ]; then
    ./local/ort_predict.sh ${train_output_path}
fi

run_cnndecoder.sh 的 stage8（完整推理）和 stage10（流式推理）

# onnxruntime non streaming
# inference with onnxruntime, use fastspeech2 + hifigan by default
if [ ${stage} -le 8 ] && [ ${stop_stage} -ge 8 ]; then
    ./local/ort_predict.sh ${train_output_path}
fi

# onnxruntime streaming
if [ ${stage} -le 10 ] && [ ${stop_stage} -ge 10 ]; then
    ./local/ort_predict_streaming.sh ${train_output_path}
fi

5 语音合成服务部署

5.1 非流式语音合成服务的启动和访问

安装好 PaddleSpeech 之后，可以通过命令行的形式快速启动和访问非流式语音合成服务。参考链接：demos/speech_server

启动及访问服务的流程如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第11张图片

非流式 TTS 服务的启动与访问流程图（左：启动服务流程；右：访问服务流程）

启动服务步骤：

准备服务对应的配置参数文件，文件内包含该服务启动使用的模型相关信息和服务端口，引擎选择的相关信息，详情可看 5.1.1 小节
根据配置文件中引擎的选择将对应的引擎加入到引擎池中（该步骤的目的是为了使得启动的服务入口可以支持多个语音服务）
根据配置文件中的模型配置对上述对应的引擎进行初始化
使用 fastapi 和 uvicorn 启动服务

访问服务步骤：

client 端向 server 端发送 http 请求（在这个过程中，client 端会先向 server 端发送建立连接请求并和 server 端建立连接）
server 端收到请求后先检查字段内容是否有效，然后去引擎池取对应的引擎
引擎进行推理生成合成音频，将其封装成设计的响应格式，返回响应到 client 端，并自动断开连接
client 端收到响应后，对其结果进行后处理（保存音频操作）

5.1.1 准备服务配置文件

首先我们需要准备一个服务相关的 yaml 配置文件（application.yaml），配置文件内容如下：

host: 0.0.0.0                # server ip
port: 8090                   # server port 

protocol: 'http'             # only support http
engine_list: ['tts_python']  # speech task_engine type, can choose tts_python or tts_inference.

################### speech task: tts; engine_type: python #######################
tts_python: 
    # am (acoustic model) choices=['speedyspeech_csmsc', 'fastspeech2_csmsc', 'fastspeech2_ljspeech', 'fastspeech2_aishell3', 'fastspeech2_vctk']        
    am: 'fastspeech2_csmsc'   
    am_config: 
    am_ckpt: 
    am_stat: 
    phones_dict: 
    tones_dict: 
    speaker_dict: 

    # voc (vocoder) choices=['pwgan_csmsc', 'pwgan_ljspeech', 'pwgan_aishell3', 'pwgan_vctk', 'mb_melgan_csmsc']
    voc: 'pwgan_csmsc'
    voc_config: 
    voc_ckpt: 
    voc_stat: 

    # others
    lang: 'zh'
    device:                   # set 'gpu:id' or 'cpu'

################### speech task: tts; engine_type: inference #######################
tts_inference:
    # am (acoustic model) choices=['speedyspeech_csmsc', 'fastspeech2_csmsc']
    am: 'fastspeech2_csmsc'   
    am_model: # the pdmodel file of your am static model (XX.pdmodel)
    am_params: # the pdiparams file of your am static model (XX.pdipparams)
    am_sample_rate: 24000
    phones_dict: 
    tones_dict: 
    speaker_dict: 

    am_predictor_conf:
        device:               # set 'gpu:id' or 'cpu'
        switch_ir_optim: True
        glog_info: False      # True -> print glog
        summary: True         # False -> do not show predictor config

    # voc (vocoder) choices=['pwgan_csmsc', 'mb_melgan_csmsc','hifigan_csmsc']
    voc: 'pwgan_csmsc'
    voc_model:                # the pdmodel file of your vocoder static model (XX.pdmodel)
    voc_params:               # the pdiparams file of your vocoder static model (XX.pdipparams)
    voc_sample_rate: 24000

    voc_predictor_conf:
        device:               # set 'gpu:id' or 'cpu'  
        switch_ir_optim: True  
        glog_info: False      # True -> print glog
        summary: True         # False -> do not show predictor config

    # others
    lang: 'zh'

5.1.2 一键式启动服务

服务的配置文件（application.yaml）准备好后，执行下述命令可一键启动服务：

paddlespeech_server start --config_file application.yaml

显示如下表示启动服务成功：

[2022-02-23 11:17:32] [INFO] [server.py:64] Started server process [6384]
INFO:     Waiting for application startup.
[2022-02-23 11:17:32] [INFO] [on.py:26] Waiting for application startup.
INFO:     Application startup complete.
[2022-02-23 11:17:32] [INFO] [on.py:38] Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8090 (Press CTRL+C to quit)
[2022-02-23 11:17:32] [INFO] [server.py:204] Uvicorn running on http://0.0.0.0:8090 (Press CTRL+C to quit)

5.1.3 一键式访问 TTS 服务

使用如下指令可直接访问非流式 TTS 服务：

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

结果显示如下表示访问服务成功：

[2022-02-23 15:20:37,875] [    INFO] - {'description': 'success.'}
[2022-02-23 15:20:37,875] [    INFO] - Save synthesized audio successfully on output.wav.
[2022-02-23 15:20:37,875] [    INFO] - Audio duration: 3.612500 s.
[2022-02-23 15:20:37,875] [    INFO] - Response time: 0.348050 s.

5.1.4 服务接口定义

url: http://127.0.0.1:8090/paddlespeech/tts
请求方式：POST
请求示例如下，该示例包含所有字段：

{
    "text": "您好，欢迎使用百度飞桨语音合成服务。",
    "spk_id": 0,
    "speed": 1.0,
    "volume": 1.0,
    "sample_rate": 0,
    "save_path": "./output.wav",
}

成功返回示例如下：

{
    "success": true,
    "code": 0,
    "message": {"global": "success" }
    "result": {
        "lang": "zh",
        "spk_id": 0,
        "speed": 1.0,
        "volume": 1.0,
        "sample_rate": 24000,
        "duration": 3.6125,
        "save_path": "./output.wav",
        "audio": "LTI1OTIuNjI1OTUwMzQsOTk2OS41NDk4..."
    }
}

更多非流式服务接口定义请参考：PaddleSpeech 语音服务接口定义

5.2 流式语音合成服务的启动和访问

安装好 PaddleSpeech 之后，可以通过命令行的形式来快速启动访问流式 TTS 服务。参考链接：demos/streaming_tts_server

流式 TTS 服务支持 http 和 webscoket 两种协议。

http 支持流式返回，可以满足目前的流式 TTS 的方案，即请求一次，返回流式数据，响应返回结束会自动断开连接。

而 websocket 支持双工，适用于需要长连接的场景，也可应用于目前的流式 TTS 的方案，可以在一次连接中请求多次，相比 http 请求多次而言，可减少建立连接的次数。

除此之外，流式 ASR 使用的是 websocket 协议，使用 webscoket 协议启动服务，可以同时启动包含流式 ASR 和流式 TTS 的服务。

启动流式 TTS 服务的整体流程与启动非流式 TTS 服务的整体流程一致。

访问流式 TTS 服务流程如下图所示：

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践_第12张图片

访问流式 TTS 服务流程图（左：访问 http 服务；右：访问 websocket 服务）

访问 http 流式服务步骤：

client 端向 server 端发送 http 请求（在这个过程中，client 端会先向 server 端发送建立连接请求并和 server 端建立连接）
server 端收到请求后先检查字段内容是否有效，然后去引擎池取对应的引擎
引擎进行推理不断生成音频流，将音频片段转成 base64 返回，返回流结束后并自动断开连接
client 端收到响应后，可以对其进行操作，例如播放音频

访问 websocket 流式服务步骤：

client 端向 server 端发送握手请求，握手成功后 client 端和 server 端会建立 websocket 连接
建立 websocket 连接后，client 端首先向 server 端发送 start 请求，获取本次连接的标识 id（session）
client 端收到 server 端对 start 请求的响应之后，client 端向 server 端发送语音合成请求
server 端收到请求后先检查字段内容是否有效，然后去引擎池取对应的引擎
引擎进行推理不断生成音频流，将音频片段转成 base64 并封装成设计的响应格式，返回响应到 client 端
client 端收到响应后，可以对其进行操作，例如播放音频
client 端收到最后一个响应之后，向 server 端发送 end 请求，server 断开 websocket 连接（单请求情况，若多请求可以一直保持连接）

5.2.1 服务配置文件

无论是 http 协议还是 websocket 协议，启动服务都需要有服务配置 yaml 文件（tts_online_application.yaml）。

若想启动 http 协议的服务，将 protocol 设置为 http ；若想启动 websocket 协议的服务，将 protocol 设置为 websocket，配置文件内容如下：

host: 0.0.0.0
port: 8092

protocol: 'http'
engine_list: ['tts_online-onnx']

################### speech task: tts; engine_type: online #######################
tts_online: 
    # am (acoustic model) choices=['fastspeech2_csmsc', 'fastspeech2_cnndecoder_csmsc']      
    am: 'fastspeech2_csmsc'   
    am_config: 
    am_ckpt: 
    am_stat: 
    phones_dict: 
    tones_dict: 
    speaker_dict: 

    # voc (vocoder) choices=['mb_melgan_csmsc, hifigan_csmsc']
    voc: 'mb_melgan_csmsc'
    voc_config: 
    voc_ckpt: 
    voc_stat: 

    # others
    lang: 'zh'
    device: 'cpu' # set 'gpu:id' or 'cpu'
    am_block: 72
    am_pad: 12
    voc_block: 36
    voc_pad: 14
    

################### speech task: tts; engine_type: online-onnx #######################
tts_online-onnx: 
    # am (acoustic model) choices=['fastspeech2_csmsc_onnx', 'fastspeech2_cnndecoder_csmsc_onnx']      
    am: 'fastspeech2_cnndecoder_csmsc_onnx' 
    # am_ckpt is a list, if am is fastspeech2_cnndecoder_csmsc_onnx, am_ckpt = [encoder model, decoder model, postnet model];
    # if am is fastspeech2_csmsc_onnx, am_ckpt = [ckpt model];
    am_ckpt:          # list
    am_stat: 
    phones_dict: 
    tones_dict: 
    speaker_dict: 
    spk_id: 0
    am_sample_rate: 24000
    am_sess_conf:
        device: "cpu" # set 'gpu:id' or 'cpu'
        use_trt: False
        cpu_threads: 4

    # voc (vocoder) choices=['mb_melgan_csmsc_onnx, hifigan_csmsc_onnx']
    voc: 'hifigan_csmsc_onnx'
    voc_ckpt: 
    voc_sample_rate: 24000
    voc_sess_conf:
        device: "cpu" # set 'gpu:id' or 'cpu'
        use_trt: False
        cpu_threads: 4

    # others
    lang: 'zh'
    am_block: 72
    am_pad: 12
    voc_block: 36
    voc_pad: 14
    voc_upsample: 300

5.2.2 一键式启动服务

服务的配置文件（application.yaml）准备好后，执行下述命令可一键启动服务：

paddlespeech_server start --config_file tts_online_application.yaml

显示如下表示启动服务成功：

[2022-04-24 21:00:17] [INFO] [server.py:75] Started server process [320]
INFO:     Waiting for application startup.
[2022-04-24 21:00:17] [INFO] [on.py:45] Waiting for application startup.
INFO:     Application startup complete.
[2022-04-24 21:00:17] [INFO] [on.py:59] Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8092 (Press CTRL+C to quit)
[2022-04-24 21:00:17] [INFO] [server.py:211] Uvicorn running on http://0.0.0.0:8092 (Press CTRL+C to quit)

5.2.3 一键式访问流式 TTS 服务

使用如下指令可一键式访问流式 TTS 服务：

访问 http 流式 TTS 服务 (–protocol http)

paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8090 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

访问 websocket 流式 TTS 服务 (–protocol websocket)

paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8090 --protocol websocket --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

结果显示如下表示访问服务成功：

[2022-04-24 21:08:21,702] [    INFO] - 句子：您好，欢迎使用百度飞桨语音合成服务。
[2022-04-24 21:08:21,703] [    INFO] - 首包响应：0.18863153457641602 s
[2022-04-24 21:08:21,704] [    INFO] - 尾包响应：3.1427218914031982 s
[2022-04-24 21:08:21,704] [    INFO] - 音频时长：3.825 s
[2022-04-24 21:08:21,704] [    INFO] - RTF: 0.8216266382753459
[2022-04-24 21:08:21,739] [    INFO] - 音频保存至：output.wav

5.2.4 服务接口定义

访问 http 流式 TTS 服务
url: http://127.0.0.1:8092/paddlespeech/tts/stareaming
请求方式：POST
请求示例如下，该示例包含所有字段（目前流式 TTS 服务只使用到 text 字段，其他字段暂不生效）：

{
    "text": "您好，欢迎使用百度飞桨语音合成服务。",
    "spk_id": 0,
    "speed": 1.0,
    "volume": 1.0,
    "sample_rate": 0,
    "save_path": "./output.wav",
}

返回为音频经过 base64 编码的 string，如下：

LTI1OTIuNjI1OTUwMzQsOTk2OS41NDk4...

访问 websocket 流式 TTS 服务
url: ws://127.0.0.1:8092/paddlespeech/tts/stareaming

首先建立 websocket 连接，建立连接后发送开始请求，请求示例如下：

{
    "task": "tts",
    "signal": "start"
}

成功响应开始请求的示例如下，其中 status 为 0 表示可以开始发送请求，signal 表示 server 是否准备好， session 为 40 位的随机字符串，用来表示此次连接的编号。

{
    "status": 0, 
    "signal": "server ready",
    "session": "UloVFXg3xjb2nIP6xH58Ms8G98vnA1thHL6snKOy"
}

server 端返回成功开始的响应后，client 端向服务端发送流式语音合成请求，请求示例如下。其中 text 字段表示待合成文本经过 base64 编码后的 string，下述 string 对应的文本为：您好，欢迎使用百度飞桨语音合成服务。

注意：流式 http request 直接传文本，websocket 传 base64 的 string，具体原因会在 FAQ 部分解释。

{
    "text": "5oKo5aW977yM5qyi6L+O5L2/55So55m+5bqm6aOe5qGo6K+t6Z+z5ZCI5oiQ5pyN5Yqh44CC",
}

成功响应示例如下，其中 status 字段表示音频片段是否为最后一段，status 为 2 表示该音频片段为最后一片段，status 为 1 表示该音频片段不是最后一片段；audio 字段表示音频片段经过 base64 编码后的 string。

{
    "status": 1,
    "audio": "LTI1OTIuNjI1OTUwMzQsOTk2OS41NDk4...",
    "session": "UloVFXg3xjb2nIP6xH58Ms8G98vnA1thHL6snKOy"
}

client 端收到 server 返回的 status 为 2 的最后一个音频片段的响应后，发送结束连接的请求，请求示例如下，其中 session 表示此次连接的编号。

{
    "task": "tts",
    "signal": "end",
    "session": "UloVFXg3xjb2nIP6xH58Ms8G98vnA1thHL6snKOy",
}

成功响应示例如下：

{
    "status": 0, 
    "signal": "connection will be closed",
    "session": "UloVFXg3xjb2nIP6xH58Ms8G98vnA1thHL6snKOy"
}

更多流式服务接口定义请参考：PaddleSpeech Streaming Server WebSocket API （仅 websocket）

5.3 Demo 演示

下例中，server 端和 client 端均运行在低配 Windows10 笔记本上，机器配置如下：

Python 版本：3.8.3

Paddle 版本：2.3.0rc

PaddleSpeech 版本：1.0.0

ONNXRuntime 版本：1.10.0

CPU：

Intel® Core™ i5-8250U CPU @ 1.60GHz
cpu 核数：4
逻辑 cpu (线程)：8

内存：8G

点击播放

FAQ

1. 为什么流式 http request 直接传文本，websocket 传 base64 的 string ？

因为 http 流式服务直接复用了非流式 TTS 服务的请求类，非流式请求类直接传文本是为了使请求看上去比较直观（直接显示文本），如果想改成传 base64 的 string 也可以（改下代码就行）。websocket 是考虑到网络中传 base64 可能会更快些，也可以直接传文本。（总体而言，传哪种类型并不是那么重要）

2. 为什么流式 TTS 服务既支持 http 协议又支持 websocket 协议？

http 支持流式返回，可以满足我们流式 TTS 的需求，比 websocket 建立连接要简单，比较直观，响应返回结束后会自动断开连接。

而 websocket 支持双工，可以一直建立连接，因此它不仅能支持目前的流式（一开始传入的就是确定好的文本，然后模型支持流式），也能支持分段输入的文本进行流式合成，例如一段文本返回一个响应（这样的情况模型可以不支持流式）。并且 websocket 可以支持流式语音识别，因此在我们的框架下，使用 websocket 协议，可以同时启动流式语音合成和流式语音识别的服务。

3. http 流式和 websocket 流式的区别和利弊？

http 适用于单次请求访问，每次请求之前都需要建立连接，相比 websocket 更直观，简洁，无需发送 start 请求和 end 请求。

websocket 适用于多次请求访问，它可以更好地支持长连接，相比 http 的多次请求而言，可以减少建立连接的次数，同时流式 ASR 也使用了 websocket 协议，因此使用 websocket 协议可以在一个服务中同时启动两个语音任务。仅针对流式 TTS 单请求而言，使用 http 和 websocket 差别不大。

你可能感兴趣的:(语音合成,MachineLearning,paddlepaddle,语音识别,人工智能,音频)

[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
深入了解SIP架构与多媒体通信协议亜恵恵阿由 SIP架构 SDP协议 RTP协议 MGCP协议 RTSP协议
深入了解SIP架构与多媒体通信协议背景简介在现代网络通信中，会话发起协议（SIP）已成为关键的组件，特别是在VoIP和多媒体通信领域。SIP不仅支持音频和视频通信，还通过各种协议和架构实现复杂的通信场景。本文将对SIP相关的关键技术进行分析，探讨它们在实时通信中的作用和意义。会话描述协议（SDP）SDP是一种文本协议，用于在SIP会话初始化时发送必要的多媒体信息。它提供了关于会话名称、活动时间、交
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
高通 audio pal 配置文件盼雨落，等风起 audio 音视频
一、PAL配置文件解析1.mixer_paths.xml-硬件控制中枢核心作用：物理通路定义：建立Codec寄存器到音频端点的信号链路动态控制：运行时通过ALSAControlAPI（如amixerset"SpkrLeftPAVolume"25）实时调整参数平台适配：文件命名规则mixer_paths__.xml（如mixer_paths_sm8550-demo.xml）调试技巧：使用tinymi
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
九、buildroot系统 usb配置
3.3、usb配置源码中kernel默认已经打开了相关的usb配置，只需要在buildroot中打开相关配置。1、基本功能类别简称功能描述ADB(AndroidDebugBridge)ADB是一种功能多样的命令行调试工具，可以实现文件传输，UnixShell登录等功能。UAC（USBAudioClass）UAC通过USB虚拟标准PCM接口给Host设备，实现Device和Host之间音频互传功能。
音频转文字-在线工具包及使用记录一笑code 音频转文字
资料来源：https://zhuanlan.zhihu.com/p/269603431（多种方案）视频教程：https://www.youtube.com/watch?v=L1H5ov4WTBghttps://github.com/openai/whisper//创建虚拟环境python-mvenvmyvnev//激活虚拟环境sourcemyvnev/bin/activatepipinstall-
如何用AI开发完整的小程序＜10＞—总结鱼雀AIGC AI开发编程人工智能小程序 ai编程 AIGC AI编程
通过之前9节的学习。如何用Ai制作一款简单小程序的内容就已经都介绍完了。总结起来就以下几点：1、搭建开发制作环境2、创建页面（需要手动）3、在页面上制作UI效果（让Ai搞，自己懂了后可以自己调）4、实现代码交互功能（让Ai搞，自己不需要懂）5、如果需要引入外部资源，比如图片，音频，js配置文件等，就将对应的文件丢到项目里，然后告诉AI文件的位置，让AI自己去取然后实现对应功能即可。（图片，视频的引
打造高效富文本编辑体验：Vue3 + wangEditor5 自定义上传音频与视频皮熠艳
打造高效富文本编辑体验：Vue3+wangEditor5自定义上传音频与视频【下载地址】Vue3wangEditor5自定义上传音频与视频Vue3+wangEditor5自定义上传音频与视频本仓库提供了一个资源文件，详细介绍了如何在Vue3项目中使用wangEditor5富文本编辑器，并自定义扩展音频、视频、图片菜单功能项目地址:https://gitcode.com/open-source-to
Android实时获取声音音量大小泓博 android
使用AudioRecord实时获取音量创建一个AudioRecord实例并持续读取音频数据，计算音量大小。AudioRecord适用于需要原始音频数据的场景。privatevoidstartRecording(){intminBufferSize=AudioRecord.getMinBufferSize(SAMPLE_RATE,AudioFormat.CHANNEL_IN_MONO,AudioFo
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
快速傅里叶变换(FFT)是什么？ Yashar Qian 信号处理快速傅里叶变换
快速傅里叶变换(FFT)是什么？快速傅里叶变换（FFT）本质上是一种极其高效的算法，用来计算**离散傅里叶变换（DFT）**及其逆变换。它是数字信号处理、科学计算和工程应用中最重要的算法之一。要理解FFT，先理解它要解决的问题：离散傅里叶变换（DFT）是什么？DFT全称：**DiscreteFourierTransform（离散傅里叶变换）想象你有一段数字化的信号（比如一段音频采样、图像像素数据、
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe