Sonhhxg_柒

AI拟声: 5秒内克隆您的声音并生成任意语音内容

特征

中文支持普通话并测试了多个数据集：aidatatang_200zh、magicdata、aishell3、data_aishell等。

PyTorch为 pytorch 工作，在 1.9.0 版本中测试（最新于 2021 年 8 月），GPU Tesla T4 和 GTX 2060

Windows + Linux在 Windows 操作系统和 linux 操作系统中运行（甚至在 M1 MACOS 中）

通过重用预训练的编码器/声码器，只需新训练的合成器即可获得简单而令人敬畏的效果

网络服务器准备好通过远程调用为您提供结果

进行中的工作

GUI/客户端大升级与合并 [X] 初始化框架 ./mkgui （基于streamlit + fastapi）和技术设计 [X] 增加 Voice Cloning and Conversion的演示页面 [X] 增加Voice Conversion的预处理preprocessing 和训练 training 页面 [ ] 增加其他的的预处理preprocessing 和训练 training 页面
模型后端基于ESPnet2升级

1. 安装要求

按照原始存储库测试您是否已准备好所有环境。运行工具箱(demo_toolbox.py)需要 Python 3.7 或更高版本 。

安装 PyTorch。

如果在用 pip 方式安装的时候出现 ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 这个错误可能是 python 版本过低，3.9 可以安装成功

安装 ffmpeg。
运行pip install -r requirements.txt 来安装剩余的必要包。
安装 webrtcvad pip install webrtcvad-wheels。

2. 准备预训练模型

考虑训练您自己专属的模型或者下载社区他人训练好的模型:

2.1 使用数据集自己训练encoder模型 (可选)

进行音频和梅尔频谱图预处理： python encoder_preprocess.py 使用-d {dataset} 指定数据集，支持 librispeech_other，voxceleb1，aidatatang_200zh，使用逗号分割处理多数据集。
训练encoder: python encoder_train.py my_run /SV2TTS/encoder

训练encoder使用了visdom。你可以加上-no_visdom禁用visdom，但是有可视化会更好。在单独的命令行/进程中运行"visdom"来启动visdom服务器。

2.2 使用数据集自己训练合成器模型（与2.3二选一）

下载数据集并解压：确保您可以访问 train 文件夹中的所有音频文件（如.wav）
进行音频和梅尔频谱图预处理： python pre.py -d {dataset} -n {number} 可传入参数：
-d {dataset} 指定数据集，支持 aidatatang_200zh, magicdata, aishell3, data_aishell, 不传默认为aidatatang_200zh
-n {number} 指定并行数，CPU 11770k + 32GB实测10没有问题

假如你下载的 aidatatang_200zh文件放在D盘，train文件路径为 D:\data\aidatatang_200zh\corpus\train , 你的datasets_root就是 D:\data\

训练合成器： python synthesizer_train.py mandarin /SV2TTS/synthesizer
当您在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时，请转到启动程序一步。

2.3使用社区预先训练好的合成器（与2.2二选一）

当实在没有设备或者不想慢慢调试，可以使用社区贡献的模型(欢迎持续分享):

作者	下载链接	效果预览	信息
作者	百度网盘请输入提取码百度盘链接 4j5d		75k steps 用3个开源数据集混合训练
作者	百度网盘请输入提取码百度盘链接提取码：om7f		25k steps 用3个开源数据集混合训练, 切换到tag v0.0.1使用
@FawenYo	https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing 百度盘链接提取码：1024	输入输出	200k steps 台湾口音需切换到tag v0.0.1使用
@miven	百度网盘请输入提取码提取码：2021	AI声音模仿，5秒钟克隆你的语音_哔哩哔哩_bilibili	150k steps 注意：根据issue修复并切换到tag v0.0.1使用

2.4训练声码器 (可选)

对效果影响不大，已经预置3款，如果希望自己训练可以参考以下命令。

预处理数据: python vocoder_preprocess.py -m

替换为你的数据集目录，替换为一个你最好的synthesizer模型目录，例如 sythensizer\saved_models\xxx

训练wavernn声码器: python vocoder_train.py

替换为你想要的标识，同一标识再次训练时会延续原模型

训练hifigan声码器: python vocoder_train.py hifigan

替换为你想要的标识，同一标识再次训练时会延续原模型

训练fregan声码器: python vocoder_train.py --config config.json fregan

替换为你想要的标识，同一标识再次训练时会延续原模型

将GAN声码器的训练切换为多GPU模式：修改GAN文件夹下.json文件中的"num_gpus"参数

3. 启动程序或工具箱

您可以尝试使用以下命令：

3.1 启动Web程序（v2）：

python web.py 运行成功后在浏览器打开地址, 默认为 http://localhost:8080

仅支持手动新录音（16khz）, 不支持超过4MB的录音，最佳长度在5~15秒

3.2 启动工具箱：

python demo_toolbox.py -d

请指定一个可用的数据集文件路径，如果有支持的数据集则会自动加载供调试，也同时会作为手动录制音频的存储目录。

4. 番外：语音转换Voice Conversion(PPG based)

想像柯南拿着变声器然后发出毛利小五郎的声音吗？本项目现基于PPG-VC，引入额外两个模块（PPG extractor + PPG2Mel）, 可以实现变声功能。（文档不全，尤其是训练部分，正在努力补充中）

4.0 准备环境

确保项目以上环境已经安装ok，运行pip install espnet 来安装剩余的必要包。
下载以下模型链接：百度网盘请输入提取码提取码：gh41
- 24K采样率专用的vocoder（hifigan）到 vocoder\saved_models\xxx
- 预训练的ppg特征encoder(ppg_extractor)到 ppg_extractor\saved_models\xxx
- 预训练的PPG2Mel到 ppg2mel\saved_models\xxx

4.1 使用数据集自己训练PPG2Mel模型 (可选)

下载aidatatang_200zh数据集并解压：确保您可以访问 train 文件夹中的所有音频文件（如.wav）
进行音频和梅尔频谱图预处理： python pre4ppg.py -d {dataset} -n {number} 可传入参数：
-d {dataset} 指定数据集，支持 aidatatang_200zh, 不传默认为aidatatang_200zh
-n {number} 指定并行数，CPU 11700k在8的情况下，需要运行12到18小时！待优化

假如你下载的 aidatatang_200zh文件放在D盘，train文件路径为 D:\data\aidatatang_200zh\corpus\train , 你的datasets_root就是 D:\data\

训练合成器, 注意在上一步先下载好ppg2mel.yaml, 修改里面的地址指向预训练好的文件夹： python ppg2mel_train.py --config .\ppg2mel\saved_models\ppg2mel.yaml --oneshotvc
如果想要继续上一次的训练，可以通过--load .\ppg2mel\saved_models\ 参数指定一个预训练模型文件。

4.2 启动工具箱VC模式

您可以尝试使用以下命令： python demo_toolbox.py -vc -d

请指定一个可用的数据集文件路径，如果有支持的数据集则会自动加载供调试，也同时会作为手动录制音频的存储目录。

引用及论文

该库一开始从仅支持英语的Real-Time-Voice-Cloning 分叉出来的，鸣谢作者。

网址	指定	标题	实现源码
1803.09017	GlobalStyleToken（合成器）	风格令牌：端到端语音合成中的无监督风格建模、控制和转移	本代码库
2010.05646	HiFi-GAN（声码器）	用于高效和高保真语音合成的生成对抗网络	本代码库
2106.02297	Fre-GAN（声码器）	Fre-GAN：对抗频率一致的音频合成	本代码库
1806.04558	SV2TTS	将学习从说话人验证转移到多说话人文本到语音合成	本代码库
1802.08435	WaveRNN（声码器）	高效的神经音频合成	fatchord/WaveRNN
1703.10135	Tacotron（合成器）	Tacotron：走向端到端语音合成	fatchord/WaveRNN
1710.10467	GE2E（编码器）	说话人验证的广义端到端损失	本代码库

常见问题(FQ&A)

1.数据集在哪里下载?

数据集	OpenSLR地址	其他源 (Google Drive, Baidu网盘等)
helptang_200zh	开放式单反	谷歌云端硬盘
魔术数据	开放式单反	谷歌云端硬盘（开发集）
爱壳3	开放式单反	谷歌云端硬盘
data_aishell	开放式单反

解压 aidatatang_200zh 后，还需将 aidatatang_200zh\corpus\train下的文件全选解压缩

2.是什麼意思?

假如数据集路径为 D:\data\aidatatang_200zh，那么就是 D:\data

3.训练模型显存不足

训练合成器时：将 synthesizer/hparams.py中的batch_size参数调小

//调整前
tts_schedule = [(2,  1e-3,  20_000,  12),   # Progressive training schedule
                (2,  5e-4,  40_000,  12),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  12),   #
                (2,  1e-4, 160_000,  12),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  12),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  12)],  # lr = learning rate
//调整后
tts_schedule = [(2,  1e-3,  20_000,  8),   # Progressive training schedule
                (2,  5e-4,  40_000,  8),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  8),   #
                (2,  1e-4, 160_000,  8),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  8),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  8)],  # lr = learning rate

声码器-预处理数据集时：将 synthesizer/hparams.py中的batch_size参数调小

//调整前
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 16,                  # For vocoder preprocessing and inference.
//调整后
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 8,                  # For vocoder preprocessing and inference.

声码器-训练声码器时：将 vocoder/wavernn/hparams.py中的batch_size参数调小

//调整前
# Training
voc_batch_size = 100
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad = 2

//调整后
# Training
voc_batch_size = 6
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad =2

4.碰到RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder.embedding.weight: copying a param with shape torch.Size([70, 512]) from checkpoint, the shape in current model is torch.Size([75, 512]).

请参照 issue #37

5.如何改善CPU、GPU占用率?

视情况调整batch_size参数来改善

6.发生 页面文件太小，无法完成操作

请参考这篇文章，将虚拟内存更改为100G(102400)，例如:文件放置D盘就更改D盘的虚拟内存

7.什么时候算训练完成？

首先一定要出现注意力模型，其次是loss足够低，取决于硬件设备和数据集。拿本人的供参考，我的注意力是在 18k 步之后出现的，并且在 50k 步之后损失变得低于 0.4

快速入门（新手）

快速开始 (新手友好版)

本快速开始教程是以Windows为例的，假设不做任何训练（节省几小时甚至几天时间），假设你对python等开发环境也不熟悉，也可能没有支持CUDA的GPU

安装

如果已经确认安装过，请忽略该步骤

拉取本代码库
安装Anacodna， Python 3.8 或更高，参考中文教程，在Anaconda中创建并切换到独立虚拟环境后，进行以下步骤。
安装 PyTorch，直接官网下载。如果GPU不支持CUDA，请默认选择。

验证本步骤是否成功：在系统任意路径下运行python，进入交互式编程界面后输入 import torch;, 回车， torch.cuda.is_available(), 回车。如果都是成功的话，可以进行下一步。

安装 ffmpeg。 1）下载选择点击打开链接Windows对应的版本下载 2）解压 ffmpeg-xxxx.zip 文件到指定目录； 3）将解压后的文件目录中 bin 目录（包含 ffmpeg.exe ）添加进 path 环境变量中； 4）进入 cmd，输入 ffmpeg -version，可验证当前系统是否识别 ffmpeg 以及查看 ffmpeg 的版本
运行pip install -r requirements.txt 来安装剩余的必要包。

确保本步骤不报错

安装 webrtcvad 用 pip install webrtcvad-wheels。

确保本步骤不报错

下载社区训练好的模型

在以下选择中下载模型

作者	下载链接	效果预览
@miven	百度网盘请输入提取码提取码：2021	AI声音模仿，5秒钟克隆你的语音_哔哩哔哩_bilibili

该模型与最新代码有兼容性问题请查阅用这里的模型跑出现这个RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder.embedding.weight: copying a param with shape torch.Size([70, 512]) from checkpoint, the shape in current model is torch.Size([75, 512]). · Issue #37 · babysor/MockingBird · GitHub 解决

下载完成后，确保 xxx.pt 格式的文件放在代码库的 synthesizer\saved_models文件夹下，saved_models如不存在请新建

运行demo_toolbox

在代码库路径下，运行 python demo_toolbox.py -d .\samples 尝试使用工具箱, 由于没有下载任何数据集，这里的功能比较简单：

确保界面左边中间的 synthesizer 选择了上一步中 xxx.pt 文件对应的模型。
点击Record录入你的5秒语音
输入任意文字
点击 Synthesizer and vocode 等待效果输出

Pod调度、嵌入式脚本、Pod标签管理 yanjiaweiya 云原生 kubernetes 容器
多容器Pod案例3排错[root@master~]#vimweb2.yaml---kind:PodapiVersion:v1metadata:name:web2namespace:defaultspec:containers:-name:nginximage:myos:nginx-name:apacheimage:myos:httpdstatus:{}[root@master~]#kubectla
【Tailwind CSS】bg-red-50 和 bg-blue-50 的用法详解
文章目录一、TailwindCSS中的颜色背景类1.背景颜色的命名规则2.bg-red-50和bg-blue-50的颜色特点二、bg-red-50和bg-blue-50的基本用法示例三、bg-red-50和bg-blue-50的设计理念1.bg-red-50的使用场景2.bg-blue-50的使用场景四、实际应用场景解析1.信息提示框的使用2.页面分区的背景色3.使用交替背景色提升阅读性五、配合其
【Tailwind CSS】font-light 和 my-4 的样式详解 Peter-Lu #Tailwind css 前端 react.js javascript typescript
文章目录一、`font-light`与字体粗细的控制1.`font-light`的作用2.`font-weight`的等级划分3.使用示例二、`my-4`与垂直外边距的控制1.`my-4`的作用2.Tailwind的边距控制系统3.使用示例三、`font-light`和`my-4`的实际应用场景1.用于标题和描述文本的排版2.用于卡片组件的内容分隔3.用于导航菜单的轻量提示四、设计风格的提升：使用
Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
2025 年前端主流框架对比和竞争格局及趋势发展
2025年前端框架的竞争格局呈现出主流框架稳定演进、新兴技术快速渗透的特点，同时全栈整合、跨端效能、AI集成成为核心发展方向。以下是基于最新行业动态和技术实践的深度解析：一、主流框架竞争态势与核心能力1.React：企业级生态的持续统治力市场地位：全球使用率超40%，尤其在金融、社交等数据密集型场景占据主导。字节跳动、腾讯等大厂的复杂Web应用仍以React为首选。技术突破：并发模式（Concur
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析观熵架构人工智能私有化部署
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析关键词：多模型服务架构、MaaS、私有化部署、模型管理、推理调度、模型编排、TritonInferenceServer、DeepSeek、模型隔离、企业级AI平台摘要：随着企业对多任务、多模型能力的需求日益增长，MaaS（Model-as-a-Service）架构已成为私有部署中的关键支撑技术之一。该文聚焦当前
StringBuilder练习项目代码及相关知识点
1.动态字符串操作需求：编写一个程序，接收用户输入的多个单词，并将它们组合成一个完整的句子，同时支持以下功能：动态添加单词删除某些单词将句子反转importjava.util.Scanner;publicclassStringBuilderDemo{publicstaticvoidmain(String[]args){StringBuildersb=newStringBuilder();Scann
ThinkPHP 如何在生产环境中配置日志？深山技术宅 PHP 经验数据库 php 后端 ThinkPHP
在ThinkPHP生产环境中配置日志时，需要重点关注稳定性、性能和安全。以下是最佳实践配置方案：生产环境推荐配置(config/log.php)return['default'=>env('log.channel','stack'),'channels'=>[//组合通道（核心配置）'stack'=>['type'=>'stack','channels'=>['daily','error_file
STM32的ADC校准过程
以下是STM32ADC校准的详细技术说明，包含实际操作步骤和注意事项：一、ADC校准的必要性误差来源分析：零点偏移误差（OffsetError）：输入0V时输出不为0增益误差（GainError）：满量程时的线性偏差非线性误差（DNL/INL）：转换曲线的阶梯偏差温度漂移（典型值±2℃时±4LSB）校准目标：12位ADC的有效精度达到±1LSB减少芯片个体差异影响补偿供电电压波动带来的误差二、ST
AI智能体——实现关键技术
1、CoT思维链CoT（Chainof‏Thought）思维链是一种让AI像人类一؜样“思考”的技术，帮助AI在处理复杂问题时能够按步骤思考。对于复杂的推理类问题，先思考后‌执行，效果往往更好。而且还可以让模型在生成答案时‏展示推理过程，便于我们理解和优化AI。CoT的实现方式其实很简单‏，可以在输入Prompt时，给模型提供额外的提示或؜引导，比如“让我们一步一步思考这个问题”，让模型以逐步推理
存储延时数据，帮你选数据库和缓存架构呢喃coding 系统架构设计架构
1.理解存储媒介量化延时类别描述延时缓存/内存L1cachereference1ns缓存/内存L2cachereference4ns缓存/内存Mainmemoryreference（DDR4，5-10ns为补充说明）100ns网络传输SendpacketCA->Netherlands->CA150,000,000ns（150ms）磁盘存储HDD(HardDiskDrive)读写1-10ms磁盘存储
ERROR: failed to solve: failed to read dockerfile: open Dockerfile: no such file or directory Upper999 Docker 运维 linux docker
1通过Dockerfile方式，生成镜像时报错（如下）[zxx@192~]$dockerbuild-tmy_first_build_image.[+]Building0.1s(1/1)FINISHEDdocker:default=>[internal]loadbuilddefinitionfromDockerfile0.0s=>=>transferringdockerfile:2B0.0sERRO
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
什么是DO、DTO、VO、BO、AO，还在傻傻分不清？今天一文带你了解这些概率 Gq.xxu java 系统架构
在分层架构的Java应用中，DO、DTO、VO、BO、AO等概念用于解耦不同层级的数据传递和业务逻辑。它们分别承担不同职责，以下是对这些概念的详细解释：1.DO（DataObject/DomainObject）定义：与数据库表结构直接映射的对象，通常由DAO层操作。用途：在数据访问层（DAO）中承载数据库查询结果，如UserDO对应user表字段。特点：属性与数据库字段一一对应。仅包含数据，不包含
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
Ubuntu下搜狗输入法安装记录（解决安装好后仍旧无法输入中文的问题）
主要参考为博客https://blog.csdn.net/fangshuo_light/article/details/123634224以及搜狗官方给到的安装指南https://shurufa.sogou.com/linux/guide遇到问题使用dpkg安装在搜狗官网下载的Linuxdeb安装包sudodpkg-isogoupinyin_4.2.1.145_amd64.deb此时，按照官方的安
llamaindex SimpleDirectoryReader的使用需要重新演唱 Loading llamaindex RAG llamaindex
SimpleDirectoryReader概念解释SimpleDirectoryReader是LlamaIndex中加载本地文件数据的最简单方式。对于生产用例，你可能更倾向于使用LlamaHub上提供的众多读取器之一，但SimpleDirectoryReader是开始使用的好方法。支持的文件类型默认情况下，SimpleDirectoryReader会尝试读取它找到的任何文件，并将它们都视为文本文件
Python打卡：Day46 剑桥折刀s python打卡 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriterimportnu
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？
昨天，在北京首映礼的暗场中，一段黏土风格的荒诞喜剧画面投映在银幕上：一根「宇宙肥肠」在太空中漂浮，讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》，全球首部AI单元剧集。这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表
扣子智能体5：使用Python异步执行工作流并获取执行结果呆萌的代Ma 大模型 python 扣子
使用python异步执行工作流的步骤有3步：异步执行工作流，获取工作流的execute_id，之后就能根据这个id查询工作流的执行情况如果execute_id=“Success”，就表示工作流执行完毕执行完毕后，打印output，就是大模型最后的全部示例代码fromloguruimportloggerimportrequestsimportjsondefrun_coze_ai(coze_api_t
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
FairyGUI 实现 Boss 双层血条动画 future1412 学习
涉及到一个问题的话先去了解前因后果，涉及到的UI框架，全部吃懂吃透。一：理解血条系统的组成1.boss血条一般包括：红色血条：表示当前血量，随伤害立即减少；白色血条（残影）：慢慢减少，产生一种“缓冲”的受伤视觉效果；血条分段（如2条血表示不同阶段）；血条消失/出现动画；血条附加信息：如Boss名字、阶段数、状态效果等。二：准备环境Unity+FairyGUI准备血条UI元素：使用两张图层叠加实现红
ChatTTS实现文本转语音（TTS）全流程教程【附完整代码 & 环境配置】文浩（楠搏万）语言模型 Chattts 大语言模型 AI 人工智能 python 生成
言简意赅的讲解ChatTTS解决的痛点‍本教程手把手带你从零上手ChatTTS，实现文本到语音（TTS）转换，适合自媒体配音、有声内容创作、AI语音实验等场景。配套提供完整代码和环境配置方法，一键复现，无压力！什么是ChatTTS？ChatTTS是由清华大学团队开源的一款中文文本转语音（Text-to-Speech,TTS）模型。它的特点包括：️语音自然流畅，情感丰富️支持自定义发音人音色（spe
SimpleBus：简化你的消息总线架构解然嫚Keegan
SimpleBus：简化你的消息总线架构SimpleBusMainrepositoryofSimpleBus项目地址:https://gitcode.com/gh_mirrors/si/SimpleBus项目介绍SimpleBus是一个轻量级的消息总线库，旨在简化应用程序中的消息传递和事件处理。它由MatthiasNoback、CliffOdijk和RuudKamphuis开发，提供了一种优雅的方
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
（部署服务器系列四）部署Vue步骤（使用nodejs）玄尺_007 #个人博客项目 #前端服务器 vue.js 运维
1.构建项目（打包Vue）：构建前设置main.js//关闭开发模式提示Vue.config.devtools=falseVue.config.productionTip=false设置指向的服务端后端ip和端口，我的常量属性统一放在了constants.jsexportconstAIOS_BASE_URL="http://192.168.0.111/api"exportconstIMG_BASE
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

AI拟声: 5秒内克隆您的声音并生成任意语音内容

特征

进行中的工作

1. 安装要求

2. 准备预训练模型

3. 启动程序或工具箱

3.1 启动Web程序（v2）：

3.2 启动工具箱：

4. 番外：语音转换Voice Conversion(PPG based)

引用及论文

常见问题(FQ&A)

快速入门（新手）

快速开始 (新手友好版)

安装

下载社区训练好的模型

运行demo_toolbox

你可能感兴趣的:(人工智能（AI）,人工智能,深度学习)