PaperWeekly

最新综述：跨语言语音合成方法的发展趋势与方向

©PaperWeekly 原创 · 作者 | 音月

引言

语音合成（Text-to-Speech, TTS）是指文字转语音相关技术。随着人工智能技术的发展，TTS 的声学模型和声码器模型效果都在不断提高，单一语言在数据量足够的情况下已经可以合成较高品质的语音。研究人员们也逐渐开始关注跨语言语音合成领域，本文主要介绍了近年来跨语言语音合成方法的发展趋势与方向。

背景

早期人们为了合成跨语言的发音只能用多个语音合成系统来合成不同语言的文本，这样会导致不同语言发音时的音色差异较大，影响使用体验。为了改善这种问题，出现了双语语料库，即让同一个说话人录制多种语言的语音数据。虽然一定程度解决了这种问题，但是双语语料库的制作成本较高，音色数量也较难扩展。

另外也有研究人员根据各语言发音特点设计了源语言到目标语言的音素映射表，用于模仿目标语言的发音，但大多数语言常用的音素集不完全一致，依旧会存在一些无法发音或者发音错误的问题。研究人员开始考虑如何对不同语言的数据进行建模，以达到让目标说话人可以合成其他语言的语音。

下面介绍近年来的一些跨语言语音合成方法。

跨语言的中间特征

Statistical parametric speech synthesis based on speaker and language factorization（IEEE Trans 2012）[1] 中提出将说话人信息与语言信息分开建模的方法。

Learning cross-lingual information with multilingual BLSTM for speech synthesis of low-resource languages（ICASSP 2016）[2]

该论文使用了普通话、英语和粤语三种语料，每种语料为 1 个女性说话人。论文将不同 language 的语言学特征拼接起来后，输入共享的中间层得到中间特征作为跨语言特征表示，经过 language-dependent 的输出层得到声学特征。

作者假设输入输出层的特征是 language-dependent 的，而中间层如果选择合适的训练方式可以得到 language-independent 的特征表示。实验表明共享的 BLSTM 网络可以学习跨语言信息，能得到比单语言语料训练的 BLSTM 更好的声学特征，从而合成出更高质量的语音。

Speaker and language factorization in DNN-based TTS synthesis（ICASSP 2016）[3]

该论文使用了类似的方法分别构造了 language-dependent 相关和 speaker-dependent 的 DNN 网络。

实验涉及了普通话和英语，总共 3 个说话人（两女一男）。论文对比了不同网络拓扑结构后发现使用 2 个 language-dependent 相关网络、1 个共享网络、1 个 speaker-dependent 网络能取得最接近多说话人模型的效果，与 [1] 不同的是，论文的主观评测结果表明跨语言合成的自然程度和相似度的 MOS 值都出现了下降。

Unsupervised polyglot text to speech（ICASSP 2019）[4]

该论文为了改善跨语言合成说话人相似度的问题，除了 language-dependent 的 text encoder，还加入了 language-dependent 的 speaker encoder 来提取说话人 embedding。论文实验了 VCTK 数据集（109 个英语说话人），DIMEx100 数据集（100 个西班牙语说话人），PhonDat1（201 个德语说话人）。

为了进一步改善说话人相似度，论文提出了一种新的损失函数及多阶段训练方法，即在模型初步收敛后使用：语言 a 的语音 y^a经过 a 语言的 speaker encoder 提取的 embedding1（说话人 a 的音色信息），与语言 b 的文本 s 生成语音 o^b，最小化 o^b经过 a 语言的 speaker encoder 提取的 embedding2（语言 b 语音的音色信息）的 L1 loss，以期望该 speaker encoder 只提取说话人音色信息而不包含语言信息，该阶段只训练各个语言的 speaker encoder。

其中 y^a表示语言 a 的语音，用于提取说话人音色信息，s^b表示语言 b 的文本，LUT 为 look-up table，N^a表示语言 a 的 speaker encoder，G 表示 TTS 生成模型，

虽然训练比较麻烦，有点类似回译训练的方法，但论文实验结果表明使用了这种多阶段训练方法后可以有效提高跨语言语音的相似度。

End-to-end Code-switched TTS with Mix of Monolingual Recordings（ICASSP 2019）[5]

该论文使用了 character embedding，将普通话中的拼音及英语均表示为字母表字符，但直接使用这种 embedding 构造的 tacotron 模型在合成不同语言的语音时会出现音色不一致的情况，因为论文加入 language embedding，并对比了两种嵌入 language embedding 方法对跨语言语音合成效果的影响。

一种是在共享的 text encoder 中嵌入 language embedding表示（LDE），第二种是使用 language-dependent 的 text encoder 结合 language id 进行特征选择（SPE）。训练阶段某一语音的 mask 均为 1，推理阶段根据句子中 language id 的不同进行选择得到跨语言的特征表示。

实验使用了普通话和英文数据集各 5000 句，两个说话人均为女性，实验表明两种 language embedding 嵌入方法都能提高跨语言发音的相似度，在自然程度上第二种方法更好，但两种系统还不能完全用普通话说话人的音色合成英语。同时论文还尝试通过控制 0-1 的控制系数 α 来控制合成语音的口语程度，第二种对控制系数 α 更为敏感。

跨语言的文本表示

除了跨语言的中间特征，一些研究工作也在探索使用跨语言的文本表示来改善跨语言发音问题。

Multi-Language Multi-Speaker Acoustic Modeling for LSTM-RNN based Statistical Parametric Speech Synthesis（Interspeech 2016）[6]

该论文使用了国际音标 IPA 作为跨语言的文本表示，定义了跨语言的语言学特征，代替了 [2] 中 language-dependent 的语言学特征，同样实验了 speaker dependent 的输出网络。实验涉及英语、法语、德语、西班牙语、印度语等多语种及多说话人数据，总体来说论文提出的跨语言 TTS 系统性能与单语言相近，同时，作者还将该方法用于 fine-tune 波兰语和葡萄牙语语料，也取得了明显优于 scratch 训练的效果。

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning（Interspeech 2019）[7]

该论文汇总了 utf-8 编码比特的通用文本表示方法、端到端语音合成技术及对抗式训练方法，并将其应用在了跨语言语音合成领域，对后续跨语言语音合成的发展趋势及方向有较大的影响。

文中 utf-8 编码的 byte 表示方法是将文本字符转为 utf-8 编码，input tokens 为 256，像英语这种单比特字符，byte 表示和 grapheme 表示是一样的，不过对应普通话汉字则会映射得到多比特 utf-8 编码，这种 byte 表示对各种语言的处理方法都是一致的，这种方法的 input tokens 降维到了256（普通话至少有 4500 个常用汉字），可能会得到更好的通用表示。

论文主要基于 tacotron2 框架实现，为了更好的建模 TTS 中文本到语音一对多的问题，论文还加入了 residual encoder。另外，前文中的跨语言中间表示特征基本是通过共享中间网络参数实现的，并没有显式去除 language-dependent 的信息，论文除了在 tacotron2 的 decoder 部分加入 [5] 和 [6] 中使用的 language embedding，结合了对抗式训练方法引入了梯度反传层（GRL）来去除 text encoder 输出特征中 language-dependent 的信息。

论文主要涉及了英语（EN）、普通话（CN）、西班牙语（ES），对比了不同表示方法（byte、characters/graphemes、phonemes）在单语言模型和多语言模型的自然程度 MOS 指标。相同数据集情况下，phonemes 的效果均优于其他方法。

论文对比了加入对抗式训练后对跨语言发音自然程度及相似度的影响（EN ES CN各使用一个说话人），论文提到加入对抗训练的说话人分类模型后可以让 EN 说话人以很高的说话人相似度合成 CN 句子，但是使用 byte 表示时无法合成可懂的中文语音，评测人员表示合成语音的语言不是中文，phoneme 表示时合成的中文语音也有一种外国人说中文的感觉，合成西班牙语时也有种英语母语在学习说西班牙语的感觉。

论文在考虑了不同文本表示的实验效果后，选用了基于 phoneme 表示和全部说话人数据（84EN 3ES 5CN）来进行跨语言 TTS 模型的训练，实验指标表示模型均能合成较好的 EN 和 ES 语音，但是合成 CN 语音时自然程度有所下降，同时 CN 说话人合成其他语言的文本时都表现出最低的说话人相似度，这可能是 CN 说话人相比 EN 说话人数量较少且与其他语言差异较大导致的。

最后论文对比了加入 residual encoder 的影响，总体来说加入 residual encoder 可以提高模型输出的稳定性，部分跨语言发音效果有较明显的提升，同时还有减少漏字及改善停顿的作用。

当然除了 byte 作为通用表示，也有研究工作继续尝试基于国际音标 IPA 作为跨语言的文本表示方法：

论文名称		主要思路
Cross-lingual, Multi-speaker Text-To-Speech Synthesis Using Neural Speaker Embedding (Interspeech 2019) [8]		IPA表示+speaker encoder提取speaker embedding
End-to-End Adversarial Text-to-Speech(ICLR 2021)[9]		IPA表示+soft dynamic time warping alignment
Dynamic Soft Windowing and Language Dependent Style Token for Code-Switching End-to-End Speech Synthesis (Interspeech 2020) [10]		IPA表示+Dynamic SoftWindowing Mechanism+language embedding
Hierarchical Transfer Learning for Multilingual, Multi-Speaker, and Style Transfer DNN-Based TTS on Low-Resource Languages (EEE Access 2020) [11]		IPA表示+reference encoder+language embedding
Improve Cross-Lingual Text-To-Speech Synthesis on Monolingual Corpora with Pitch Contour Information (Interspeech 2021) [12]		IPA表示+音高起伏特征
Phonological Features for 0-shot Multilingual Speech Synthesis (Interspeech 2020) [13]		IPA表示衍生的语音学特征
Cross-lingual Low Resource Speaker Adaptation Using Phonological Features (Interspeech 2021) [14]		IPA表示衍生的语音学特征在小数据合成的应用

对抗式训练

也有相当一部分研究工作基于 [7] 的对抗式训练方法继续相关的研究。

论文名称		主要思路
One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech (Interspeech 2020) [15]		char表示+对抗训练
Cross-lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space (Interspeech 2020) [16]		将对抗训练方法运用在speaker encoder
Cross-lingual Speaker Adaptation using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech Synthesis (Interspeech 2021) [17]		在 [16] 的基础加入语言无关的SRE模型及类似 [4] 的Adaptation方法
Incorporating Cross-speaker Style Transfer for Multi-language Text-to-Speech (Interspeech 2021) [18]		style encoder+对抗训练

其他方法

论文名称		主要思路
End-to-end Text-to-speech for Low-resource Languages by Cross-Lingual Transfer Learning (Interspeech 2019) [19]		使用ASR系统来自动学习源语言与目标语言的发音映射关系
Building a mixed-lingual neural TTS system with only monolingual data (Interspeech 2019) [20]		使用平均音色模型fine-tune+phoneme-informed attention机制+speaker embedding位置选择
Multi-Lingual Multi-Speaker Text-to-Speech Synthesis for Voice Cloning with Online Speaker Enrollment (Interspeech 2020) [21]		设计了一套新的共享的phoneme set
Tone Learning in Low-Resource Bilingual TTS (Interspeech 2020) [22]		加入了声调分类模型
On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model [23] (Interspeech 2020)		使用跨语言的G2P模型
Code-Switched Speech Synthesis Using Bilingual Phonetic Posteriorgram with Only Monolingual Corpora (ICASSP 2020) [24]		使用ASR系统提取跨语言的PPG+Lf0+VUV声学特征+speaker embedding生成Mel频谱
End-to-End Code-Switching TTS with Cross-Lingual Language Model (ICASSP 2020) [25]		训练跨语言的语言模型提取跨语言的word embedding
Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion (Interspeech 2020) [26]		使用ASR系统提取跨语言的PPG特征进行语音转换生成多语言训练跨语言TTS模型

参考文献

[1] Statistical parametric speech synthesis based on speaker and language factorization

[2] Learning cross-lingual information with multilingual BLSTM for speech synthesis of low-resource languages

[3] Speaker and language factorization in DNN-based TTS synthesis

[4] Unsupervised polyglot text to speech

[5] End-to-end Code-switched TTS with Mix of Monolingual Recordings

[6] Multi-Language Multi-Speaker Acoustic Modeling for LSTM-RNN based Statistical Parametric Speech Synthesis

[7] Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

[8] Cross-lingual, Multi-speaker Text-To-Speech Synthesis Using Neural Speaker Embedding

[9] End-to-End Adversarial Text-to-Speech

[10] Dynamic Soft Windowing and Language Dependent Style Token for Code-Switching End-to-End Speech Synthesis

[11] Hierarchical Transfer Learning for Multilingual, Multi-Speaker, and Style Transfer DNN-Based TTS on Low-Resource Languages

[12] Improve Cross-Lingual Text-To-Speech Synthesis on Monolingual Corpora with Pitch Contour Information

[13] Phonological Features for 0-shot Multilingual Speech Synthesis

[14] Cross-lingual Low Resource Speaker Adaptation Using Phonological Features

[15] One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

[16] Cross-lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space

[17] Cross-lingual Speaker Adaptation using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech Synthesis

[18] Incorporating Cross-speaker Style Transfer for Multi-language Text-to-Speech

[19] End-to-end Text-to-speech for Low-resource Languages by Cross-Lingual Transfer Learning

[20] Building a mixed-lingual neural TTS system with only monolingual data

[21] Multi-Lingual Multi-Speaker Text-to-Speech Synthesis for Voice Cloning with Online Speaker Enrollment

[22] Tone Learning in Low-Resource Bilingual TTS

[23] On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model

[24] Code-Switched Speech Synthesis Using Bilingual Phonetic Posteriorgram with Only Monolingual Corpora

[25] End-to-End Code-Switching TTS with Cross-Lingual Language Model

[26] Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
[python系列] 创建虚拟环境 venv en-route python virtualenv
虚拟环境定义Python中的虚拟环境是一个隔离的运行环境，旨在为每个Python项目提供独立的执行空间，支持在不同的项目中分别管理依赖关系，而不会影响到其他项目或系统的原始Python安装。可以将虚拟环境视为每个Python项目的“独立容器”，每个容器具备以下特点：拥有独立的Python解释器拥有各自独立的包管理和安装的软件包与其他虚拟环境相互隔离允许同一包存在不同版本使用虚拟环境的重要性体现在以
uniapp uts 插件开发指南 ReyZhang uniapp ios原生插件与混合开发教程 uni-app uts 插件开发
一、了解基本概念1.什么是uts语言?官方：uts，全称unitypescript，统一、强类型、脚本语言。它可以被编译为不同平台的编程语言，如：web平台，编译为JavaScriptAndroid平台，编译为KotliniOS平台，编译为Swift（HX3.6.7+版本支持）harmonyOS平台，编译为ArkTS（HX4.22+版本支持）在现有架构下，ArkTS和JS在同一环境下执行，不涉及通
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
python中的*args 和 **kwargs Hi_kenyon python python
简单来说，它们允许一个函数接收不定数量的参数。这在我们预先不知道会传递多少个参数给函数时非常有用。*args(任意数量的位置参数)*args用于在一个函数中接收任意数量的位置参数(positionalarguments)。当你在函数定义中使用*args时，Python会将所有传入的多余的位置参数收集到一个元组(tuple)中。这个名字args只是一个约定俗成的惯例(arguments的缩写)，你也
用 Python 开发文字冒险游戏：从零开始的教程晓天天天向上 python microsoft 开发语言
文字冒险游戏(Text-basedAdventureGame)是一种经典的游戏类型，玩家通过输入文字指令与游戏世界互动。这种游戏不依赖复杂的图形界面，非常适合初学者学习编程逻辑和用户交互。在本篇博客中，我们将用Python开发一个简单的文字冒险游戏，体验游戏开发的乐趣。1.游戏设计思路游戏背景玩家醒来发现自己身处一个神秘的地下城，需要探索房间、收集物品、战胜敌人并找到出口。核心机制房间导航：玩家可
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
1.2 Python 的特点与优势 Utopia Reverie python python 开发语言
1.语法简洁易读Python以简洁的语法著称，代码可读性强，减少了不必要的符号和冗余代码。例如，使用缩进来表示代码块，而非传统的大括号。这使得代码更易于理解和维护，尤其适合初学者。示例：python运行【#计算斐波那契数列的前10项n=10a,b=0,1for_inrange(n);print(a,end='')a,b=b,a+b#输出:0112358132134】2.开源与社区支持Python是
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
鸿蒙HarmonyOS应用开发 | 深入解析 HarmonyOS Next 中的仓颉语言一键难忘 harmonyos 华为仓颉语言鸿蒙 HarmonyOS
鸿蒙HarmonyOS应用开发|深入解析HarmonyOSNext中的仓颉语言在HarmonyOSNext的开发中，仓颉语言作为一种强大的编程语言，为开发者带来了全新的开发体验。本文将深入探讨仓颉语言的特点，并通过代码实例展示其在HarmonyOSNext开发中的应用。一、仓颉语言简介仓颉语言是专为HarmonyOSNext设计的编程语言，它具有简洁、高效、易读易写等特点。仓颉语言借鉴了多种现代编
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
python实现读取文件的指定某行内容 Fitz1318 Python3学习 python
python实现读取文件的指定某行内容最近有一个需求就是读取一个文件中的指定某行的内容，现将方法记录如下importlinecache#这里填写你自己的文件位置和行号text=linecache.getline("../TestFile/test_C1.json",2)print(text)
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Go语言--包(Package) yunfan188 #Go语言学习笔记 go go语言 golang package
1命名空间和作用域1.1命名空间命名空间（Namespace）在编程语言中常用来表示标识符（identifier）的可见范围。编程语言借助命名空间来解决标识符不能同名的问题，命名空间实际上相当于给标识符添加了标识前缀，使标识符变得全局唯一。另外，命名空间是程序组织更加模块化，降低了程序内部的耦合性。一个标识符可以在多个命名空间中定义，它在不同命名空间中的含义是不互相干的。新的命名空间中可定义任意的
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

最新综述：跨语言语音合成方法的发展趋势与方向

你可能感兴趣的:(编程语言,python,机器学习,人工智能,深度学习)