PaperWeekly

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

©作者 | 机器之心编辑部

来源 | 机器之心

Transformer 为自然语言处理领域带来的变革已无需多言。近日，印度国立理工学院、生物医学人工智能创业公司 Nference.ai 的研究者全面调查了 NLP 领域中基于 Transformer 的预训练模型，并将调查结果汇集成了一篇综述论文。本文将按大致脉络翻译介绍这篇论文，并重点关注其中的讨论部分，因为研究者在其中指出了该领域新的研究机会。尤其需要说明：研究者将该论文命名为「 AMMUS 」，即 AMMU Smiles，这是为了纪念他们的朋友 K.S.Kalyan。

在如今的 NLP 领域，几乎每项任务中都能看见「基于 Transformer 的预训练语言模型（T-PTLM）」成功的身影。这些模型的起点是 GPT 和 BERT。而这些模型的技术基础包括 Transformer、自监督学习和迁移学习。T-PTLM 可使用自监督学习从大规模文本数据学习普适性的语言表征，然后将学到的知识迁移到下游任务。这些模型能为下游任务提供优质的背景知识，从而可避免从头开始训练下游任务。

这篇详尽调查 T-PTLM 的综述论文首先将简要介绍自监督学习。接下来将解释多个核心概念，包括预训练、预训练方法、预训练任务、嵌入和下游任务适应方法。接下来，文章将为 T-PTLM 给出一种新的分类方法，然后简要介绍多种不同的基准，包括内部基准和外部基准。研究者还归纳总结了一些适用于 T-PTLM 的软件库。最后讨论了一些可能有助于进一步改进这些模型的未来研究方向。

论文地址：

https://arxiv.org/pdf/2108.05542.pdf

研究者相信，这篇全面详尽的综述论文能作为一份很好的参考资料，帮助读者了解 T-PTLM 的相关核心概念和近期研究进展。

引言

基于 Transformer 的预训练语言模型（T-PTLM）具备从大规模无标注文本数据学习通用语言表征并将所学知识迁移到下游任务的能力，因此已经在 NLP 领域取得了巨大的成功，这类模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期，NLP 系统大都采用了基于规则的方法，之后取而代之的是机器学习模型。机器学习模型需要特征工程，而特征工程又需要领域专业知识并且需要较长的时间。

随着 GPU 等更好的计算机硬件以及 Word2Vec 和 Glove 等词嵌入方法的出现，CNN 和 RNN 等深度学习模型在构建 NLP 系统方面得到了更广泛的应用。这些深度学习模型的主要缺点是除了词嵌入之外，需要从头开始训练模型。从头开始训练这类模型需要大量有标注实例，而生成这些实例的成本很高。但是，我们希望仅使用少量有标注实例来获得表现良好的模型。

迁移学习让我们可以将在源任务上学习到的知识很好地复用到目标任务上。在这其中，目标任务应该与源任务相似。基于迁移学习的思想，计算机视觉领域的研究者已在使用 ImageNet 等大规模有标注数据集来训练大型 CNN 模型。这些模型学习到的图像表征对所有任务来说都是普适的。然后，这些大型预训练 CNN 模型可以适应下游任务，具体做法是添加少数特定于任务的层，然后在目标数据集上进行微调。由于预训练 CNN 模型能为下游模型提供很好的背景知识，因此它们在许多计算机视觉任务上取得了巨大的成功。

CNN 和 RNN 等深度学习模型难以建模长期上下文以及学习具有局部性偏差（locality bias）的词表征。此外，由于 RNN 按顺序处理输入（逐词处理），因此只能有限度地使用并行计算硬件。为了克服现有深度学习模型的这些缺点，Vaswani et al. 提出了完全基于自注意力的深度学习模型：Transformer。相比于 RNN，自注意力支持更高度的并行化，并且还能轻松地建模长期上下文，因为输入序列中的每个 token 都会关注其它所有 token。

Transformer 包含一些堆叠的编码器和解码器层。在堆叠编码器和解码器层的帮助下，Transformer 可以学习到复杂的语言信息。在 NLP 领域，生成大量有标注数据的成本非常高，也非常耗时。但是，大量无标注文本数据却很容易获得。在计算机视觉社区使用基于 CNN 的预训练模型所取得的成功的感召下，NLP 研究社区将 Transformer 和自监督学习的能力组合到一起，开发出了 T-PTLM。自监督学习让 Transformer 可以使用由一个或多个预训练任务提供的伪监督进行学习。

GPT 和 BERT 是最早的 T-PTLM，它们分别是基于 Transformer 解码器和编码器层开发的。之后，又诞生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中，XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改进模型；T5、BART 和 PEGAUSUS 是基于编码器 - 解码器的模型。

Kaplan et al. 表明只需增加 T-PTLM 模型的规模就能带来性能的提升。这一发现推动了大规模 T-PTLM 的发展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千亿参数的模型，而 Switch-Transformers (1.6T) 的参数量更是达到了万亿级。

T-PTLM 在通用英语领域取得成功之后，又开始进军其它领域，包括金融、法律、新闻、编程、对话、网络、学术和生物医学。T-PTLM 还支持迁移学习，即通过在目标数据集上进行微调和即时调整，可让这些模型适用于下游任务。本文将全面回顾与 T-PTLM 有关的近期研究成果。这篇综述论文的看点总结如下：

第 2 节将简单介绍自监督学习，这是 T-PTLM 的核心技术。
第 3 节将介绍与 T-PTLM 相关的一些核心概念，包括预训练、预训练方法、预训练任务、嵌入和下游适应方法。
第 4 节将给出一种针对 T-PTLM 的新型分类法。这种分类法考虑了四大方面，即预训练语料库、架构、自监督学习类型和扩展方法。
第 5 节将给出一种针对不同下游适应方法的新型分类法并将详细解释每个类别。
第 6 节将简要介绍多种用于评估 T-PTLM 进展的基准，包括内部基准和外部基准。
第 7 节将给出一些适用于 T-PTLM 的软件库，从 Huggingface Transformers 到 Transformer-interpret。
第 8 节将简单讨论一些可能有助于进一步改进这些模型的未来研究方向。

自监督学习（SSL）

监督学习的缺点总结如下：

严重依赖人类标注的实例，而获取这些实例耗时费力。
缺乏泛化能力，容易出现虚假相关的问题。
医疗和法律等许多领域缺乏有标注数据，这会限制 AI 模型在这些领域的应用。
难以使用大量免费可用的无标注数据进行学习。

SSL 与监督学习和无监督学习等其它流行学习范式具有一些相似性。SSL 与无监督学习的相似之处是它们都不需要人类标注的实例。但是，它与无监督学习也有不同之处：a) SSL 需要监督，而无监督学习没有监督；b) 无监督学习的目标是识别隐藏模式，而 SSL 的目标是学习有意义的表征。SSL 与监督学习的相似之处是学习范式时都需要监督。但是，它与监督学习也有不同之处：a) SSL 会自动生成标签，而无需任何人类干预；b) 监督学习的目标是提供特定于任务的知识，而 SSL 的目标是向模型提供通用知识。

SSL 的目标总结如下：

学习通用语言表征，这能为下游模型提供优良的背景。
通过学习大量免费可用的无标注文本数据来获得更好的泛化能力。

自监督学习可大致分为生成式 SSL、对比式 SSL 和对抗式 SSL 三种。

T-PTLM 核心概念

预训练

预训练能带来以下一些优势：

通过利用大量无标注文本，预训练有助于模型学习通用语言表征。
只需增加一两个特定的层，预训练模型可以适应下游任务。因此这能提供很好的初始化，从而避免从头开始训练下游模型（只需训练特定于任务的层）。
让模型只需小型数据集就能获得更好的表现，因此可以降低对大量有标注实例的需求。
深度学习模型由于参数数量大，因此在使用小型数据集训练时，容易过拟合。而预训练可以提供很好的初始化，从而可避免在小型数据集上过拟合，因此可将预训练视为某种形式的正则化。

预训练的步骤

预训练一个模型涉及以下五个步骤：

准备预训练语料库
生成词汇库
设计预训练任务
选择预训练方法
选择预训练动态

预训练语料库

图 1：预训练语料库

图 2：预训练方法，其中 PTS 是从头开始型预训练、CPT 是持续型预训练、SPT 是同时型预训练、TAPT 是任务自适应型预训练、KIPT 是知识继承型预训练

预训练任务

闲聊语言建模（CLM）
掩码语言建模（MLM）
替代 token 检测（RTD）
混洗 token 检测（STD）
随机 token 替换（RTS）
互换语言建模（SLM）
翻译语言建模（TLM）
替代语言建模（ALM）
句子边界目标（SBO）
下一句子预测（NSP）
句子顺序预测（SOP）
序列到序列语言模型（Seq2SeqLM）
去噪自动编码器（DAE）

嵌入

图 8：T-PTLM 中的嵌入

分类法

为了了解以及跟踪各种 T-PTLM 的发展，研究者从四个方面对 T-PTLM 进行了分类，即预训练语料库、模型架构、SSL 类型和扩展方法。如下图 9 所示：

图 9：T-PTLM 的分类法。

下游适应方法

一旦完成语言模型的训练，就可将其用于下游任务了。将预训练后的语言模型用于下游任务的方式有三种：基于特征的方法、微调和基于提示的微调（prompt-based tuning）。

如下图 10 所示，基于特征的方法涉及到根据语言模型生成上下文的词嵌入，然后在针对特定下游任务的模型中将它们用作输入特征。微调涉及到根据下游任务，通过尽量降低针对特定任务的损失来调整模型权重。

图 10：下游适应方法。

评估

在预训练阶段，T-PTLM 会获取预训练语料库中编码的知识。这里的知识包括句法、语义、事实和常识。对于 T-PTLM 的效果，评估方式有两种，即内在方式和外在方式。见下图 11。

内在评估方式是通过探测 T-PTLM 中编码的知识进行评估，而外在评估方式则是评估 T-PTLM 在真实世界下游任务中的效果如何。内在评估方式可让我们了解 T-PTLM 在预训练阶段获得的知识，这有助于我们设计更好的预训练任务，使得模型可以在预训练阶段学习到更多知识。

图 11：用于评估 T-PTLM 研究进展的基准。

有用的软件库

研究者还归纳总结了一些适用于 T-PTLM 的常用软件库。其中，Transformers 和 Fairseq 等软件库适用于模型训练和评估。SimpleTransformers、HappyTransformer、AdaptNLP 等则构建于 Transformer 软件库之上，可让用户仅使用少量代码就实现更轻松的训练和评估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等则可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可视化分析工具，可用于探索 Transformer 模型的层。Transformers-interpret 和 Captum 则能用于解释模型决策。

表 11：适用于 T-PTLM 的软件库。

讨论和未来方向

更好的预训练方法

仅使用 SSL 来训练模型（尤其是带有成千上万亿参数的大模型）的成本非常高。知识继承型预训练（KIPT）等全新的预训练方法涉及到 SSL 和知识蒸馏。SSL 让模型可以学习预训练语料库中可用的知识，而知识蒸馏则让模型可以学习已经编码在已有预训练模型中的知识。由于在通过知识蒸馏的预训练阶段，模型可获得额外的知识，因此 a) 模型可以更快速地收敛并由此缩短预训练时间，b) 相比于仅使用 SSL 预训练的模型，在下游任务上的表现会更好。研究社区必须重点关注开发 KIPT 等更好的预训练方法，让模型获得更多知识以及降低预训练时间。

样本高效型预训练任务

如果一个预训练任务能最大化地利用每个训练实例，那么就可以说该预训练任务是样本高效的，即它应该能在训练实例中的所有 token 上获得定义。样本高效型预训练任务能使预训练的计算效率更高。最常用的预训练任务 MLM 的样本效率就不太高，因为其仅涉及到一个 token 子集，即掩码 token，其占总 token 数的 15%。RTD、RTS 和 STD 等预训练任务可被视为是开发样本高效型预训练任务的早期尝试。这三种预训练任务都定义在每个训练实例的所有 token 之上，即它们涉及到识别每个 token 是否被替代、随机替换或混洗。未来应该还将出现使计算效率更高的样本高效型预训练任务。

高效模型

由于模型尺寸较大并且需要大量无标注的文本数据，因此预训练 T-PTLM 的成本也很高。但是，较长的预训练时间对环境并不友好，因为这个过程会释放二氧化碳；而在生物医学等许多领域，也没有大规模的无标注文本数据。近期，在 BERT 模型基础上进行全新改进的 DeBERTa 等模型实现了比 RoBERTa 模型更好的性能，尽管其仅使用了 78 GB 数据进行预训练，这只是预训练 RoBERTa 模型所用的数据量的一半。类似地，ConvBERT 凭借全新的混合注意力模块，仅使用 ELECTRA 模型四分之一的预训练成本就取得了更优的表现。为了降低预训练的数据量和训练成本，人们需要 DeBERTa 和 ConvBERT 这样的高效模型。

更好的位置编码机制

自注意力机制是置换不变型的方法，不存在位置偏差。使用绝对或相对位置嵌入，可以提供位置偏差。此外，绝对位置嵌入可以预先确定或学习到。但是，这两种方法各有优缺点。绝对位置嵌入会有泛化问题，但却很容易实现。不同于绝对位置，相对位置嵌入能稳健地应对序列长度变化，但却难以实现，性能也更差。我们还需要全新的位置编码机制，比如 CAPE，其将绝对和相对位置嵌入的优势组合到了一起。

改进现有的 T-PTLM

BERT 和 RoBERTa 等 T-PTLM 已经在许多 NLP 任务上取得了优良的结果。近期的研究表明，通过基于对抗或对比预训练任务的持续预训练注入句子层级的语义，还可以进一步改进这些模型。举个例子，Panda et al. 表明使用混洗 token 检测目标的持续预训练可提升 RoBERTa 模型在 GLUE 任务上的性能，因为其允许模型学习更连贯的句子表征。类似地，使用对比预训练目标的持续性预训练可以提升 T-PTLM 在 GLUE 任务上的性能以及多语言 T-PTLM 在 Mickey Probe 上的表现。为了将其扩展到其它单语言和特定领域的 T-PTLM，还需要进一步的研究。

超越朴素的微调

为了将预训练模型用于下游任务，微调是最常用的方法。但是，朴素的微调的主要缺点是其会改变预训练模型中的所有层，因此我们需要为每个任务维持另一个副本，这会增加部署成本。为了以一种参数高效的方式将预训练模型用于下游任务，人们提出了 Adapters 和基于剪枝的微调等方法。

举个例子，adapter 是添加到每个 Transformer 层的针对特定任务的小层。而在下游任务适应期间，仅更新 adapter 层的参数，Transformer 层的参数保持不变。此外，Poth et al. 表明 adapter 也可用于中间微调。近期，基于提示的微调（prompt-based tuning）方法在参数效率方面取得了明显更优的表现，并得到了研究社区的关注。举个例子，Prefix-tuning 等基于提示的微调方法仅需要 0.1% 的针对特定任务的参数，而基于 adapter 的微调则需要 3% 的针对特定任务的参数。

基准评测

在最后四层中，人们引入了很多基准来评估通用型和领域特定型预训练模型的进展。除了英语之外，也出现了一些用于评估其它单语言和多语言模型进展的基准。但是，现有的基准不足以覆盖所有场景。举个例子，还没有基准用于评估 a) 紧凑预训练模型的进展，b) 预训练模型的稳健性，c) 针对社交媒体以及学术等专业领域开发的 PTLM。

近日，Explainboard 等排行榜不再只是使用已有基准等单一指标评估进展，也会深挖或分析模型的长项和短板。这类排行榜应该也能扩展到其它领域。此外，FewGLUE、FLEX 和 FewCLUE 等评估少量次学习技术的基准也应当扩展到其它语言和领域。

紧凑模型

T-PTLM 几乎在每种 NLP 任务上都获得了最佳表现。但是，这些模型都很大，需要更大的存储空间。因为这些模型的层数很多，因此输入需要一定时间才能完全通过模型，从而得到预测结果，因此延迟很高。而真实世界应用的资源有限，需要更低的延迟，因此剪枝、量化、知识蒸馏、参数共享和分解等模型压缩方法已经在英语通用领域应用方面得到了探索。研究这些模型压缩方法在其它语言和领域的应用具有很大的前景。

对噪声的稳健性

T-PTLM 容易受到噪声影响，其中包括对抗噪声和自然噪声。其主要原因是使用了子词嵌入。在使用子词嵌入时，一个词会被分解为多个子词 token，因此即使很小的拼写错误也可能改变该词的整体表征，进而阻碍模型学习并影响模型预测。为了提升模型对噪声的稳健性，CharacterBERT 等模型采用了只使用字符嵌入的方法，而 CharBERT 等模型则会将字符嵌入和子词嵌入一起使用。这两种方法都能提升对噪声的稳健性。

近期，研究者们还提出了 CANINE、ByT5 和 Charformer 等无 token 化模型来提升对噪声的稳健性。为了让这些模型能在真实世界中得到应用，尤其是在医学等敏感领域，我们需要提升它们的稳健性。

全新的适应方法

为了将通用模型适应到生物医学等专业领域或将多语言模型适应到特定语言，常用的策略是使用持续性预训练。尽管这种方法通过调整模型以适应特定的领域或语言能得到良好的结果，但如果缺少领域或语言特定的词汇库，下游模型的性能会受到影响。近期有研究者提出了扩展词汇表然后持续预训练的方法。这些方法能克服 OOV 词的问题，但由于会在词汇表中增加新词，因此会增大词汇表的规模。近日，Yao et al. 提出了 Adapt and Distill 方法，即使用词汇表扩展和知识蒸馏来使通用模型适应特定领域。不同于已有的适应方法，该方法不仅能让通用模型适应特定领域，而且还能减小模型的规模。这一注意值得进一步研究并有望产出全新的适应方法。

隐私问题

T-PTLM 已经在许多 NLP 任务上取得了优良的结果。但是，这些模型也存在一些超出预期且并无益处的风险。举个例子，数据泄露是人们担心的一个主要问题，尤其是当这些模型的预训练使用了隐私数据时。由于模型是在大量文本数据上预训练的，因此有可能从中恢复敏感信息，比如可识别出个人身份的信息。因此，需要防止人们公开发布使用隐私数据预训练的模型。

近日，Carlini et al. 研究表明，GPT-2 模型可生成一个人的完整邮政地址，这些地址包含在训练数据中，可使用该人的名字通过提示得到。近期出现在生物医学领域的 KART 框架可通过执行多种攻击来评估数据泄露情况。研究社区需要开发更复杂的攻击来评估数据泄露情况并开发防止预训练模型泄露敏感数据的方法。

降低偏见

基于深度学习的方法正在现实世界中得到越来越广泛的应用，其中包括在生物医学和法律等专业领域。但是，这些模型很容易学习并放大训练数据中已有的偏见。由此造成的结果是：这些模型会产生对特定种族、性别或年龄群体的偏见。我们完全不需要这样的模型。

近期出现了一些重点关注识别和降低偏见的研究。比如，Minot et al. 提出了一种用于减少性别偏见的数据增强方法，Liang et al. 提出的 A-INLP 方法可以动态地识别偏见敏感型 token。在这一领域进行进一步研究有助于降低预训练模型中的偏见并帮助它们做出公平的决定。

降低微调不稳定性

为了让预训练模型适应下游任务，最常用的方法是微调。尽管微调的表现不错，但它并不稳定，即使用不同随机种子来执行微调会令下游表现差距巨大。有人认为，微调不稳定的原因包括灾难性遗忘和数据集规模较小。但是，Mosbach et al. 表明这两个原因都不是微调不稳定的原因，并进一步表明微调不稳定的原因包括：a) 优化困难，导致梯度消失，b) 泛化问题。为了降低微调不稳定，可能的解决方案包括：a) 中间微调，b) 混合（mix-out），c) 在早期 epoch 采用更小的学习率并且增多微调 epoch 的次数，d) 同时使用监督式对比损失和交叉熵损失。让微调更稳定的方法值得进一步研究。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

你可能感兴趣的:(大数据,编程语言,python,机器学习,人工智能)

Python Web开发：使用FastAPI构建视频流媒体平台 Switch616 Python Web python 前端 fastapi 微服务架构媒体开发语言
PythonWeb开发：使用FastAPI构建视频流媒体平台目录用户认证与视频上传视频转码与存储实时视频流播放与多媒体服务1.用户认证与视频上传在构建视频流媒体平台时，用户认证与视频上传是两个至关重要的功能。通过用户认证机制，平台能够确保只有经过授权的用户才能上传视频。视频上传功能则涉及到如何处理视频文件、存储视频并为后续播放提供支持。FastAPI作为一个高效的Web框架，可以轻松处理这些需求。
华为OD机试2024年E卷-补种未成活胡杨[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库华为od
题目描述近些年来，我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨(编号1-N)，排成一排。一个月后，有M棵胡杨未能成活。现可补种胡杨K棵，请问如何补种(只能补种，不能新种)，可以得到最多的连续胡杨树?输入描述N总种植数量M未成活胡杨数量M个空格分隔的数，按编号从小到大排列K最多可以补种的数量其中:1<=N<=1000001<=M<=N0<=K<=M输出描述最多的连续胡杨棵树示例1输入52241输出
使用gdb调试Python进程 weixin_34062329 python
使用gdb调试Python进程有时我们会想调试一个正在运行的Python进程，或者一个Python进程的coredump。例如现在遇到一个mod_wsgi的进程僵死了，不接受请求，想看看究竟是运行到哪行Python代码呢？这时就需要祭出gdb了。主要是三步：1）确保你的gdb版本>=72）安装python-debuginfo包（如：python-debuginfo-2.6.6-29.el6_2.2
gdb调试python b10l07 python
一、概述有时我们会想调试一个正在运行的Python进程，或者一个Python进程的coredump。例如现在遇到一个mod_wsgi的进程僵死了，不接受请求，想看看究竟是运行到哪行Python代码呢？这时就需要祭出gdb了。主要是三步：1）确保你的gdb版本>=72）安装python-debuginfo包（如：python-debuginfo-2.6.6-29.el6_2.2.x86_64.rpm
pythonffmpeg 推流_Python实现推流直播简单心理 pythonffmpeg 推流
教程https://codingchaozhang.blog.csdn.net/article/details/102732555?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_rele
python面试题目365道_[Python]百姓网的面试题筹朩无双 python面试题目365道
1#-*-coding:utf-8-*-23classBTree:4def__init__(self,data):5self.l=None6self.r=None7self.data=data89definsertl(self,ltree):10self.l=ltree1112definsertr(self,rtree):13self.r=rtree1415defprintTree(self,in
Python：模拟windows命令按钮——一文学习Pygame分层显示 was_a_coder Sprite Sprite Group Layer 分层显示 python pygame
学习Python的最好方法应该是学习一点东西后用一个小项目练练手。在做游戏的过程中，很多时候需要根据场景按照一定的顺序或规则显示，有些图像信息要在最底层，有些图像需要在最上面显示，那么如何控制图像按要求分层显示呢？pygame提供了一个分层显示的类——LayeredUpdates，利用这个类可以非常简单明了的实现显示需求。为了简单而且有意义的展示这个功能，本文利用该类来模拟一下windows命令按
从 Python 调用和控制 GDB 潮易 python linux 开发语言
从Python调用和控制GDB在Python中调用和控制GDB是一个复杂的过程，因为它涉及到进程管理、通信机制以及GDB的API接口。以下是一些基本的步骤和代码示例：1.首先，你需要在你的系统上安装GDB。你可以从GDB官方网站下载并安装。2.然后，你需要创建一个Python脚本来调用GDB。在Python中，你可以使用os模块来执行命令行命令。例如，你可以使用以下的代码来启动GDB：```pyt
AI未来趋势：AIGC浪潮下看AI训练师如何塑造智能未来（技术变革）用心去追梦前端 html css
在AIGC（AIGeneratedContent，人工智能生成内容）浪潮下，AI训练师扮演着至关重要的角色，他们不仅推动了技术的发展，还在确保这些技术能够安全、高效地服务于社会方面发挥了重要作用。以下是AI训练师如何塑造智能未来的几个关键方面：1.技术变革与创新算法与模型训练预训练：通过大规模无标注数据的学习，构建具备基础语言理解和生成能力的基座模型。这一过程为后续更精细的任务打下了坚实的基础。指
【1000个GDB技巧之】GDB中使用python脚本的方法以及4个注意事项（define、python、end、gdb.execute、to_string=True）北冥的备忘录 Linux调试方法 python 调试 gdb
要点使用define定义函数在define中使用python…end包围python使用的代码（python代码也可以不在包围中）在python中使用gdb命令用gdb.execute，并且需要指定to_stringsgdb可以单独写成文件然后source进来坑：坑1：python和gdb的end都不值直接注释，需要另起一行坑2：gdb.execute执行后的输出结果包括$xxx获取需要做转换坑3
深入理解AIGC背后的核心算法：GAN、Transformer与Diffusion Models 忘梓. 杂文 AIGC 算法生成对抗网络
深入理解AIGC背后的核心算法：GAN、Transformer与DiffusionModels前言随着人工智能技术的发展，AIGC（AIGeneratedContent，人工智能生成内容）已经不再是科幻电影中的幻想，而成为了现实生活中的一种新兴力量。无论是自动生成文章、绘制图像、生成音乐还是创作视频，AIGC都在各个内容创作领域崭露头角。然而，这些“智能创作”的背后究竟依赖于哪些算法？今天，我们将
华为OD机试E卷 - 补种未成活胡杨（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python c语言 c++javascript 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述近些年来，我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨（编号1-N），排成一排。一个月后，有M棵胡杨未能成活。现可补种胡杨K棵，请问如何补种（只能补种，不能新种），可以得到最多的连续胡杨树？输入描述N总种植数量，1<=N<=100000M未成活胡杨数量，M个空格分隔的数，按编号从小到大排列，1<=M<=NK最多可以补
华为OD机试 - 树状结构查询（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od c++java javascript 华为od机试华为OD机试E卷 python
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述通常使用多行的节点、父节点表示一棵树，比如西安陕西陕西中国江西中国中国亚洲泰国亚洲输入一个节点之后，请打印出来树中他的所有下层节点输入描述第一行输入行数，下面是多行数据，每行以空格区分节点和父节点接着是查询节点输出描述输出查询节点的所有下层节点。以字典序排序示例1输入5bacadcecfdc输出def说明
【Python八股文系列】100个Python的面试/笔试高频考点程序员鑫港 python python 面试开发语言 python面试题 python入门 python笔试题 python入门教程
Python的100个面试/笔试高频考点本文主要整理了关于Python的面试/笔试的一些考点，可用于查漏补缺。前排提示：文末有独家福利！文章目录Python的100个面试/笔试高频考点1\.解释型和编译型语言的区别2\.简述下Python中的字符串、列表、元组和字典3\.简述上述数据类型的常用方法4\.简述Python中的字符串编码5\.一行代码实现数值交换6\.is和==的区别7\.Python
【华为OD-E卷 - 第k个排列 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-第k个排列100分（python、java、c++、js、c）】题目给定参数n，从1到n会有n个整数：1,2,3,…,n,这n个数字共有n!种排列。按大小顺序升序列出所有排列的情况，并一一标记，当n=3时,所有排列如下:“123”“132”“213”“231”“312”“321”给定n和k，返回第k个排列输入描述输入两行，第一行为n，第二行为k，给定n的范围是[1,9],给定k的
C语言的数据结构 2501_90183910 包罗万象 golang 开发语言后端
C语言的数据结构概述C语言是一种强大的通用编程语言，自1970年代初问世以来，一直被广泛应用于操作系统、嵌入式系统和各种应用程序的开发。数据结构是计算机科学的一个核心概念，它涉及到如何有效地组织、存储和管理数据。在C语言中，数据结构的实现为程序的性能和效率提供了重要保障。本文将详细探讨C语言中的数据结构，包括基本数据结构、复合数据结构以及如何在实际编程中应用这些数据结构。一、基本数据结构1.1数组
Objective-C语言的软件开发工具 2501_90183910 包罗万象 golang 开发语言后端
Objective-C语言软件开发工具的现状与发展引言在软件开发的世界中，编程语言的选择对项目的成功与否至关重要。Objective-C作为Apple公司推出的一种编程语言，自1980年代以来一直在macOS和iOS的开发中占据着重要地位。尽管Swift的出现为开发者提供了更多的选择，但Objective-C仍然在某些领域保持着其不可替代的优势。本文将深入探讨Objective-C语言的软件开发工
R语言的正则表达式编程小筑包罗万象 golang 开发语言后端
R语言中的正则表达式：深度解析与应用引言正则表达式（RegularExpression），简称正则，是一种用于描述字符串模式的工具。在数据科学、文本处理以及数据清理中，正则表达式都是一项不可或缺的技能。而R语言作为一种广泛应用于统计分析和数据科学的编程语言，内置了对正则表达式的强大支持。本文将深入探讨R语言中的正则表达式，包括基本语法、常用函数，以及在实际数据处理中如何应用正则表达式。正则表达式的
TypeScript语言的软件工程编程小筑包罗万象 golang 开发语言后端
TypeScript语言的软件工程实践引言在现代软件工程中，编程语言的选择对项目的成功至关重要。近年来，JavaScript凭借其在Web开发中的广泛应用取得了巨大成功。然而，随着Web应用程序的复杂性不断增加，开发者渐渐发现纯JavaScript在可维护性、类型安全性和开发效率方面的不足。为了解决这些问题，TypeScript应运而生。TypeScript是一种由微软开发的开源语言，它在Java
Kali Linux最新版本下无法直接pip安装？教你四招完美解决‘externally-managed-environment’报错！ vortex5 教程 Kali笔记 pip Kali 渗透经验分享
内容预览≧∀≦ゞKaliLinux中解决externally-managed-environment错误的四种方法引言解决方案1：从系统存储库安装Python包解决方案2：使用虚拟环境解决方案3：使用pipx安装（推荐）解决方案4：强制安装（不推荐）总结KaliLinux中解决externally-managed-environment错误的四种方法引言在KaliLinux的最新版本中，很多用户尝
Python基于OpenCV和PyQt5的人脸识别上课签到系统【附源码】 Java老徐 Python 毕业设计 python opencv 人脸识别上课签到系统人脸识别上课签到上课签到系统 PyQt5
博主介绍：✌Java老徐、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2024-2025年Java毕业设计选题推荐Python基于Django的微博热搜、微博舆论可视化系统，附源码基于PythonDjango的北极星招聘数据可视化系统感兴趣的可以先收藏起
如何使用python下载B站视频并使用ffmpeg进行合流操作 Zombie_man python 音视频开发语言 ffmpeg
需要了解的工具：先看看我发的第一期专栏，里面有关开发者模式的介绍，一些相关的请求库与解析库。本期专栏将不再赘诉。下载ffmpeg。下载官网链接：https://ffmpeg.org/download.html。注意：如果想要在cmd中使用，需要先配置环境变量有关于此的介绍与使用详细可以看此链接：https://zhuanlan.zhihu.com/p/356411237本期将导入subproces
Bash语言的数据库交互 2501_90183910 包罗万象 golang 开发语言后端
Bash语言的数据库交互引言在现代软件开发中，数据库是存储和管理数据的核心组件。无论是小型应用还是大型企业系统，数据库都扮演着至关重要的角色。而在这些系统中，与数据库的交互方式至关重要。尽管多种编程语言和框架可以与数据库进行交互，Bash脚本作为一种简单而强大的工具，常常被开发者用来进行数据库操作。本文将详细探讨使用Bash与数据库进行交互的方式，包括常用的数据库如MySQL、PostgreSQL
Python FileNotFoundError: [WinError 2] 系统找不到指定的文件。 zhangda0000001 python python
用Idle运行Python脚本的时候发现如下错误：Traceback(mostrecentcalllast):File"D:\Python\Python36-32\lib\site-packages\selenium-3.4.3-py3.6.egg\selenium\webdriver\common\service.py",line74,instartstdout=self.log_file,st
大数据学习(37)- Flink运行时架构 viperrrrrrr 学习 flink 大数据
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）作业管理器（JobManager）JobManager是一个Flink集群中任务管理和调度的核心，是控制应用执行的主进程。也就是说，每个应用都应该被唯一的JobManager所控制执行。JobManger又包含3个不同的组件。（1）JobMasterJobM
自动化办公|使用Python重命名并移动文件到对应文件夹游客520 自动化 python全栈学习实用代码 python 自动化
在日常的文件管理和处理过程中，我们可能会遇到需要将文件整理到不同文件夹中的需求。例如，我们有一个包含多个文件的目录，文件名的首字符表示文件应该存放在哪个文件夹中。我们可以使用Python脚本来自动完成这个任务，实现文件的分类整理。本文将介绍如何通过Python编写一个脚本来实现以下功能：检查并删除空文件夹；将文件按照文件名的首字符分类，移动到对应的文件夹中。1.基本需求假设我们有一个文件夹save
原生开发vs混合开发甘光宗 c++
原生开发（NativeDevelopment）和混合开发（HybridDevelopment）是两种常见的移动应用开发方式，各有其优缺点。以下是它们的详细对比：1.原生开发(NativeDevelopment)定义：原生开发指的是使用平台特定的编程语言和工具（如Android使用Java/Kotlin，iOS使用Swift/Objective-C）来开发应用程序。这些应用直接与操作系统交互，能够使
python分段线性插值_计算方法（3）——分段插值法（附Python程序） weixin_39900206 python分段线性插值
在上一节计算方法(2)——插值法(附Python程序)当中，主要讲了插值法，介绍了龙格现象，并给出了插值法的代码。这一讲主要分段插值中的分段线性插值和分段Hermite插值，并给出分段插值的Python程序。在此之前需要注意一下，n为区间数，n+1为插值节点的个数。分段线性插值分段线性插值，需要两个列表，一个用于存放各点的x坐标，一个用于存放各点的y坐标。因为分段插值的算法需要x坐标按顺序增长，而
Erlang语言研究综述 weixin_34233856 java shell 数据结构与算法
2019独角兽企业重金招聘Python工程师标准>>>摘要:本文前半部分主要是关于Erlang编程语言相关的内容；着重就一般学习编程语言的一般的关注点来阐述了Erlang编程语言的基本语法点，主要包括：Erlang的变量、Erlang的数据类型、Erlang的语句和Erlang编程语言的函数与模块四个方面；本文的后半部分主要就Erlang语言的并行化编程的实践：Erlang的并行化编程与Erlan
利用Pygame实现Python塔防游戏开发阿卞是宝藏啊
本文还有配套的精品资源，点击获取简介：本项目介绍如何使用Python的pygame库制作塔防游戏，强调游戏开发的各个基本流程和技巧。包括初始化pygame、游戏结构设计、游戏逻辑实现、图像与声音处理，以及游戏优化和调试过程。项目旨在提升开发者在Python编程和游戏开发方面的技能。1.Python与pygame库基础简介Python是一种广泛应用于各个领域的高级编程语言，以其简洁明了的语法和强大的
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那