zenRRan

Transformer预训练模型已经变革NLP领域，一文概览当前现状

机器之心报道

机器之心编辑部

Transformer 为自然语言处理领域带来的变革已无需多言。近日，印度国立理工学院、生物医学人工智能创业公司 Nference.ai 的研究者全面调查了 NLP 领域中基于 Transformer 的预训练模型，并将调查结果汇集成了一篇综述论文。本文将按大致脉络翻译介绍这篇论文，并重点关注其中的讨论部分，因为研究者在其中指出了该领域新的研究机会。尤其需要说明：研究者将该论文命名为「 AMMUS 」，即 AMMU Smiles，这是为了纪念他们的朋友 K.S.Kalyan。

在如今的 NLP 领域，几乎每项任务中都能看见「基于 Transformer 的预训练语言模型（T-PTLM）」成功的身影。这些模型的起点是 GPT 和 BERT。而这些模型的技术基础包括 Transformer、自监督学习和迁移学习。T-PTLM 可使用自监督学习从大规模文本数据学习普适性的语言表征，然后将学到的知识迁移到下游任务。这些模型能为下游任务提供优质的背景知识，从而可避免从头开始训练下游任务。

这篇详尽调查 T-PTLM 的综述论文首先将简要介绍自监督学习。接下来将解释多个核心概念，包括预训练、预训练方法、预训练任务、嵌入和下游任务适应方法。接下来，文章将为 T-PTLM 给出一种新的分类方法，然后简要介绍多种不同的基准，包括内部基准和外部基准。研究者还归纳总结了一些适用于 T-PTLM 的软件库。最后讨论了一些可能有助于进一步改进这些模型的未来研究方向。

论文地址：https://arxiv.org/pdf/2108.05542.pdf

研究者相信，这篇全面详尽的综述论文能作为一份很好的参考资料，帮助读者了解 T-PTLM 的相关核心概念和近期研究进展。

引言

基于 Transformer 的预训练语言模型（T-PTLM）具备从大规模无标注文本数据学习通用语言表征并将所学知识迁移到下游任务的能力，因此已经在 NLP 领域取得了巨大的成功，这类模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期，NLP 系统大都采用了基于规则的方法，之后取而代之的是机器学习模型。机器学习模型需要特征工程，而特征工程又需要领域专业知识并且需要较长的时间。

随着 GPU 等更好的计算机硬件以及 Word2Vec 和 Glove 等词嵌入方法的出现，CNN 和 RNN 等深度学习模型在构建 NLP 系统方面得到了更广泛的应用。这些深度学习模型的主要缺点是除了词嵌入之外，需要从头开始训练模型。从头开始训练这类模型需要大量有标注实例，而生成这些实例的成本很高。但是，我们希望仅使用少量有标注实例来获得表现良好的模型。

迁移学习让我们可以将在源任务上学习到的知识很好地复用到目标任务上。在这其中，目标任务应该与源任务相似。基于迁移学习的思想，计算机视觉领域的研究者已在使用 ImageNet 等大规模有标注数据集来训练大型 CNN 模型。这些模型学习到的图像表征对所有任务来说都是普适的。然后，这些大型预训练 CNN 模型可以适应下游任务，具体做法是添加少数特定于任务的层，然后在目标数据集上进行微调。由于预训练 CNN 模型能为下游模型提供很好的背景知识，因此它们在许多计算机视觉任务上取得了巨大的成功。

CNN 和 RNN 等深度学习模型难以建模长期上下文以及学习具有局部性偏差（locality bias）的词表征。此外，由于 RNN 按顺序处理输入（逐词处理），因此只能有限度地使用并行计算硬件。为了克服现有深度学习模型的这些缺点，Vaswani et al. 提出了完全基于自注意力的深度学习模型：Transformer。相比于 RNN，自注意力支持更高度的并行化，并且还能轻松地建模长期上下文，因为输入序列中的每个 token 都会关注其它所有 token。

Transformer 包含一些堆叠的编码器和解码器层。在堆叠编码器和解码器层的帮助下，Transformer 可以学习到复杂的语言信息。在 NLP 领域，生成大量有标注数据的成本非常高，也非常耗时。但是，大量无标注文本数据却很容易获得。在计算机视觉社区使用基于 CNN 的预训练模型所取得的成功的感召下，NLP 研究社区将 Transformer 和自监督学习的能力组合到一起，开发出了 T-PTLM。自监督学习让 Transformer 可以使用由一个或多个预训练任务提供的伪监督进行学习。

GPT 和 BERT 是最早的 T-PTLM，它们分别是基于 Transformer 解码器和编码器层开发的。之后，又诞生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中，XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改进模型；T5、BART 和 PEGAUSUS 是基于编码器 - 解码器的模型。

Kaplan et al. 表明只需增加 T-PTLM 模型的规模就能带来性能的提升。这一发现推动了大规模 T-PTLM 的发展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千亿参数的模型，而 Switch-Transformers (1.6T) 的参数量更是达到了万亿级。

T-PTLM 在通用英语领域取得成功之后，又开始进军其它领域，包括金融、法律、新闻、编程、对话、网络、学术和生物医学。T-PTLM 还支持迁移学习，即通过在目标数据集上进行微调和即时调整，可让这些模型适用于下游任务。本文将全面回顾与 T-PTLM 有关的近期研究成果。这篇综述论文的看点总结如下：

第 2 节将简单介绍自监督学习，这是 T-PTLM 的核心技术。
第 3 节将介绍与 T-PTLM 相关的一些核心概念，包括预训练、预训练方法、预训练任务、嵌入和下游适应方法。
第 4 节将给出一种针对 T-PTLM 的新型分类法。这种分类法考虑了四大方面，即预训练语料库、架构、自监督学习类型和扩展方法。
第 5 节将给出一种针对不同下游适应方法的新型分类法并将详细解释每个类别。
第 6 节将简要介绍多种用于评估 T-PTLM 进展的基准，包括内部基准和外部基准。
第 7 节将给出一些适用于 T-PTLM 的软件库，从 Huggingface Transformers 到 Transformer-interpret。
第 8 节将简单讨论一些可能有助于进一步改进这些模型的未来研究方向。

自监督学习（SSL）

监督学习的缺点总结如下：

严重依赖人类标注的实例，而获取这些实例耗时费力。
缺乏泛化能力，容易出现虚假相关的问题。
医疗和法律等许多领域缺乏有标注数据，这会限制 AI 模型在这些领域的应用。
难以使用大量免费可用的无标注数据进行学习。

SSL 与监督学习和无监督学习等其它流行学习范式具有一些相似性。SSL 与无监督学习的相似之处是它们都不需要人类标注的实例。但是，它与无监督学习也有不同之处：a) SSL 需要监督，而无监督学习没有监督；b) 无监督学习的目标是识别隐藏模式，而 SSL 的目标是学习有意义的表征。SSL 与监督学习的相似之处是学习范式时都需要监督。但是，它与监督学习也有不同之处：a) SSL 会自动生成标签，而无需任何人类干预；b) 监督学习的目标是提供特定于任务的知识，而 SSL 的目标是向模型提供通用知识。

SSL 的目标总结如下：

学习通用语言表征，这能为下游模型提供优良的背景。
通过学习大量免费可用的无标注文本数据来获得更好的泛化能力。

自监督学习可大致分为生成式 SSL、对比式 SSL 和对抗式 SSL 三种。

T-PTLM 核心概念

预训练

预训练能带来以下一些优势：

通过利用大量无标注文本，预训练有助于模型学习通用语言表征。
只需增加一两个特定的层，预训练模型可以适应下游任务。因此这能提供很好的初始化，从而避免从头开始训练下游模型（只需训练特定于任务的层）。
让模型只需小型数据集就能获得更好的表现，因此可以降低对大量有标注实例的需求。
深度学习模型由于参数数量大，因此在使用小型数据集训练时，容易过拟合。而预训练可以提供很好的初始化，从而可避免在小型数据集上过拟合，因此可将预训练视为某种形式的正则化。

预训练的步骤

预训练一个模型涉及以下五个步骤：

准备预训练语料库
生成词汇库
设计预训练任务
选择预训练方法
选择预训练动态

预训练语料库

图 1：预训练语料库

图 2：预训练方法，其中 PTS 是从头开始型预训练、CPT 是持续型预训练、SPT 是同时型预训练、TAPT 是任务自适应型预训练、KIPT 是知识继承型预训练

预训练任务

闲聊语言建模（CLM）
掩码语言建模（MLM）
替代 token 检测（RTD）
混洗 token 检测（STD）
随机 token 替换（RTS）
互换语言建模（SLM）
翻译语言建模（TLM）
替代语言建模（ALM）
句子边界目标（SBO）
下一句子预测（NSP）
句子顺序预测（SOP）
序列到序列语言模型（Seq2SeqLM）
去噪自动编码器（DAE）

嵌入

图 8：T-PTLM 中的嵌入

分类法

为了了解以及跟踪各种 T-PTLM 的发展，研究者从四个方面对 T-PTLM 进行了分类，即预训练语料库、模型架构、SSL 类型和扩展方法。如下图 9 所示：

图 9：T-PTLM 的分类法。

下游适应方法

一旦完成语言模型的训练，就可将其用于下游任务了。将预训练后的语言模型用于下游任务的方式有三种：基于特征的方法、微调和基于提示的微调（prompt-based tuning）。

如下图 10 所示，基于特征的方法涉及到根据语言模型生成上下文的词嵌入，然后在针对特定下游任务的模型中将它们用作输入特征。微调涉及到根据下游任务，通过尽量降低针对特定任务的损失来调整模型权重。

图 10：下游适应方法。

评估

在预训练阶段，T-PTLM 会获取预训练语料库中编码的知识。这里的知识包括句法、语义、事实和常识。对于 T-PTLM 的效果，评估方式有两种，即内在方式和外在方式。见下图 11。

内在评估方式是通过探测 T-PTLM 中编码的知识进行评估，而外在评估方式则是评估 T-PTLM 在真实世界下游任务中的效果如何。内在评估方式可让我们了解 T-PTLM 在预训练阶段获得的知识，这有助于我们设计更好的预训练任务，使得模型可以在预训练阶段学习到更多知识。

图 11：用于评估 T-PTLM 研究进展的基准。

有用的软件库

研究者还归纳总结了一些适用于 T-PTLM 的常用软件库。其中，Transformers 和 Fairseq 等软件库适用于模型训练和评估。SimpleTransformers、HappyTransformer、AdaptNLP 等则构建于 Transformer 软件库之上，可让用户仅使用少量代码就实现更轻松的训练和评估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等则可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可视化分析工具，可用于探索 Transformer 模型的层。Transformers-interpret 和 Captum 则能用于解释模型决策。

表 11：适用于 T-PTLM 的软件库。

讨论和未来方向

更好的预训练方法

仅使用 SSL 来训练模型（尤其是带有成千上万亿参数的大模型）的成本非常高。知识继承型预训练（KIPT）等全新的预训练方法涉及到 SSL 和知识蒸馏。SSL 让模型可以学习预训练语料库中可用的知识，而知识蒸馏则让模型可以学习已经编码在已有预训练模型中的知识。由于在通过知识蒸馏的预训练阶段，模型可获得额外的知识，因此 a) 模型可以更快速地收敛并由此缩短预训练时间，b) 相比于仅使用 SSL 预训练的模型，在下游任务上的表现会更好。研究社区必须重点关注开发 KIPT 等更好的预训练方法，让模型获得更多知识以及降低预训练时间。

样本高效型预训练任务

如果一个预训练任务能最大化地利用每个训练实例，那么就可以说该预训练任务是样本高效的，即它应该能在训练实例中的所有 token 上获得定义。样本高效型预训练任务能使预训练的计算效率更高。最常用的预训练任务 MLM 的样本效率就不太高，因为其仅涉及到一个 token 子集，即掩码 token，其占总 token 数的 15%。RTD、RTS 和 STD 等预训练任务可被视为是开发样本高效型预训练任务的早期尝试。这三种预训练任务都定义在每个训练实例的所有 token 之上，即它们涉及到识别每个 token 是否被替代、随机替换或混洗。未来应该还将出现使计算效率更高的样本高效型预训练任务。

高效模型

由于模型尺寸较大并且需要大量无标注的文本数据，因此预训练 T-PTLM 的成本也很高。但是，较长的预训练时间对环境并不友好，因为这个过程会释放二氧化碳；而在生物医学等许多领域，也没有大规模的无标注文本数据。近期，在 BERT 模型基础上进行全新改进的 DeBERTa 等模型实现了比 RoBERTa 模型更好的性能，尽管其仅使用了 78 GB 数据进行预训练，这只是预训练 RoBERTa 模型所用的数据量的一半。类似地，ConvBERT 凭借全新的混合注意力模块，仅使用 ELECTRA 模型四分之一的预训练成本就取得了更优的表现。为了降低预训练的数据量和训练成本，人们需要 DeBERTa 和 ConvBERT 这样的高效模型。

更好的位置编码机制

自注意力机制是置换不变型的方法，不存在位置偏差。使用绝对或相对位置嵌入，可以提供位置偏差。此外，绝对位置嵌入可以预先确定或学习到。但是，这两种方法各有优缺点。绝对位置嵌入会有泛化问题，但却很容易实现。不同于绝对位置，相对位置嵌入能稳健地应对序列长度变化，但却难以实现，性能也更差。我们还需要全新的位置编码机制，比如 CAPE，其将绝对和相对位置嵌入的优势组合到了一起。

改进现有的 T-PTLM

BERT 和 RoBERTa 等 T-PTLM 已经在许多 NLP 任务上取得了优良的结果。近期的研究表明，通过基于对抗或对比预训练任务的持续预训练注入句子层级的语义，还可以进一步改进这些模型。举个例子，Panda et al. 表明使用混洗 token 检测目标的持续预训练可提升 RoBERTa 模型在 GLUE 任务上的性能，因为其允许模型学习更连贯的句子表征。类似地，使用对比预训练目标的持续性预训练可以提升 T-PTLM 在 GLUE 任务上的性能以及多语言 T-PTLM 在 Mickey Probe 上的表现。为了将其扩展到其它单语言和特定领域的 T-PTLM，还需要进一步的研究。

超越朴素的微调

为了将预训练模型用于下游任务，微调是最常用的方法。但是，朴素的微调的主要缺点是其会改变预训练模型中的所有层，因此我们需要为每个任务维持另一个副本，这会增加部署成本。为了以一种参数高效的方式将预训练模型用于下游任务，人们提出了 Adapters 和基于剪枝的微调等方法。

举个例子，adapter 是添加到每个 Transformer 层的针对特定任务的小层。而在下游任务适应期间，仅更新 adapter 层的参数，Transformer 层的参数保持不变。此外，Poth et al. 表明 adapter 也可用于中间微调。近期，基于提示的微调（prompt-based tuning）方法在参数效率方面取得了明显更优的表现，并得到了研究社区的关注。举个例子，Prefix-tuning 等基于提示的微调方法仅需要 0.1% 的针对特定任务的参数，而基于 adapter 的微调则需要 3% 的针对特定任务的参数。

基准评测

在最后四层中，人们引入了很多基准来评估通用型和领域特定型预训练模型的进展。除了英语之外，也出现了一些用于评估其它单语言和多语言模型进展的基准。但是，现有的基准不足以覆盖所有场景。举个例子，还没有基准用于评估 a) 紧凑预训练模型的进展，b) 预训练模型的稳健性，c) 针对社交媒体以及学术等专业领域开发的 PTLM。

近日，Explainboard 等排行榜不再只是使用已有基准等单一指标评估进展，也会深挖或分析模型的长项和短板。这类排行榜应该也能扩展到其它领域。此外，FewGLUE、FLEX 和 FewCLUE 等评估少量次学习技术的基准也应当扩展到其它语言和领域。

紧凑模型

T-PTLM 几乎在每种 NLP 任务上都获得了最佳表现。但是，这些模型都很大，需要更大的存储空间。因为这些模型的层数很多，因此输入需要一定时间才能完全通过模型，从而得到预测结果，因此延迟很高。而真实世界应用的资源有限，需要更低的延迟，因此剪枝、量化、知识蒸馏、参数共享和分解等模型压缩方法已经在英语通用领域应用方面得到了探索。研究这些模型压缩方法在其它语言和领域的应用具有很大的前景。

对噪声的稳健性

T-PTLM 容易受到噪声影响，其中包括对抗噪声和自然噪声。其主要原因是使用了子词嵌入。在使用子词嵌入时，一个词会被分解为多个子词 token，因此即使很小的拼写错误也可能改变该词的整体表征，进而阻碍模型学习并影响模型预测。为了提升模型对噪声的稳健性，CharacterBERT 等模型采用了只使用字符嵌入的方法，而 CharBERT 等模型则会将字符嵌入和子词嵌入一起使用。这两种方法都能提升对噪声的稳健性。

近期，研究者们还提出了 CANINE、ByT5 和 Charformer 等无 token 化模型来提升对噪声的稳健性。为了让这些模型能在真实世界中得到应用，尤其是在医学等敏感领域，我们需要提升它们的稳健性。

全新的适应方法

为了将通用模型适应到生物医学等专业领域或将多语言模型适应到特定语言，常用的策略是使用持续性预训练。尽管这种方法通过调整模型以适应特定的领域或语言能得到良好的结果，但如果缺少领域或语言特定的词汇库，下游模型的性能会受到影响。近期有研究者提出了扩展词汇表然后持续预训练的方法。这些方法能克服 OOV 词的问题，但由于会在词汇表中增加新词，因此会增大词汇表的规模。近日，Yao et al. 提出了 Adapt and Distill 方法，即使用词汇表扩展和知识蒸馏来使通用模型适应特定领域。不同于已有的适应方法，该方法不仅能让通用模型适应特定领域，而且还能减小模型的规模。这一注意值得进一步研究并有望产出全新的适应方法。

隐私问题

T-PTLM 已经在许多 NLP 任务上取得了优良的结果。但是，这些模型也存在一些超出预期且并无益处的风险。举个例子，数据泄露是人们担心的一个主要问题，尤其是当这些模型的预训练使用了隐私数据时。由于模型是在大量文本数据上预训练的，因此有可能从中恢复敏感信息，比如可识别出个人身份的信息。因此，需要防止人们公开发布使用隐私数据预训练的模型。

近日，Carlini et al. 研究表明，GPT-2 模型可生成一个人的完整邮政地址，这些地址包含在训练数据中，可使用该人的名字通过提示得到。近期出现在生物医学领域的 KART 框架可通过执行多种攻击来评估数据泄露情况。研究社区需要开发更复杂的攻击来评估数据泄露情况并开发防止预训练模型泄露敏感数据的方法。

降低偏见

基于深度学习的方法正在现实世界中得到越来越广泛的应用，其中包括在生物医学和法律等专业领域。但是，这些模型很容易学习并放大训练数据中已有的偏见。由此造成的结果是：这些模型会产生对特定种族、性别或年龄群体的偏见。我们完全不需要这样的模型。

近期出现了一些重点关注识别和降低偏见的研究。比如，Minot et al. 提出了一种用于减少性别偏见的数据增强方法，Liang et al. 提出的 A-INLP 方法可以动态地识别偏见敏感型 token。在这一领域进行进一步研究有助于降低预训练模型中的偏见并帮助它们做出公平的决定。

降低微调不稳定性

为了让预训练模型适应下游任务，最常用的方法是微调。尽管微调的表现不错，但它并不稳定，即使用不同随机种子来执行微调会令下游表现差距巨大。有人认为，微调不稳定的原因包括灾难性遗忘和数据集规模较小。但是，Mosbach et al. 表明这两个原因都不是微调不稳定的原因，并进一步表明微调不稳定的原因包括：a) 优化困难，导致梯度消失，b) 泛化问题。为了降低微调不稳定，可能的解决方案包括：a) 中间微调，b) 混合（mix-out），c) 在早期 epoch 采用更小的学习率并且增多微调 epoch 的次数，d) 同时使用监督式对比损失和交叉熵损失。让微调更稳定的方法值得进一步研究。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个
专栏导读本专栏收录于《华为OD机试（JAVA）真题（B卷+A卷+C卷+D卷+E卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
【全网首发】华为OD机试 2025B卷机考真题库清单（全真题库）含考点说明哪吒搬砖工逆袭Java架构师华为od java 2025B卷华为OD机试
专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
【2025B卷首发】华为OD机试真题+全流程解析+备考攻略+经验分享+Java最佳实现
专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析一起搞IT吧数码相机算法数据结构人工智能 android 图像处理计算机视觉
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析目录一、libcvface_api.so数据结构详细注释解析一、libcvface_api.so数据结构详细注释解析///@brief人脸信息结构体typedefstructcv_face_t{cv_r
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
新时代的开始，华为开源仓颉编程语言！
7月30日，华为即将开源自研的仓颉编程语言。仓颉这个名字很有意思。传说中的仓颉创造了汉字，开启了中华文明的文字时代。华为用这个名字，体现了对中华文化的致敬。从2020年开始研发，到去年首次亮相，再到现在的全面开源，华为用了5年时间。说起仓颉诞生的背景，不得不提到2019年后美国对华为的技术封锁。当时，华为在芯片、操作系统、软件生态等多个领域都面临"卡脖子"的困境。在这种情况下，华为选择了一条更艰难
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
Django核心知识点详解：JSON、AJAX、Cookie、Session与用户认证 PythonicCC django json ajax
1.JSON数据格式详解1.1什么是JSON？JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，具有以下特点：独立于语言，几乎所有编程语言都支持易于人阅读和编写易于机器解析和生成基于文本，比XML更简洁1.2JSON基本格式对象格式{"name":"rose","age":20}使用大括号{}包裹键值对形式，键必须用双引号包裹多个键值对用逗号分隔数组格式["j
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

Transformer预训练模型已经变革NLP领域，一文概览当前现状

你可能感兴趣的:(大数据,算法,编程语言,python,机器学习)