zenRRan

【亚洲微软研究院】带你8篇论文梳理BERT相关模型进展与反思

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要25分钟

跟随小博主，每天进步一丢丢

BERT 自从在 arXiv 上发表以来获得了很大的成功和关注，打开了 NLP 中 2-Stage 的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练（pre-trained）模型，有引入 BERT 中双向上下文信息的广义自回归模型 XLNet，也有改进 BERT 训练方式和目标的 RoBERTa 和 SpanBERT，还有结合多任务以及知识蒸馏（Knowledge Distillation）强化 BERT 的 MT-DNN 等。除此之外，还有人试图探究 BERT 的原理以及其在某些任务中表现出众的真正原因。以上种种，被戏称为 BERTology。本文中，微软亚洲研究院知识计算组实习生陈永强尝试汇总上述内容，作抛砖引玉。

来自：微软研究院AI头条

近期 BERT 相关模型一览

XLNet 及其与 BERT 的对比
RoBERTa
SpanBERT
MT-DNN 与知识蒸馏

对 BERT 在部分 NLP 任务中表现的深入分析

BERT 在 Argument Reasoning Comprehension 任务中的表现
BERT 在 Natural Language Inference 任务中的表现

近期 BERT 相关模型一览

1. XLNet 及其与 BERT 的对比

我们的讨论从 XLNet 团队的一篇博文开始，他们想通过一个公平的比较证明最新预训练模型 XLNet 的优越性。但什么是 XLNet 呢？

图1：XLNet 和 BERT 对比图

我们知道，BERT 是典型的自编码模型（Autoencoder)，旨在从引入噪声的数据重建原数据。而 BERT 的预训练过程采用了降噪自编码（Variational Autoencoder）思想，即 MLM（Mask Language Model）机制，区别于自回归模型（Autoregressive Model），最大的贡献在于使得模型获得了双向的上下文信息，但是会存在一些问题：

1. Pretrain-finetune Discrepancy：预训练时的[MASK]在微调（fine-tuning）时并不会出现，使得两个过程不一致，这不利于 Learning。

2. Independence Assumption：每个 token 的预测是相互独立的。而类似于 New York 这样的 Entity，New 和 York 是存在关联的，这个假设则忽略了这样的情况。

自回归模型不存在第二个问题，但传统的自回归模型是单向的。XLNet 团队想做的，就是让自回归模型也获得双向上下文信息，并避免第一个问题的出现。

他们主要使用了以下三个机制：

Permutation Language Model
Two-Stream Self-Attention
Recurrence Mechanism

接下来我们将分别介绍这三种机制。

Permutation Language Model

图2：XLNet 模型框架图

在预测某个 token 时，XLNet 使用输入的 permutation 获取双向的上下文信息，同时维持自回归模型原有的单向形式。这样的好处是可以不用改变输入顺序，只需在内部处理。

它的实现采用了一种比较巧妙的方式：使用 token 在 permutation 的位置计算上下文信息。如对于，当前有一个 2 -> 4 ->3 ->1 的排列，那么我们就取出 token_2 和 token_4 作为AR 的输入预测 token_3。不难理解，当所有 permutation 取完时，我们就能获得所有的上下文信息。

这样就得到了我们的目标公式：

但是在原来的公式中，我们只使用了 h_θ (x_(Z

此外，为了降低模型的优化难度，XLNet 使用了 Partial Prediction，即只预测当前 permutation 位置 c 之后的 token，最终优化目标如下所示。

Two-Stream Self-Attention

图3：Two-Stream Self-Attention 机制

该机制所要解决的问题是，当我们获得了 g_θ (x_{Z

Recurrence Mechanism

图4：Recurrence Mechanism 机制

该机制来自 Transformer-XL，即在处理下一个 segment 时结合上个 segment 的 hidden representation，使得模型能够获得更长距离的上下文信息。而在 XLNet 中，虽然在前端采用相对位置编码，但在表示 h_θ (x_{Z

XLNet 与 BERT 的区别示例

图5：XLNet 与 BERT 的区别示例

为了说明 XLNet 与 BERT 的区别，作者举了一个处理“New York is a city”的例子。这个可以直接通过两个模型的公式得到。假设我们要处理 New York 这个单词，BERT 将直接 mask 这两个 tokens，使用“is a city”作为上下文进行预测，这样的处理忽略了 New 和 York 之间的关联；而 XLNet 则通过 permutation 的形式，可以使得模型获得更多如 York | New, is a city 这样的信息。

公平地比较 XLNet 与 BERT

为了更好地说明 XLNet 的优越性，XLNet 团队发表了开头提到的博文“A Fair Comparison Study of XLNet and BERT”。

在这篇博文中，XLNet 团队控制 XLNet 的训练数据、超参数（Hyperparameter）以及网格搜索空间（Grid Search Space）等与 BERT 一致，同时还给出了三个版本的 BERT 进行比较。BERT 一方则使用以下三个模型中表现最好的模型。

实验结果如下。

表1：XLNet 与 BERT 实验结果对比

从中可以看出，在相同设定情况下，XLNet 完胜 BERT。但有趣的是：

XLNet 在使用 Wikibooks 数据集时，在MRPC（Microsoft Research Paraphrase Corpus: 句子对来源于对同一条新闻的评论，判断这一对句子在语义上是否相同）和 QQP（Quora Question Pairs: 这是一个二分类数据集。目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的）任务上获得了不弱于原版 XLNet 的表现；

BERT-WWM 模型普遍表现都优于原 BERT；

去掉 NSP（Next Sentence Prediction）的 BERT 在某些任务中表现会更好；

除了 XLNet，还有其他模型提出基于 BERT 的改进，让 BERT 发挥更大的潜能。

2. RoBERTa: A Robustly Optimized BERT Pretraining Approach

表2：RoBERTa 在 GLUE 中的实验结果

RoBERTa 是最近 Facebook AI 联合 UW 发布的 BERT 预训练模型，其改进主要是如图所示几点，除了调参外，还引入了 Dynamically Change Mask Pattern 并移除 Next Sentence Prediction，使得模型在 GLUE Benchmark 排名第一。作者的观点是：BERT is significantly undertrained。

表3：RoBERTa 各个机制的效果比较实验

不同于原有的 BERT 的 MLM 机制，作者在总共40个 epoch 中使用10种不同的 Mask Pattern，即每种 Mask Pattern 训练4代，作为 static 策略；作者还引入了 dynamic masking 策略，即每输入一个 sequence 就为其生成一个 mask pattern。最终发现，新策略都比原 BERT 好，而 dynamic 总体上比 static 策略要好一些，并且可以用于训练更大的数据集以及更长的训练步数，因此最终选用 dynamic masking pattern。

作者还通过替换 NSP 任务进行预训练。虽然 BERT 中已经做了尝试去掉 NSP 后的对比，结果在很多任务中表现会下降，但是包括前文 XLNet 团队所做的实验都在质疑这一结论。

选用的新策略包括：

Sentence-Pair+NSP Loss：与原 BERT 相同；
Segment-Pair+NSP Loss：输入完整的一对包含多个句子的片段，这些片段可以来自同一个文档，也可以来自不同的文档；
Full-Sentences：输入是一系列完整的句子，可以是来自同一个文档也可以是不同的文档；
Doc-Sentences：输入是一系列完整的句子，来自同一个文档；

结果发现完整句子会更好，来自同一个文档的会比来自不同文档的好一些，最终选用 Doc-Sentences 策略。

表4：RoBERTa 在更多训练数据和更久训练时间下的实验结果

作者还尝试了更多的训练数据以及更久的训练时间，发现都能提升模型的表现。

这种思路一定程度上与 OpenAI 前段时间放出的 GPT2.0 暴力扩充数据方法有点类似，但是需要消耗大量的计算资源。

3. SpanBERT: Improving Pre-training by Representing and Predicting Spans

图6：SpanBER模型框架以及在 GLUE 中的实验结果

不同于 RoBERTa，SpanBERT 通过修改模型的预训练任务和目标使模型达到更好的效果。其修改主要是三个方面：

Span Masking：这个方法与之前 BERT 团队放出WWM（Whole Word Masking）类似，即在 mask 时 mask 一整个单词的 token 而非原来单个token。每次 mask 前，从一个几何分布中采样得到需要 mask 的 span 的长度，并等概率地对输入中为该长度的 span 进行 mask，直到 mask 完15%的输入。

Span Boundary Object：使用 span 前一个 token 和末尾后一个 token 以及 token 位置的 fixed-representation 表示 span 内部的一个 token。并以此来预测该 token，使用交叉熵作为新的 loss 加入到最终的 loss 函数中。该机制使得模型在 Span-Level 的任务种能获得更好的表现。

Single-Sequence Training：直接输入一整段连续的 sequence，这样可以使得模型获得更长的上下文信息。

在这三个机制下，SpanBERT 使用与 BERT 相同的语料进行训练，最终在 GLUE 中获得82.8的表现，高于原版 Google BERT 2.4%，高于他们调参后的 BERT 1%，同时在 Coreference Resolution 上将最好结果提高了6.6%。

4. MT-DNN 与知识蒸馏

Multi-Task Deep Neural Networks for Natural Language Understanding

这篇论文旨在将 Multi-Task 与 BERT 结合起来，使得模型能在更多的数据上进行训练的同时还能获得更好的迁移能力（Transfer Ability）。

图7：MT-DNN 模型框架以及训练算法

模型架构如上图所示，在输入以及 Transformer 层，采用与 BERT 相同的机制，但是在后续处理不同任务数据时使用不同的任务参数与输出的表示做点积（Dot Production），用不同的激活函数（Activation Function）和损失函数（Loss Function）进行训练。

图8：MT-DNN 在不同任务之间的迁移能力

MT-DNN 具有不错的迁移能力。如上图所示，MT-DNN 只需要23个任务样本就可以在 SNLI 中获得82%的准确率！尤其是 BERT 在一些小数据集上微调可能存在无法收敛表现很差的情况，MT-DNN 就可以比较好地解决这一问题，同时节省了新任务上标注数据以及长时间微调的成本。

Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

图9：使用知识蒸馏对 MT-DNN 模型进行优化

由于 MT-DNN 可以看作一个 ensemble 过程，所以就可以用知识蒸馏（Knowledge Distillation）进行优化，该方法能提升很多 ensemble 模型的表现，感兴趣的读者可以自行了解相关内容。

本文的知识蒸馏过程即对于不同的任务，使用相同的结构在对应的数据集上进行微调，这就可以看作每个任务的 Teacher，他们分别擅长解决对应的问题。

Student 则去拟合 target Q，并且使用 soft 交叉熵损失（Cross Entropy Loss）。为什么使用 soft 交叉熵损失呢？因为有些句子的意思可能并不是绝对的，比如“I really enjoyed the conversation with Tom"有一定概率说的是反语，而不是100%的积极意思。这样能让 Student 学到更多的信息。

采用知识蒸馏后，模型在 GLUE 中的表现增长了1%，目前排名前三。我们还可以期待 MT-DNN 机制在 XLNet 上等其他预训练模型中的表现。

对 BERT 在部分 NLP 任务中

表现的深入分析

上文的 BERT 在 NLP 许多任务中都取得了耀眼的成绩，甚至有人认为 BERT 几乎解决了 NLP 领域的问题，但接下来的两篇文章则给人们浇了一盆冷水。

1. BERT 在 Argument Reasoning Comprehension 任务中的表现

Probing Neural Network Comprehension of Natural Language Arguments

表5：BERT 在 Argument Reasoning Comprehension 任务中的表现

该文主要探究 BERT 在 ARCT（Argument Reasoning Comprehension）任务中取得惊人表现的真正原因。

首先，ARCT 任务是 Habernal 等人在 NACCL 2018 中提出的，即在给定的前提（premise）下，对于某个陈述（claim），相反的两个依据（warrant0，warrant1）哪个能支持前提到陈述的推理。

他们还在 SemEval-2018 中指出，这个任务不仅需要模型理解推理的结构，还需要一定的外部知识。在本例中，这个外部知识可以是“Sport Leagues 是一个和 Sport 相关的某组织”。

该任务中表现最好的模型是 GIST，这里不详细展开，有兴趣的读者可以关注该论文。

图10：模型框架与实验结果

作者尝试使用 BERT 处理该任务，调整输入为[CLS，Claim，Reason，SEP，Warrant ]，通过共用的 linear layer 获得一个 logit（类似于逻辑回归），分别用 warrant0 和 warrant1 做一次，通过 softmax 归一化成两个概率，优化目标是使得答案对应的概率最大。

最终该模型在测试集中获得最高77%的准确率。需要说明的是，因为 ARCT 数据集过小，仅有1210条训练样本，使得 BERT 在微调时容易产生不稳定的表现。因此作者进行了20次实验，去掉了退化（Degeneration，即在训练集上的结果非常差）的实验结果，统计得到上述表格。

表6：作者的探索性实验（Probing Experiments）

虽然实验结果非常好，但作者怀疑：这究竟是 BERT 学到了需要的语义信息，还是只是过度利用了数据中的统计信息，因此作者提出了关于 cue 的一些概念：

A Cue's Applicability：在某个数据点 i，label 为 j 的 warrant 中出现但在另一个 warrant 中不出现的 cue 的个数。

A Cue's Productivity：在某个数据点 i，label 为 j 的 warrant 中出现但在另一个 warrant 中不出现，且这个数据点的正确 label 是 j，占所有上一种 cue 的比例。直观来说就是这个 cue 能被模型利用的价值，只要这个数据大于50%，那么我们就可以认为模型使用这个 cue 是有价值的。

A Cue's Coverage：这个 cue 在所有数据点中出现的次数。

这样的 cue 有很多，如 not、are 等。如上图表一所示是 not 的出现情况，可以看出 not 在64%的数据点中都有出现，并且模型只要选择有 not 出现的 warrant，正确的概率是61%。

作者怀疑模型学到的是这样的信息。如果推论成立，只需输入 warrant，模型就能获得很好的表现。因此作者也做了上图表二所示的实验。

可以看出，只输入 w 模型就获得了71%的峰值表现，而输入（R，W）则能增加4%，输入（C，W）则能增加2%，正好71%+4%+2%=77%，这是一个很强的证据。

图11：对抗数据集以及在对抗数据集上的实验结果

为了充分证明推论的正确性，作者构造了对抗数据集（Adversarial Dataset），如上图例子所示，对于原来的结构：R and W -> C，变换成：Rand !W -> !C（这里为了方便，用!表示取反）

作者首先让模型在原 ARCT 数据集微调并在对抗数据集评测（Evaluation），结果比随机还要糟糕。后来又在对抗数据集微调并在对抗数据集评测，获得表现如上图第二个表所示。

从实验结果来看，对抗数据集基本上消除了 cue 带来的影响，让 BERT 真实地展现了其在该任务上的能力，与作者的猜想一致。

虽然实验稍显不足（如未充分说明模型是否收敛，其他模型在对抗数据集中的表现如何等），但本文给 BERT 的火热浇了一盆冷水，充分说明了 BERT 并不是万能的，我们必须冷静思考 BERT 如今取得惊人表现的真正原因。

2. BERT 在 Natural Language Inference 任务中的表现

Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language

这是另一篇对 BERT 等模型在自然语言推理（Natural Language Inference，NLI）任务中表现的探讨。

图12：NLI 任务中 Heuristic 示意图

作者首先假设在 NLI 中表现好的模型可能利用了三种 Heuristic，而所谓的 Heuristic 即在 Premise 中就给了模型一些提示，有如下三种：

Lexical Overlap：对应的 Hypothesis 是 Premise 的子序列

Subsequence：对应的 Hypothesis 是 Premise 的子串

Constituent：Premise 的语法树会覆盖所有的 Hypothesis

基于这个假设，作者也做了实验并观察到，MNLI 训练集中许多数据点都存在这样的 Heuristic，且对应的选项是正确的数量远多于不正确。针对这种情况，作者构造了 HANS 数据集，均衡两种类型样本的分布，并且标记了 premise 是否 entail 上述几种 Heuristic。

实验时模型在 MNLI 数据集微调，在 HANS 数据集评测，结果 entailment 类型的数据点中模型都表现不错，而在 non-entailment 类型中模型表现欠佳。这一实验结果支持了作者的假设：模型过度利用了 Heuristic 信息。

图13：模型在 HANS 数据集上的结果分析

但是作者并不十分确定这种实验结果是什么原因导致的，并提出如下猜想：

HANS 数据集太难了？不。作者让人类进行测试，发现人类在两种类型的数据中准确率分别为77%和75%，远高于模型。

是模型缺乏足够的表示能力吗？不。ICLR 2019《RNNs implicitly implement tensor-product representations》给出了一定的证据，表示 RNN 足够在 SNLI 任务中已经学到一定的关于结构的信息。

那就是 MNLI 数据集并不好，缺乏足够的信号让模型学会 NLI。

因此作者在训练集中加入了一定的 HANS 数据，构造了 MNL+数据集，让模型在该数据集微调，最终获得了如上图所示的结果。为了证明 HANS 对模型学到 NLI 的贡献，作者还让在 MNL+上微调的模型在另一个数据集中做了评测，模型表现都有提升。

总结

本文总结了 BERT 提出以来一些最新的发展。

BERT 是一个优秀的预训练模型，它的预训练思想可以用来改进其他模型。BERT 可以更好，我们可以设置新的训练方式和目标，让其发挥更大的潜能。

但 BERT 并没有想象中的那么好，我们必须冷静对待 BERT 在一些任务中取得不错表现的原因——究竟是因为 BERT 真正学到了对应的语义信息，还是因为数据集中数据的不平衡导致 BERT 过度使用了这样的信号。

点击阅读原文，即可下载本文内容相关PPT。

参考文献：

[1] XLNet: Generalized Autoregressive Pretraining for Language Understanding. Yang et al.CoRR abs/1906.08237.

[2] A Fair Comparison Study of XLNet and BERT. XLNet Team.

https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

[3] Probing Neural Network Comprehension of Natural Language Arguments. Niven et al. ACL2019.

[4] Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference. McCoy el al. Corr abs/1902.01007.

[5] RoBERTa: A Robustly Optimized BERT Pretraining Approach. Liu et al. CoRR abs/190.11692.

[6] SpanBERT: Improving Pre-training by Representing and Predicting Spans. Joshi et al. CoRRabs/1907.10529.

[7] Multi-Task Deep Neural Networks for Natural Language Understanding. Liu et al. CoRR abs/1901.11504.

[8] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding. Liu et al. CoRR abs/1904.09482.

方便交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

你可能感兴趣的:(【亚洲微软研究院】带你8篇论文梳理BERT相关模型进展与反思)

鸿蒙 5 开发工具 Ark-TS UI 到底有多好用？一篇文章讲明白 harmonyos-next
鸿蒙5系统越来越火，很多开发者都在学怎么用它开发应用。所以今天咱们聊聊鸿蒙5里特别重要的一个工具——Ark-TSUI。这玩意儿到底是干啥的？简单说，它就是用来做应用界面的，而且比传统方法更简单、更高效。下面咱们用大白话讲讲它的厉害之处。一、不用纠结怎么盖房子，只需要画图纸以前写代码做界面，就像盖房子要一块砖一块砖垒——得告诉程序“先建墙，再安门，最后刷漆”。但Ark-TSUI不一样，它用的是“声明
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
Oracle SQL 开发实战：高效技巧与核心特性解析 McRfee sql
OracleSQL开发实战：高效技巧与核心特性解析OracleSQL开发实战：高效技巧与核心特性解析一、引言：OracleSQL的核心优势二、高效SQL编写技巧1.避免全表扫描的黄金法则2.用WITH子句简化复杂查询3.MERGE语句实现智能更新三、Oracle独有特性深度解析1.分析函数：窗口计算的利器2.CONNECTBY层级查询3.虚拟列（VirtualColumn）4.FLASHBACK闪
揭秘Java内存模型：那些让人头疼的可见性问题--JVM基础(15) guangzhi0633 java jvm 开发语言
一、揭秘Java内存模型：那些让人头疼的可见性问题在Java的世界里，多线程编程如同一场精彩的魔术表演，但稍有不慎，就可能陷入“内存可见性”这个魔术黑洞。今天，就让我们一起揭开Java内存模型的神秘面纱，探讨那些让人头疼的可见性问题！可见性问题的本质可见性问题，简单来说，就是当一个线程修改了共享变量的值后，其他线程却无法立即看到这个变化。这就像是你在房间里悄悄换了件衣服，但别人却看不到你的新装。现
使用Annoy进行高效的近似最近邻搜索 eahba 前端 javascript angular.js python
在处理大型数据集时，我们经常面临需要快速、准确地查找与给定查询点相近的数据点的问题。Annoy（ApproximateNearestNeighborsOhYeah）就是为解决此类问题而生的一个强大工具。Annoy是一个用C++编写并具有Python绑定的库，专用于在空间中搜索与给定查询点相近的点。它能够创建大型的只读文件数据结构，并映射到内存中，以便于多个进程共享相同的数据。技术背景介绍Annoy
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
深入 C++11：移动语义、Lambda表达式与新特性全面解析酷酷的崽798 C/C++c++
文章目录新的类功能成员变量声明时给缺省值defult和deletefinal与overrideSTL当中的一些变化lambdalambda表达式语法捕捉列表lambda的应⽤lambda的原理新的类功能默认的移动构造和移动赋值原来C++类中，有6个默认成员函数：构造函数/析构函数/拷⻉构造函数/拷⻉赋值重载/取地址重载/const取地址重载，最后重要的是前4个，后两个⽤处不⼤，默认成员函数就是我们
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
【C++模板】——C++模板的力量：构建灵活与安全的代码酷酷的崽798 C/C++c++开发语言
文章目录1.类型模板参数2.非类型模板参数3.模板的特化1.概念2.函数模板特化3.类模板特化4.补充5.模板编译分离解决方案优点与缺点在C++中，模板参数可以分为两大类：类型模板参数（typetemplateparameters）和非类型模板参数（non-typetemplateparameters）。这两种模板参数允许我们定义更为灵活和通用的模板代码。下面对它们分别进行介绍。1.类型模板参数类
【UI设计】一些好用的免费图标素材网站 IT古董前端设计 ui 素材
阿里巴巴矢量图标库https://www.iconfont.cn/国内最大的矢量图标库之一，拥有800万+图标资源。特色功能包括团队协作、多端适配、定制化编辑等，适合企业级项目、电商设计、中文产品开发等场景。IconParkhttps://iconpark.oceanengine.com/home字节跳动旗下的免费矢量图、图标库平台。提供超过2400+基础图标，29种图标分类，支持4种主题和在线换
第四章：ESP32零基础教学 - 4.2继电器、舵机与L298N电机龙大大L ESP32 arduino 单片机嵌入式硬件 stm32
一、硬件准备ESP32开发板5V继电器模块9g微型舵机（SG90）L298N电机驱动模块DC电机（6-12V）面包板与杜邦线外部电源（用于电机供电）二、继电器控制接线说明继电器引脚ESP32引脚VCC5VGNDGNDINGPIO23代码实现#defineRELAY_PIN23//继电器信号引脚voidsetup(){pinMode(RELAY_PIN,OUTPUT);//设置引脚为输出模式}voi
平衡二叉树（AVL树）：数据结构特性与自平衡技术详解 One Key Variable 课程设计
摘要平衡二叉树，尤其是AVL树，在追求高效数据存储与检索的场景中占据重要地位。本文深入剖析AVL树的数据结构特性，详细解读其自平衡技术原理与实现，帮助读者理解AVL树如何在动态数据操作中维持高效性能。一、引言在数据处理过程中，二叉搜索树虽能实现快速查找，但在频繁插入和删除节点时，可能因结构失衡导致查找效率大幅下降。AVL树作为一种自平衡二叉搜索树，通过严格的平衡条件和自平衡技术，确保树在动态操作下
运用IC-CAP软件对射频集成电路的表征与参数分析 Keep-Follow 课程设计
摘要本文聚焦于运用IC-CAP软件对射频集成电路进行全面表征与参数分析。详细阐述IC-CAP软件在该领域的功能特性，通过具体的射频集成电路案例，深入介绍使用软件进行直流参数测试、小信号S参数分析、大信号特性表征的流程与方法。探讨如何依据分析结果优化射频集成电路性能，展现软件在助力电路设计、提升产品质量方面的关键作用，为射频集成电路研发工程师提供极具价值的技术参考。关键词IC-CAP软件；射频集成电
计算机基础：编码02，有符号数编码，原码水饺编程 MFC学习笔记 Win32学习笔记 c++windows mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码（二）MFC专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码本节前言上一节，我是讲解
我的编程学习之旅 Stars·ꦿ໊ོ 学习
大家好，我是一名编程领域的初学者，怀揣着对代码世界的无限热忱，踏上了这充满挑战与惊喜的学习之路。我并非本科出身，在过往的学习，逐渐被编程的魅力所吸引。日常里，我喜欢拆解电子产品、探究其原理，这份好奇心也驱使我深入代码的海洋，期望能从软件层面创造更多“奇迹”。如今，我选择从C语言开始敲开编程世界的大门，它作为一门基础且强大的编程语言，有着广泛的应用场景，无论是底层系统开发、嵌入式编程，还是对理解计算
「Kubernetes Objects」- Service（学习笔记） @20210227 k4nzdroid
Service，服务，用于暴露Pod以供访问。官方文档及手册KubernetesAPIv1.18/Servicev1coreService?Pod会被创建，并且还会消失，这由ReplicaSets控制。每个Pod都有自己的IP地址，但是这些IP地址不能视为可靠的。那么，如果前端的一部分Pod依赖于后端的Pod，那前端的这些Pod如何找出并追踪后端的Pod？ServiceService是一个抽象，定
k8s学习笔记（3）--- kubernetes核心技术概念梦谜 k8s基础知识 k8基本核心概念
kubernetes核心技术概念1.容器（Container）2.API对象3.集群（Cluster）4.Master5.Node6.Pod7.复制控制器（ReplicationController，RC）8.副本集（ReplicaSet，RS）9.部署(Deployment)10.服务（Service）11.任务（Job）12.定时任务（CronJob）13.后台支撑服务集（DaemonSet）
从 0 到万粉的 AI 公众号博主教程 hikktn 从0到万粉的AI公众号博主教程公众号
《从0到万粉的AI公众号博主教程》专栏简介作为一名深耕品牌领域二十余载的资深专家，我深刻感受到当下商业环境的剧变。去年，我开始探索AI技术在内容创作中的应用，短短4个月内，我的公众号突破万粉，这让我意识到AI时代带来的巨大机遇。在与众多职场人士交流的过程中，我发现很多人都面临着相似的困境：想要利用AI进行个人品牌升级，但不知如何入门？拥有专业积累，但难以转化为个人IP？尝试做自媒体，但始终无法突破
比特币全节点同步加速记录（使用Bitcoin Core钱包） wusimpl 区块链区块链全节点同步加速 bitcoin core
1.预先下载或从别的地方拷贝区块数据而不是直接在BitcoinCore钱包中下载这方面可以参考截止到2022年8月的区块数据2.将区块头数据和区块实体数据分开存储区块头数据放到SSD中，区块实体数据放到HDD中这方面可以参考BitcoinCore节点同步加速原理和方法实验-CodeAntenna3.使用代理下载剩余的数据最好用全局代理，并且在bitcoin.conf中配置proxy可添加离自己区域
Vue2与Vue3组件开发全维度对比实战指南 Forever丿顾北专题文章 vue.js 前端前端框架
Vue2与Vue3组件开发全维度对比实战指南一、组件基础架构对比1.1组件定义方式演进Vue2OptionsAPI详解在Vue2中，组件主要通过OptionsAPI来定义。OptionsAPI将组件的不同方面，如数据、方法、生命周期钩子等，分开定义在一个对象中。这种方式对于初学者来说，易于理解和上手。以一个简单的计数器组件为例：{{count}}增加exportdefault{data(){ret
JavaScript基础-API 和 Web API 難釋懷前端 javascript 开发语言
在现代Web开发中，API（应用程序接口）是连接不同软件组件或系统之间的桥梁。对于前端开发者来说，JavaScript与WebAPI的结合使用尤为重要，它使得我们可以访问浏览器提供的各种功能和服务，从而构建出交互性更强、用户体验更好的网页应用。本文将介绍API的基本概念，重点探讨WebAPI及其在JavaScript中的应用。一、什么是API？API全称为“ApplicationProgrammi
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
微服务架构中的服务发现与负载均衡 egzosn 架构微服务服务发现负载均衡云原生
1.引言在微服务架构中，服务发现(ServiceDiscovery)和负载均衡(LoadBalancing)是两个核心组件，它们确保了服务之间的高效通信和资源的合理分配。本文将深入探讨服务发现和负载均衡的基本概念、实现方式以及在实际应用中的最佳实践。2.服务发现2.1什么是服务发现？服务发现是微服务架构中的一个关键机制，它允许服务动态地找到并与其他服务通信。由于微服务通常运行在动态环境中，服务的实
C++中map和set的详解程序员Hagei c++算法开发语言
C++中map和set的介绍与使用在C++编程中，map和set是标准模板库（STL）中两种非常重要的关联容器。它们基于平衡二叉搜索树（通常是红黑树）的数据结构来实现，提供了高效的数据存储和检索功能。本文将详细介绍map和set的特点、用法以及一些常见的操作示例。一、map的介绍与使用1.map的基本概念map是一个键值对容器，其中每个键都是唯一的，且按照升序排序。map的内部结构是红黑树，这使得
堆数据结构：从基础原理到高效算法实现的技术探讨 Everyrt 课程设计
摘要堆作为一种特殊的树形数据结构，在多种算法场景中发挥着核心作用。本文深入剖析堆的基础原理，详细阐述堆的构建、插入、删除等操作的实现细节，并探讨其在优先队列、堆排序等高效算法中的应用，助力读者全面掌握堆数据结构及其应用技术。一、引言堆数据结构以其独特的特性，能够高效地获取集合中的最大（或最小）元素。无论是操作系统中的进程调度，还是搜索算法中的最优解筛选，堆都扮演着不可或缺的角色。理解堆的原理与实现
CST Microwave Studio助力射频电路多物理场耦合分析 FindEveryone 课程设计
摘要本文重点阐述CSTMicrowaveStudio在射频电路多物理场耦合分析中的关键作用。通过解析射频电路中涉及的电磁场、热场、机械场等多物理场耦合现象，详细介绍如何运用CSTMicrowaveStudio构建多物理场联合模型，进行全面的仿真分析。结合具体案例，深入探讨多物理场耦合对射频电路性能的影响，并依据仿真结果提出有效的优化策略，为提升射频电路在复杂工作环境下的可靠性和稳定性提供理论依据与
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构 egzosn nginx 负载均衡架构运维
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构一、负载均衡的核心价值当单台服务器无法承载高并发流量时，负载均衡通过将请求分发到多台服务器，实现：横向扩展：突破单机性能瓶颈故障隔离：自动剔除异常节点动态调度：根据策略优化资源利用率二、Nginx原生负载均衡策略1.轮询(RoundRobin)配置示例：upstreambackend{server192.168.1.10:8080;s
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户