PaperWeekly

冲击SuperGLUE：基于多任务与对抗训练的Finetune方案解析

©PaperWeekly 原创 · 作者｜Frank Luo

单位｜追一科技AI Lab研究员

研究方向｜自然语言处理

前言

英文通用语言理解评测基准 GLUE [1] 自提出以来，吸引了一大批预训练语言模型 (BERT [2]，XLNET [3]，RoBERTa [4]，ALBERT [5]，ERNIE [6]，T5 [7]) 以及基于预训练模型进行迁移学习的工作 (MT-DNN [8]，FreeLB [9]，SMART [10])。

目前，通过对预训练模型进行下游任务 Finetune 是普遍的做法，而要在下游任务上得到好的效果，除了使用更好的预训练模型以外，如何针对不同的任务来设计 Finetune 的流程也是关键所在。

针对这个问题，我们以 RoBERTa 为 baseline 模型，在 SuperGLUE [11] 榜单上进行了一系列的尝试，通过多任务学习 (multitask learning)，对抗训练 (adversarial training) 等方法，取得了第二的成绩。

数据介绍

数据集选取 选取 SuperGLUE 作为标的数据集主要是考虑到它的多样性以及整体难度两个方面。原 GLUE 数据集由 8 个句子/句子对分类任务组成，目前模型仅在 RTE，WNLI 两个任务上还未超过人类表现。

鉴于模型在 GLUE 上已经基本超过人类的表现，GLUE 的原作者保留了 RTE 和 WNLI 这两个任务 (其中 WNLI 仅改变了任务形式，更名为 WSC)，并引入形式多样且更具挑战的 6 个任务，组成了新的语义理解基准 SuperGLUE，它共包含 8 个数据集，每个数据集针都是对语言的不同侧面设计了不同的任务，以求尽量从多个角度来考察模型的能力。

下面将简单介绍每个数据集的任务形式及特点，对数据集的分析能让我们对模型需要完成的事情有所了解，因此也会对模型与训练流程的设计提供思路。

RTE 与 CB 从任务形式来说，同为句子对分类任务，因此我们放到一起来介绍，但实际上两者背后考察的内容非常不同。

RTE 考察的是模型对文本蕴含的判断能力。RTE 数据集是继承自 GLUE 的一个数据集，目前还没有模型能够超过人类的分数。文本蕴含（自然语言推断）是语言理解的一项基本能力，而文本蕴含类型的任务其实涵盖了多个维度，从逻辑推理到常识知识都会覆盖。

而 CB 则是另一项非常有难度的任务，其任务设计是针对一个语言学现象（补语的语义投射），用此来考察模型是否像人一样具有语义投射的能力。

COPA 为多项选择，给定 premise，选择合适的选项作为它的 effect or cause。它的目标是考察模型对于常识的因果推断能力。

BoolQ 是一个判断是否的阅读理解任务。作者从搜索引擎的日志中筛选问句，再将问句与 Wiki page 中相应的段落对应，经过规则和人工筛选之后构建最终的数据集 [12]。尽管只需要回答是或否，但问题形式和种类多样。

MultiRC 是一个多项选择阅读理解任务。它的每个问题对应的答案是不唯一的，即存在一个或多个选项为正确答案。对于单个问题，答案可能分布在文章的不同句子中，模型需要从不同的地方验证每个答案是否正确。

ReCoRD 是一个完形填空式的多项选择阅读理解任务。作者从 CNN/DailyMail 中选取新闻的摘要部分作为任务的文章部分（context）。其任务的方式是在选取摘要中某一实体，然后从新闻的后续细节描述中选取包含该实体的句子，并人为从该句子中去掉该实体，用来作为任务的问题（query）[13]。

最终的 120k 个样本经过模型和人工筛从 770k 个样本中筛选出。这个任务的一大难点在于用做问题（query）的细节描述并不一定在摘要（context）中出现，因此为了完成任务，模型需要具备一定的常识或进行一定的推理。

WiC (word in context) 是一个词义消歧（Word Sense Disambiguity）任务。模型需要鉴别同一个词在两个不同句子中的含义是否相同。任务的难点在于，在两个完全不同含义的句子中，相同的词也可能有一样的含义。因此在特征处理上，除了两个句子的 interaction，还要考虑词在句子中的表征。

WSC 是一个指代消解的任务，与 GLUE 中的 WNLI 是同一个任务，只是更换了任务形式。它主要考察语意连续的一段文本中某对实体与代词是的指代是否一致。

模型改进

1. 基线模型

我们选用 RoBERTa 作为基线模型，并在 RoBERTa 的基础上根据下游任务形式进行不同的 adaptation。如下图所示，我们将任务归为分类、抽取，以及 WiC 和 WSC 两个比较独立的任务。

分类任务：我们采取拼接的方式将句子对或文章问题（答案）组拼接成一个序列，用特殊字符分隔，取序列的第一个 token 的编码向量进行分类。对于多项选择的 COPA 数据集，我们将两个选项进行拼接，然后取得到的两个序列的第一个 token 的编码向量进行分类。

WiC：因为考虑到句意不同，但词意相同的情况，我们需要拿到 word in context 的信息。这里我们取出两个句子中相同词的第一个 token 的编码向量 s1 和 s2，计算，最终与序列的第一个 token 拿到的向量做拼接，得到向量再做分类。

WSC：基于 [14] 的做法，我们取训练样本中的正例，得到一段文本中正确的代词和实体对，随后用工具包 spacy 提取出文本中所有其他的实体与该代词构造负例。

如下图中 Fred watched TV while George went out to buy groceries. After an hour he got back.，我们可能会抽取到 Fred，George，TV，groceries，只有 George 和 he 是正确的代词和实体对。

训练时，我们取一对正确和错误的，将实体填入代词的位置之后输入模型，优化他们的 ranking loss。此外还使用正确的实体替换对应的代词后，mask 掉替换的实体，然后以 Masked LM 的方式来训练模型预测该实体。最终预测时，抽取出句子中所有的实体，通过 ranking 和 Masked LM 进行打分，选择分数最高的实体为代词正确的指代。

ReCoRD 是一个 cloze-style 的阅读理解任务，候选是篇章中出现的所有实体。在初期实验阶段，一个简单的想法是将每一个候选实体填入问题中，然后与篇章拼接，作为一个多项选择任务。但这样将会使得计算量变大，且可能减弱候选答案之间的相互关联。

因此这里我们尝试按抽取式阅读理解的方法处理，可以分为两种形式。一种是从篇章中抽取，我们将问题：

With bright lights illuminating his efforts from below, Mr **X** appears to be on the set of a sci-fi movie

改写为 What is X? question: With bright lights illuminating his efforts from below, Mr **X** appears to be on the set of a sci-fi movie，然后与篇章拼接。

我们在 RoBERTa 的基础上训练两个 head 表征用来预测实体的起始和终止，每个 head 表征对篇章序列的每个位置做一个三分类：1）正确候选实体起始/终止；2）错误候选实体起始/终止；3）其他。

另一个方案相对简单一些，是将所有的候选实体拼接成一个序列，置于问题后面，从拼接得到的候选中预测答案所在的位置。在我们的试验中，这两种方式都能比简单的多项选择得到更好的结果，并且减少训练和预测时间。

▲ 注：为了便于展示，图中的 cls 实际为 RoBERTa 中的 s，句子对拼接时的 /s 这里已经省略。

2. 多任务和迁移学习

多任务学习 (multitask learning) 能够借助多个相关任务互相提供监督信号，并且因为共享参数，因此可能可以为模型提供更好的泛化能力 [8] [15]。我们基于 SuperGLUE 各个数据集任务形式之间的关联性以及数据源的相关性，采取如图的多任务训练方式。

例如 CB 数据集，我们采用在 MNLI 上精调的 RoBERTa 模型为起始，联合 BoolQ，MultiRC 等进行多任务训练，取多任务训练中得到的一个 checkpoint，再在 CB 任务上进行精调。下表为部分数据集的对比结果（5 个不同的随机种子下的平均值）。第二行的结果 CB 和 BoolQ 是基于 RoBERTa-mnli 的模型，而 ReCoRD 则基于 RoBERTa-squad。

从结果中可以观察到，迁移学习和多任务学习都能带来提升，尤其是当迁移或多任务中一起训练的任务与目标任务有强相关的时候。这种强相关可以是任务形式相同，如 CB 和 MNLI 都属于判断 premise 和 hypothesis 之间的蕴含关系；或者是数据同源，如 ReCoRD、Squad 以及 CNN/Daily Mail 都当作抽取式任务处理。

同时也观察到引入 CNN/Daily Mail 带来的提升高于引入 Squad 带来的提升（Squad 和 ReCoRD 做多任务时效果更差），我们猜测原因是 ReCoRD 和 CNN/Daily Mail 数据集都是从 CNN 和 Daily 新闻网站的新闻构建的。

3. 对抗训练（adversarial training）

NLP 任务中，对抗训练能够有效的提升模型的泛化能力，以提高最终表现 [16] [17]。简单的一次对抗训练（Adversarial training）做法是计算在词向量处的梯度，得到一个最优的扰动，经过裁剪后加在词向量上得到对抗样本，再用该样本进行训练。

如果进一步，可以用虚拟对抗训练（virtual adversarial training），给词向量加一个小的随机扰动后，再计算词向量处的梯度，经过裁剪之后加在扰动前的词向量上，得到新的对抗样本，我们去优化对抗样本和正常样本在标签分布的 KL-divergence。对抗训练和虚拟对抗训练可以使 loss surface 更加光滑，从而增加模型的鲁棒性，AT 需要标签，而 VAT 不需要标签。

另一个符合直觉的理解是，对抗训练能够提升阅读理解任务的原因在于使长尾词得到了充分的训练 [18]。我们尝试在多任务训练和精调的时候使用对抗训练（Adversarial Training）。

由于虚拟对抗训练（Virtual adversarial training）带来的提升有限，但会使得训练量翻倍因此最终没有采用，结果如下表（5 个不同的随机种子下的平均值）。比较原设置和去掉对抗训练之后的设置，可以看到对抗训练在多任务和精调时都能提升模型的表现。

4. EMA + Knowledge Distilling (Mean-Teacher)

大型的预训练语言模型会遇到的一个问题是参数过多，导致精调下游任务时候训练不稳定，训练波动大。滑动平均（Exponential Moving Average）能够有效的缓解这一点。

Mean-teacher [19] 通过 EMA 在训练时维持一个 teacher 模型，然后用 teacher 模型去指导当前模型的训练，再由当前模型以 EMA 的方式更新 teacher 模型。这样能在 EMA 的基础上更进一步提高模型的鲁棒性。

通常认为 mean-teacher 训练时，通过 EMA 维持的 teacher 模型和 student 模型存在正反馈机制，即更好的 teacher 模型能够指导得到更好的 student 模型，反过来通过 EMA 更新得到更好的 teacher 模型。

式 (1) (2) 为原 mean-teacher 论文的 consistency cost J，其中 θ' 为 teacher 模型的权重，η 和 η' 为加在模型输入的随机噪声。我们尝试使用 KL-divergence 替换中的 loss (式(3))，去掉了输入噪声 η 和 η'。最终的目标函数为式 (4)，其中为原有监督任务。

由于模型在训练初期权重有较大变化，且 EMA 得到的模型效果较差，我们在训练初期使用较大的 EMA decay (α=0.99) ，随后调整使用较小的 decay (α=0.999) ，同时我们线性地增大权重 w，最终结果如下表（5个不同的随机种子下的平均值）。可以看到 EMA 能提升模型的表现，引入 mean-teacher 后模型有进一步提升。

经验总结

我们基于 Facebook 开源的 RoBERTa 预训练模型在 SuperGLUE 上探索了不同的 finetune 方式。通过调整任务、多任务学习、对抗训练等在 SuperGLUE 的 6 个数据上都得到了提升，最终对比原始 RoBERTa 提升了 1 个百分点，目前处于榜单第二的位置。但相比于 T5，还有很大的差距。

从评测基准的榜单来看，预训练语言模型本身的提升对下游任务来说目前还是最为显著的，尤其是在任务形式多样的评测基准上。而在给定预训练模型的情况下进行下游任务时，在调整模型结构适应任务的同时，增强模型泛化能力和鲁棒性的手段可以得到较为一致的效果提升。我们在这次尝试中用了多任务训练，对抗训练，mean-teacher 以及一些正则来达到这一目的。

我们接下来希望能显式地将常识知识融入模型中，而这部分也是 SuperGLUE 任务比较关心的一点。可以看到 WSC 和 COPA 上人类都是满分，而 RTE 上人类仍然领先，目前的预训练，多任务学习离真正的常识推理还有很大的进步空间。

Reference

[1] GLUE https://gluebenchmark.com

[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/pdf/1810.04805.pdf

[3] XLNet: Generalized Autoregressive Pretraining for Language Understanding https://arxiv.org/pdf/1906.08237

[4] RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/pdf/1907.11692

[5] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations https://arxiv.org/pdf/1909.11942

[6] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding https://arxiv.org/pdf/1907.12412v1

[7] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf

[8] Multi-Task Deep Neural Networks for Natural Language Understanding https://arxiv.org/abs/1901.11504

[9] FreeLB: Enhanced Adversarial Training for Language Understanding https://arxiv.org/abs/1909.11764

[10] SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization https://arxiv.org/pdf/1911.03437

[11] SuperGLUE https://super.gluebenchmark.com

[12] BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions https://arxiv.org/pdf/1905.10044.pdf

[13] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension https://arxiv.org/pdf/1810.12885.pdf

[14] A Surprisingly Robust Trick for Winograd Schema Challenge https://arxiv.org/pdf/1905.06290.pdf

[15] Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval https://www.aclweb.org/anthology/N15-1092.pdf

[16] Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function https://www.aaai.org/ojs/index.php/AAAI/article/view/4672

[17] Adversarial Training Methods for Semi-Supervised Text Classification https://arxiv.org/pdf/1605.07725

[18] Improving Machine Reading Comprehension via Adversarial Training https://arxiv.org/pdf/1911.03614.pdf

[19] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results https://arxiv.org/pdf/1703.01780.pdf

点击以下标题查看更多往期内容：

刷新SQuAD2.0 | 上海交通大学回顾式阅读器解析
浅谈 Knowledge-Injected BERTs
细粒度情感分析任务（ABSA）的最新进展
自然语言处理中的语言模型预训练方法
BERT+知识图谱：知识赋能的K-BERT模型
从三大顶会论文看百变Self-Attention

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取最新论文推荐

【教务宝】家长抢着送学生？学员爆满报不上名？用好这几招，暑招输不了！教务宝_Linda
中国民办教育协会的调研报告显示，校外培训机构上半年营收将普遍大幅下降，在各种运营成本不变的情况下，90%以上的机构都撑不过6个月。另有调研显示，全国各地复课极不均衡，只有42%的机构顺利复课，教培机构的破产率接近30%。因为疫情，教培机构已经停课很久。而七月历来都是教培机构营收和结转的峰值月份。可以说，七月定全年，招生定生死！疫情后的关键期，挺过疫情停业期的机构即将面临暑期招生季的激烈竞争，机构需
张德进楷书：李白的《南陵别儿童入京》金宝斋德进书法
李白的《南陵别儿童入京》白酒新熟山中归，黄鸡啄黍秋正肥。呼童烹鸡酌白酒，儿女嬉笑牵人衣。高歌取醉欲自慰，起舞落日争光辉。游说万乘苦不早，著鞭跨马涉远道。会稽愚妇轻买臣，余亦辞家西入秦。仰天大笑出门去，我辈岂是蓬蒿人。
莆田鞋在哪买？这8个渠道一定要看看美表之家
莆田鞋被誉为国内鞋业的“奢侈品”，其质量和款式都有着相当高的水准。许多人对于在哪里购买这种鞋子感到困惑，下面就会为大家列举出8个购买莆田鞋的主要渠道。微信:676986923(下单赠送精美礼品)1、批发市场：作为莆田鞋的源头，莆田鞋批发市场自然是最直接的购买地点。在莆田，你可以通过实体店面、批发市场等形式购买到各种款式的莆田鞋。2、淘宝网：淘宝网上有数不尽的莆田鞋代购和销售店铺，价格比实体店更为亲
外卖优惠券推广赚钱？外卖优惠券推广赚钱吗？高省APP珊珊
外卖优惠券推广赚钱是一种可行的商业模式，通过推广外卖优惠券来获得佣金收益。具体来说，推广者可以在社交媒体、公众号、小程序等渠道上发布外卖优惠券信息，吸引用户领取并使用，一旦用户使用优惠券下单，推广者即可获得一定的佣金收益。【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣
JAVA并发编程（四）-park-unpark imperfectsam java 开发语言
文章目录一、简介二、编写代码三、park和unpark原理一、简介在Java中，park和unpark是java.util.concurrent.locks包中的LockSupport类提供的两个静态方法，用于线程的阻塞和解除阻塞。1、park方法用于阻塞当前线程，使其进入等待状态。当一个线程调用park方法时，它会被阻塞，直到发生以下几种情况之一： -另一个线程调用了相应线程的unpa
PromptX 核心架构深度解析：从革命性理念到工程实践的全景解读步子哥智能涌现架构人工智能
核心理念：AIuseCLIgetpromptforAI-让AI通过命令行获取专业提示词，从通用助手进化为专业专家团队引言：一场关于AI认知的革命当我们深入研究PromptX项目的核心架构文档时，会发现这不仅仅是一个技术框架，而是一套完整的AI认知重构理论。这些文档展现了从哲学思考到工程实践的完整链条，重新定义了人类与AI的协作模式。今天，让我们从这些核心文档开始，深度解析PromptX如何重塑AI
Navicat操作指南：MySQL数据库配置与Todo应用部署像风一样自由2020 数据库 mysql adb
Navicat操作指南：MySQL数据库配置与Todo应用部署前言本文档详细记录了使用Navicat管理MySQL数据库，并配置Todo应用的完整操作步骤。适用于使用Navicat作为MySQL管理工具的开发者。操作目标启动MySQL服务使用Navicat连接MySQL数据库创建todoapp数据库配置Todo应用环境变量验证应用正常运行步骤一：启动MySQL服务Windows用户方法1：通过Wi
换手机（君子蘭花语之727）分湖芝蘭
文分湖芝蘭（贝儿由里）2021年9月15日周三阵雨23～28度先生的手机从外观上看手机壳很破旧了，上面的皮已经开裂，这是好几年前就变得不像样了。我一直叫他换一只手机，他就是不肯。他说，难看不要紧的，只要好用就可以，我又不用其他东西，就打打电话，看看新闻和微信。朋友们看到他的手机成这个模样，都劝他把这手机换了吧。他就说用用蛮好。我在一旁听了心里就不舒服，人家以为我不关心他，我可能会被他们误解。先生的
神兽回家鸢_尾
今天雾霾太严重了，中小学生都放假回家调休了。我闺蜜说：神兽们都回来了。[坏笑][坏笑][坏笑]。而我的操作是：“儿子，我今天太累了，不想做饭了”“那吃泡面吧，不对，老妈，今天是平安夜哎”“那是外国人的节日，你看现在上面都不让过圣诞节集会了”“哦，那我去烧水。”我：[奸笑][奸笑][奸笑][奸笑]。8点了，我儿子：“妈，找个电影看一会儿吧”我一边翻着美团外卖一边说，“先不看了，你要不要吃炸鸡？”我儿
美食日记｜纯手工定制冰皮月饼杰丫头的生活碎片
又快到中秋节啦，到了我大显身手的时候了，每年都会自己做月饼，虽然不喜欢甜食，但是做给别人吃，也是很开心的哇。磨具都是网上买的，直接淘宝一搜，很多的，搭配的材料很齐全，冰皮粉，我一直买的是易小焙得冰皮粉，个人觉得比较好用，用了几年了，红豆沙是超市买的，因为网上买的绿豆沙，板栗馅的，还有红豆沙都没到呢。这次做的比较简单，只是菠菜煮了。切碎，榨汁，和冰皮粉，一种颜色，红豆沙里面放了核桃碎，吃起来更好吃哦
《掌控》的运用让我三个月瘦了5斤 LexiCai蔡
樊登老师瘦身成功，并爱上了跑步，因此在最近的一期讲书时请来了他的教练，也就是这本书的作者张展晖，他们一起探讨了如何通过跑步瘦身进行精力管理，从而实现对自己人生的掌控看到樊登老师的变化后，更加大了这本书能够帮助大家健康瘦身成功的可信性，最近坚持健身效果不错，结合了这本书后，开启了全方位的打造自己，如果你有以下问题，可以参考一下这本书1.跑一下就气喘吁吁，坚持不下去了，找不到一个合适的速度2.长时间的
编程语言与API函数库速查字典大全一一MIO一一
本文还有配套的精品资源，点击获取简介：《Delphi、VB、TC、API函数库速查字典1.0》提供了一个全面的编程语言参考资源，涵盖了Delphi、VB、TurboC以及WindowsAPI的函数库。它包括一个名为"lib"的文件，用于快速查询和理解不同编程语言和API的相关函数。Delphi以其组件库和面向对象的特性受到青睐，VB则因其易用性而广受欢迎，而TC作为经典的C编译器，API函数库则提
mac装springboot_安装 Spring Boot CLI 2401DEM mac装springboot
SpringBootCLI(CommandLineInterface)是一个命令行工具，可用于快速搭建基于Spring的原型。它支持运行Groovy脚本，这也就意味着你可以使用类似Java的语法，但不用写很多的模板代码。SpringBoot不一定非要配合CLI使用，但它绝对是让Spring应用进入状态的最快方式。手动安装你可以从Spring的软件仓库中下载SpringCLI分发包：一旦你下载完成后
伟大的渺小在下雨中仙
《伟大的渺小》风和日丽五月天，徒步推车马路间。谁家女儿乘云上，伟岸父亲爱无边。——王洪图片发自App
高效休息法（二） GAI2012
正念呼吸法1、采取基本坐姿，坐在座椅上（稍微挺直背部，背部离开椅背）。腹部放松，双手放在大腿上，双腿不交叉，闭上眼睛（如果采用睁着眼睛的方式，则双眼不聚焦地望向前方2米左右的位置）2、有意识地关注身体的感觉，感受与周围环境的接触（脚底与地板，臀部与座椅，手与大腿等）、身体被重力吸引的感觉。3、关注呼吸，关注与呼吸相关的感觉（通过鼻腔的空气，因空气出入而引起的胸部和腹部的起伏，呼吸与呼吸之间的停顿，
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
只有妈妈和孩子，真正分享过心跳自嗨的小瓶子
01.只有妈妈和孩子，真正分享过心跳这是《妈妈是超人2》里面的一段话，感触很深。我带孩子看世界，而孩子带我看自己，才发现，我是可以这样好的。宇宙洪荒生命浩瀚无垠但只有母亲和孩子真正分享过心跳身体里的双倍心跳是孩子第一句“你好”对妈妈来说那是世界上最温柔的地震从此刻起我们缔结契约彼此守护我将带你看世界请务必玩得尽兴你将带我看自己因为爱不虚此行强壮的心跳声告诉我们世界最珍贵的东西不必费力寻找一直在我们
致良知之寄希渊书如歌z
不要轻易地指责别人，学会宽容和尊重，才能更好地与人相处。一个真正的有文化修养的人,能够用“慈悲心和包容心”去成就别人,其实也是在成就自己。幸福并不取决于财富、权利和容貌,而是取决于你和周围人的相处。你想做个幸福快乐的人,那么就从善待他人开始吧!
冬去了春来了简爱如初
推开屋门，一缕阳光直接跑到了屋子里，我的眼睛有点微微的睁不开，前几天雪下的很大，昨天还刮大风，大人小孩都穿着厚厚的棉衣，小孩子们带着帽子，还是能遮住耳朵的那种，怕小孩子的耳朵被冻掉。原来都立春了。迎着初春的太阳，我走出院子的大门，看到好几个孩子在那扎堆玩，玩的什么呀，那么聚精会神的，一堆人围城一个圈，我走到近处，竟没有人发觉我，孩子们玩的真是太认真了。原来是四五个大的、小的孩子在点火烧白菜、烤苹果
多租户SaaS系统中设计安全便捷的跨租户流程共享 Alex艾力的IT数字空间安全功能测试架构中间件微服务网络安全代码规范
四维协同架构，结合动态授权、加密传输、行为审计和智能策略一、权限控制体系1.动态权限模型2.授权策略实现RBAC+ABAC混合模型在流程表增加shared_tenants字段存储授权信息，结合属性动态校验：CREATETABLEworkflow_process(process_idVARCHAR(36)PRIMARYKEY,tenant_idVARCHAR(36)NOTNULL,shared_te
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
孩子厌学怎么办？怎么帮助孩子正确爱上学习？赖颂强讲孩子不上学
孩子厌学怎么办？怎么帮助孩子正确爱上学习？这是许多家长正在遭遇的难题，在这个问题上，很多家长尝试了多种办法，可都无法改掉孩子厌学的毛病。不仅如此，孩子除了厌学以外，甚至在家长的引导下更加讨厌学习，觉得是学习捆绑了自己的自由，学习剥夺了自己的快乐。那么到底有什么方法能让孩子正确地爱上学习呢？总能听到家长说自己的孩子最近不好好学习，成绩也不如以前优秀了，对学习没有兴趣，厌学。孩子厌学有哪些症状表现呢？
临时节点授权方案实际应用中可能面临的安全问题和对应的防范策略 Alex艾力的IT数字空间网络架构中间件安全运维功能测试安全架构
一、核心安全风险与防御方案1.重放攻击（ReplayAttack）风险场景：攻击者截获有效授权令牌后重复发送请求，导致权限被恶意复用防御措施：动态令牌机制：在授权节点ID中嵌入时间戳（timestamp）和随机数（nonce），服务端校验时间差（如±5分钟）并记录已使用nonce值签名验证：使用HMAC-SHA256对nodeId+timestamp+secretKey生成签名，防止参数篡改示例代
恐龙狂浪人俭以养德文以载道
一直好奇恐龙怎么会灭绝现在看来是蠢没有天敌肆意繁殖没有能力反省招来自然淘汰人就不同历史上朝代的更迭疆土的征伐灾害的肆虐疾病的可怕付出了太多生命的代价即使今天和平世界是主题军事的发达国际社会的制约和干预自然灾害和疾病的预防和控制人们寿命大幅提高非正常死亡大幅减少人也不可能像恐龙自己灭绝自己自然选择和优胜劣汰的角度凡是不爱护子女后代的家族子女亦难存活于世在历史的长河中怕已灭绝现在的人才习惯了催婚催生催
玩转澳大利亚凯恩斯热带雨林贝囡囡
凯恩斯是位于昆士兰北部的一个小城镇，是进入大堡礁的门户之一。凯恩斯既兼顾着大堡礁的海洋景观也有内陆热带雨林景观。库兰达雨林KurandaRainforest延绵27公里的热带雨林区，分布着大大小小的雨林公园，最经典的要数库兰达雨林(KurandaRainforest)。说它很经典，是因为在这里体验雨林的方式多，见识的动物多，还保留着当地的土著文化。来到库兰达雨林，可以通过3种方式探索她的美。1、雨
HW prefetcher之CDP(Content-Directed Data Prefetching) Chip Design xPU Chip Design CPU GEM5
CDP是Content-DirectedDataPrefetching的缩写，它基于RobertCooksey和StephanJourdan提出的"Stateless,Content-DirectedDataPrefetchingMechanism"论文实现。是一种内容导向的数据预取机制，CDP通过分析内存中的数据内容来识别可能的指针，当识别到指针时，它会预取指针指向的内存地址。CDP使用VPN表
FPGA芯片厂商及关键的开发测试工具 Chip Design xPU Chip Design fpga开发
以下是结合2025年技术动态整理的。一、FPGA芯片主要厂商及产品系列厂商芯片系列典型特点目标市场AMD/XilinxVersal,Kintex,Artix,Zynq高性能异构计算（AI引擎+FPGA+CPU）数据中心、5G、航空航天Intel(Altera)Stratix,Arria,Agilex,Cyclone高带宽内存集成（HBM），支持CXL协议网络加速、边缘计算LatticeCertus
2018年6月25日邵海燕三阶
上午请假陪孩子去医院检查经常咳嗽得毛病，还好就是鼻炎得治疗。也因为不是上班时间，看手机的机会就多些，看到我们公益群里有人在发互联网链接，随即就感觉到了有人借我们的群在做广告，这可不是我们这次项目可以热接受的，我也不希望信任我们的爱心人士对我们的项目的目的有质疑，当即决定必须马上认真对待此事，在一番说明以后，我也求助了助教，面对这样的情况不知道这样处理是否妥当，助教告诉我，只要心是纯粹的就去做。今天
假如每一天都是重生,你还会这样下去吗？默默潜行的学者
前些天看了一篇文章，感触颇多。文章说，“现在，你闭上眼睛……想象一下，你已经七老八十了，坐在空无一人的房间里，臃肿老态没钱没势，生活不能自理，你对上帝许了一个愿望，说道:求求你，让我再回到年轻时候吧。上帝答应了他。于是，你睁开眼一看，回到了2020年的今天，那这次，你打算怎么活?”故事结束。第一次看到这篇文章，确实非常震撼，确实，我们每一天都是一次重生，每一天都是新的开始。对此，想想以前颓废的自己
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

冲击SuperGLUE：基于多任务与对抗训练的Finetune方案解析

你可能感兴趣的:(冲击SuperGLUE：基于多任务与对抗训练的Finetune方案解析)