郝伟老师的技术博客

从BERT、XLNet到MPNet，细看NLP预训练模型发展变迁史

文章目录

1.BERT 原理及 MLM 简述

1.1 Masked Language Model & Next Sentence Predict**
1.2 Self-Attention
1.3 Denoising Auto Encoder
1.4 BERT 缺点

2.XLNet 原理及 PLM 简述

2.1 排列语言模型 - Permutation Language Model
2.2 双流自注意力
2.3 双向 AR Model

3.MPNet 原理及创新点简述

3.1 统一视角
3.2 模型架构
3.3 MPNet 优势
3.4 SOTA 结果

4.NLP 预训练模型趋势跟踪

4.1 土豪系列 - T5、GPT3、MegatronLM
4.2 小而美系列 - DistillBERT、TinyBERT、FastBERT
4.3 潜力股系列 - few shot learning

5. 附录 - 快速上手 BERT 的 4 大工具包
Reference

转载来源：https://zhuanlan.zhihu.com/p/146325984

20 世纪以来，自然语言处理（NLP）领域的发展涌现了许多创新和突破。NLP 中许多之前机器不可能完成的任务，如阅读理解、人机对话、自动写新闻稿等，正逐渐成为现实，甚至超越了人类的表现。

如果总结过去 20 年里，无数先辈辛劳付出带来的璀璨成果，以下 3 个代表性工作列入 NLP 名人堂，应该实至名归：
1）2003 年 Bengio 提出神经网络语言模型 NNLM，从此统一了 NLP 的特征形式——Embedding；
2）2013 年 Mikolov 提出词向量 Word2vec，延续 NNLM 又引入了大规模预训练（Pretrain）的思路；
3）2017 年 Vaswani 提出 Transformer 模型，实现用一个模型处理多种 NLP 任务。

基于 Transformer 架构，2018 年底开始出现一大批预训练语言模型，刷新众多 NLP 任务，形成新的里程碑事件。本文将跨越 2018-2020，着眼于 3 个预训练代表性模型 BERT、XLNet 和 MPNet，从以下 4 个章节介绍 NLP 预训练语言模型的发展变迁史：

1.BERT 原理及 MLM 简述
2.XLNet 原理及 PLM 简述
3.MPNet 原理及创新点简述
4.NLP预训练模型趋势跟踪
附录：快速上手BERT的4大工具包

1.BERT 原理及 MLM 简述

自谷歌 2018 年底开源 BERT，NLP 界的游戏规则某种程度上被 “颠覆” 了；一时间，这个芝麻街的可爱小黄人形象，成为众多 NLPer 及其他 DL、ML 研究者们的拥趸。

“BERT 一把梭 “，“遇事不决就 BERT”，“BERT 在手，天下我有”，表达了使用者们对 BERT 的心声。也因为 BERT，NLP 的准入门槛大幅下降，一些较浅层的 NLP 任务如文本分类、相似匹配、聚类某种程度上可以被认为是完全解决。
BERT 四大下游任务微调

BERT 为什么会有如此引人注目的优良效果？下面我们再来回顾下 BERT 到底是什么。

1.1 Masked Language Model & Next Sentence Predict**

BERT 本质上是一个自编码（Auto Encoder）语言模型，为了能见多识广，BERT 使用 3 亿多词语训练，采用 12 层双向 Transformer 架构。注意，BERT 只使用了 Transformer 的编码器部分，可以理解为 BERT 旨在学习庞大文本的内部语义信息。

具体训练目标之一，是被称为掩码语言模型的 MLM。即输入一句话，给其中 15% 的字打上 “mask” 标记，经过 Embedding 输入和 12 层 Transformer 深度理解，来预测 “mask” 标记的地方原本是哪个字。

input:   欲把西[mask]比西子，淡[mask]浓抹总相宜
output:  欲把西[湖]比西子，淡[妆]浓抹总相宜

例如我们输入 “欲把西 [mask] 比西子，淡 [mask] 浓抹总相宜” 给 BERT，它需要根据没有被 “mask” 的上下文，预测出掩盖的地方是 “湖” 和“妆”。

MLM 任务的灵感来自于人类做完形填空。挖去文章中的某些片段，需要通过上下文理解来猜测这些被掩盖位置原先的内容。

训练目标之二，是预测输入的两句话之间是否为上下文（NSP）的二分类问题。继续输入 “欲把西[湖] 比西子，淡 [妆] 浓抹总相宜”，BERT 将预测这两句话的组合是否合理（这个例子是“yes”）。（随后的研究者对预训练模型探索中证明，NSP 任务过于简单，对语言模型的训练作用并不是很大）

通过这两个任务和大规模语料训练，BERT 语言模型可以很好学习到文本之间的蕴含的关系。

1.2 Self-Attention

接下来简单介绍 BERT 以及 XLNet、MPNet 所使用 Transformer 的核心模块：自注意力机制。

自注意力机制重点在于学习输入序列自身的内部信息。具体地，每个 $t o k e n$ 可以观察到序列中其他所有 $t o k e n$ 的信息，并通过” 注意力 “交互，其余的 $t o k e n^{'}$ 会产生不同大小地权重（整个过程类似加权）。上例中，“西子”和 “西湖” 关系紧密，因此它们之间的 attention 权重更大（大于 “西子” 和“淡妆”）。最终自注意力层的输出涵盖了序列所有 $t o k e n$ 的语义信息，实现了双向编码上下文。

同时，这种双向性使得模型可以同时观测序列的所有位置，解决了 RNN 等递归模型无法高效并行的瓶颈。

1.3 Denoising Auto Encoder

由于架构采用 12 层双向 Transformer 且训练目标包含还原 $m a s k$ 位置的信息，BERT 被称为去噪自编码语言模型（DAE）。

而在 BERT 之前，NLP 领域的语言模型几乎是 Auto Regression（自回归）类型，即当前位置的字符预测 $T i$ 需要编码之前 $T (0 : i - 1)$ tokens 的语义信息，使得模型训练 / 预测只能单向进行。

虽然 ELMO 采用了 BiLSTM，但只是前向、后向两次输出的简单拼接，包含的全局语义信息依然较弱。

1.4 BERT 缺点

虽然效果好，BERT 的缺点也很明显。从建模本身来看，随机选取 15% 的字符 mask 忽视了被 mask 字符之间可能存在语义关联的现象，从而丢失了部分上下文信息。同时，微调阶段没有 mask 标记，导致预训练与微调的不一致。

2.XLNet 原理及 PLM 简述

和 BERT 不同，XLNet 本质上是用自回归语言模型来同时编码双向语义信息的思路，可以克服 BERT 存在的依赖缺失和训练 / 微调不一致的问题。同时为了弥补自回归模型训练时无法同时看到上下文的缺陷，XLNet 曲线救国地提出了 PLM 排列语言模型的训练方式。

2.1 排列语言模型 - Permutation Language Model

对于一个长度为 N 的序列，我们知道其存在 $N!$ 种因式分解顺序，通过一次采样一种序列的因式分解组合，每个 token 总是能够在不同的序列中观察到其他所有 token；同时模型参数对于所有的因式分解顺序共享，因此从期望的角度上看，XLNet 模型能够双向地编码上下文。

例如，初始序列为 $(x 1, x 2, x 3, x 4)$ ，这里的 $x 3$ 只能关注到前面的 $(x 1, x 2)$ ，但在某种因式分解排列 $(x 4, x 2, x 1, x 3)$ 中， $x 3$ 具备了关注 $(x 4, x 2, x 1)$ 的能力。另外，XLNet 的原始输入和 BERT 相同，依然是正常排序的 $(x 1, x 2, x 3, x 4)$ 。

2.2 双流自注意力

那 XLNet 是如何在保持输入顺序不变的同时，对序列进行乱序编码的呢？

简单而言，通过 Attention 掩码机制，将当前 token 及其之后的 token（不该看到的部分）嵌入信息用 attention-mask 掩盖。具体实现上，使用了一种双流自注意力机制。

例如某个序列的因式分解顺序为 $(x 2, x 1, x 4, x 3)$ 和 $(x 2, x 1, x 3, x 4)$ ，如果需要预测第三个位置的 token，传统的自回归模型通过 $(x 2, x 1)$ 的编码来预测后面的 token，概率表达式为 $P (x t ∣ (x 2, x 1))$ 。然而这样会带来一个问题：x2 和 x1 的编码和需要预测的下一个 token 是无关的，xt 既可以是 x4 也可以是 x3，即 P(x3|x2,x1) = P(x4|x2,x1)，这显然不合理（传统 RNN 是按正常的序列进行递归预测，位置是正确的，所以不存在这个问题）。因此 XLNet 需要引入待预测 token 的位置信息，例如 $P (x 4 ∣ x 2, x 1, p o s 4)$ 或 $P (x 3 ∣ x 2, x 1, p o s 3)$ ，确保生成合理的结果。

然而这又带来了新的矛盾。对于某个因式分解顺序 $(x 2, x 1, x 4, x 3)$ ，在预测 x4 的时候，模型不能编码自身的 token-embedding，只能编码前面的 $(x 2, x 1)$ 以及自身的 position-embedding，否则训练就没有意义了；然而在预测 x3 的时候，又需要用到 x4 的完整的编码信息。如果继续沿用 BERT 的自注意力机制必然存在问题，因此 XLNET 将自注意力机制拆分为 Query 流和 Content 流。Query 流中当前 token 只能关注到前面的 token 和自身的位置信息，Content 流中当前 token 可以关注到自身。

具体来看，XLNET 将序列拆分为 2 部分，序列的后部分（约占句长的 1/K，K 为超参数）为需要预测的部分，前部分为已知上下文。已知的上下文不做预测，因此只计算 content 流注意力，每个 token 都编码之前 token 以及自身的完整信息。从预测部分开始，每个 token 同时计算 Query 流和 Content 流注意力：Query 流的输出用于预训练做预测，Content 流的输出提供给后续待预测 token 计算 Query 流，这就保证了当预测当前 token 时，它无法看到自身编码；当前 token 预测结束后，将其 Content 流作为上下文部分的编码提供给后续需要预测的 token。预训练过程计算 2 种注意力，微调过程去除了 Query 流，只保留 Content 流，因为不需要对 token 进行词表空间的预测，而是需要编码整个上下文语义用于下游任务。

2.3 双向 AR Model

前面提到 Auto Regression 模型的缺点是只能单向编码，但它能够编码被预测的 token 之间的联系，即克服了 BERT 被 mask 字符间信息丢失的缺点。其次，通过上文的 PLM 模型弥补了自回归语言模型只能单向编码的缺点。AR 模型在预训练和下游任务中都没有对输入序列进行损坏（遮盖部分 token，引入噪声），消除了模型在预训练和微调过程中的差异。

虽然在期望上看，PLM 几乎实现了双向编码功能的自回归模型，但是针对某一个因式分解序列来说，被预测的 token 依然只能关注到它前面的序列，导致模型依然无法看到完整序列信息和位置信息。

3.MPNet 原理及创新点简述

结合 BERT、XLNet 的思路，南京大学和微软在 2020 年共同提出了新的预训练语言模型 MPNet：Masked and Permuted Pre-training for Language Understanding。

MPNet 的创新点在于 4 个字：位置补偿（position compensation），大家先留个印象，下文会再详细介绍。

论文开篇，作者针对上文 MLM、PLM 各自特点，希望用一种统一的模型既保留二者的优点，又弥补它们的不足，这就是 MPNet。

3.1 统一视角

MLM、PLM 回顾，(a)、(b) 中左边和右边等价

首先，作者通过重新排列和切分输入序列中的 tokens，将 MLM 和 PLM 统一为非预测部分（non-predicted）和预测部分（predicted），如图 (a),(b) 右侧。如此一来，MLM 和 PLM 就拥有了相似的数学表达公式，仅在条件部分有细小差异。

3.2 模型架构

为缓解 BERT-mask 可能丢失依赖信息的问题，MPNet 沿用了 XLNet 的自回归结构，同时为弥补 XLNet 无法捕捉全部序列位置信息的缺陷，添加了「位置补偿」：针对需要预测的 token，额外添加了它们的位置信息。使得自回归过程中，在任意一个位置 i，除了可以看到之前部分的 token 编码，还能看到序列所有 token 的位置编码（类似于 BERT）。

例如，对于一个长度为 6 的 token 序列 $x = (x 1, x 2, x 3, x 4, x 5, x 6)$ ，采样得到一个因式分解序列 $x z = (x 1, x 3, x 5, x 4, x 6, x 2)$ ；假设非预测部分为 $c = 3, x (z < = c) = (x 1, x 3, x 5)$ ，待预测部分为 $x (z > c) = (x 4, x 6, x 2)$ 。对于 $z > c$ 部分，作者在待预测的 tokens 左边额外添加了 mask-token $M (z > c)$ ，最终整个 token 的输入序列由三部分组成： $(x (z < = c), M (z > c), x (z > c)) = (x 1, x 3, x 5, [M], [M], [M], x 4, x 6, x 2)$ ，[M] 表示遮盖该 token；对应的位置序列为： $(z (< = c), z (> c), z (> c)) = (p 1, p 3, p 5, p 4, p 6, p 2, p 4, p 6, p 2)$ 。

3 个 [M] 和对应位置 position-embedding 的加入，就是位置补偿。例如在序列 $(x 1, x 3, x 5, [M], [M], [M], x 4, x 6, x 2)$ 中预测 $x 4$ 时，不仅能看到 $(x 1, x 3, x 5)$ 的 token-embedding，还能看到 $(x 1, x 3, x 5, x 4, x 6, x 2)$ 的 position-embedding；依次递归预测 $(x 6, x 2)$ 。

3.3 MPNet 优势

MPNet 使用自回归编码，避免了 BERT 做 Mask 时可能丢失被 Mask 的 token 的彼此关联信息和 pretrain（有 mask）、finetune（无 mask）不一致的问题；通过位置补偿，又解决了 XLNet 无法看到全局位置信息的缺陷。取其精华，确实是挺巧妙的一种思路。

观察输入信息的占比，MPNet 输入的信息量是最大的；从直观上理解，模型每次可以接受到更多的文本特征，从而容易训练出更优结果。

3.4 SOTA 结果

作者在权威的语义理解评估数据集 GLUE 上的实验结果表面，MPNet 确实比它的前辈 BERT 和 XLNet 略胜一筹。另外，作者表示 MPNet 在训练时加入了全词掩码 whole word mask 以及相对位置编码等已被证明有效的 trick，加上和 RoBERTa 训练一样的 160GB 训练语料，取得这样的结果应该说是情理之中了。

末尾的消融实验，可以看到位置补偿和 PLM 对实验结果的提升都很关键。

4.NLP 预训练模型趋势跟踪

从目前来看，大规模语料预训练 + finetune 的方式，应该会是 NLP 接下去几年的主流。各种基于语言模型的改进也是层出不穷。虽然玩法种类各异，我们还是可以瞥见一些具有突破性的方向。

4.1 土豪系列 - T5、GPT3、MegatronLM

前期 BERT 到 RoBERTa，GPT 到 GPT2 效果的提升，已经证明更多数据可以跑出更强大更通用的预训练模型。去年底到今年，英伟达、谷歌、Open-AI 相继放出巨无霸模型 MegatronLM（83 亿参数）、T5（110 亿）、GPT3（1500 亿），不断刷榜令人咋舌的同时也彰显了巨头们的实力。

相信未来，巨无霸模型依然会成为大公司的研究目标之一，却让普通科研人员可望不可及。

4.2 小而美系列 - DistillBERT、TinyBERT、FastBERT

没有前排巨头们的经济实力，普通公司和科研机构沿着相反赛道 - 模型轻量化下足了功夫。如何在尽可能少的参数量下，取得和大模型接近的效果，同时训练 / 预测速度翻倍，是很实际很有价值的课题。

这其中，有代表性的工作如华为诺亚方舟实验室发布的 TinyBERT、北大的 FastBERT 都取得了瞩目的效果。例如 FastBERT 在 BERT 的每一层都接入一个分类器，通过样本自适应机制自动调整每个样本的计算量（容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程）。

图中 “Speed” 代表不确定性的阈值，和推理速度成正比。在 Speed=0.2 时，FastBERT 速度可以提升 1-10 倍，且精度下降全部在 0.11 个点之内。

除了知识蒸馏，常规的模型轻量化一般包含层数裁剪、精度量化等手段。

4.3 潜力股系列 - few shot learning

在实际业务场景中，对于中小 AI 企业往往容易出现数据量不足的问题。例如用户需要订制一个 FAQ 问答机器人，有 100 个标准问，但表示每个问句只有 2-3 条同义句…
战略上，“客户就是上帝 “的精神激励我们不能虚，要迎难而上。战术上，除了花高成本找标注团队造数据外，迁移学习、小样本学习可能会非常有帮助。受到人类具有快速从少量（单）样本中学习能力的启发（例如生活在北方的人可能没有见过榴莲，一旦看过一次榴莲的照片，就认识了！），让模型在少量样本中学习获得有力的泛化能力，成为近年的研究热点之一。

感兴趣的同学可以参考阿里的这篇 paper：Few-Shot Text Classification with Induction Network。

5. 附录 - 快速上手 BERT 的 4 大工具包

预训练语言模型的代表 BERT，已经成为 NLP 领域的重要工具，不同机构 / 个人也分别开发了轻松使用 BERT 的工具包。笔者结合自身经验，简单概括了一下：
5.1 肖涵 - bert-as-service

顾名思义，将 BERT 模型直接封装成一个服务，堪称上手最快的 BERT 工具。作者是 xxx 肖涵博士。

按照 GIthub 上的教程，下载 BERT 权重并安装工具包，三行代码即可轻松使用 BERT 获得文本的向量特征，完成下游 NLP 各项任务。bert-as-service 是跨平台的服务，不受限于 OS、深度学习框架，且作者对于并发做了大量优化与加速，可以满足日常实验甚至公司的实际业务需求。

5.2 Google - BERT 源码

BERT 源码官方仓库，可以学习 BERT 各模块的底层实现细节。Google 开源了权重的同时，也开源了预训练、子任务微调的脚本，是学习 BERT 不可略过的学习教程。代码基于 tensorflow，对 TF 熟练的同学会更快上手。

当前，仓库中还发布了 2/4/6/8… 层不同大小的 BERT，以缓解 BERT 资源开销大、inference 缓慢带来的问题。中文 BERT 可以参考哈工大崔一鸣、实在智能徐亮等开源的权重。

5.3 huggingface - transformers

有了 TF 版，pytorch 怎甘落后。机构 huggingface 开发的 transformers 工具包，堪称预训练模型大礼包，囊括了 10 几种火热模型。

种类齐全且 api 接口实现统一、调用简单，是 pytorch 框架与 BERT 的最佳组合。transformers 的 src 源码也是学习 BERT 等模型原理的绝佳资料。

5.4 苏剑林 - bert4keras

接下来自然而然该 Keras 出场了！作为 tf2.0 的官方高阶 api，Keras 的简洁特性始终拥有超高人气。

来自追一科技的苏神苏剑林，在业余时间自己实现了 bert4keras 框架，且提供了详细教程、众多下游任务微调脚本（分类、文本生成、QA、图片标题生成等）。始终走在 BERT 任务的前沿。

除以上工具包，github 上还有众多用户开源的 BERT 相关工具，按需参考使用即可。

Reference

[1] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[3]Zhilin Yang, Zihang Dai, Yiming, et.al. XLNet: Generalized Autoregressive Pretraining for Language Understanding[C]. arXiv preprint arXiv:1906.08237, 2019.

[4]Kaitao Song, Xu Tan, Tao Qin, Tie-Yan Liu, et.al. MPNet: Masked and Permuted Pre-training for Language Understanding [C]. arXiv preprint arXiv:2004.09297, 2020.

[5]Weijie Liu, PengZhou, QiJu, et.al. FastBERT: a Self-distilling BERT with Adaptive Inference Time[C]. arXiv preprint arXiv:2004.02178, 2020.

[6] 张俊林 - XLNet: 运行机制及和 Bert 的异同比较

[7] 李如 - FastBERT：又快又稳的推理提速方法

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio