weixin_44626980

预训练语言模型整理（ELMo/GPT/BERT...）

简介
预训练任务简介
- 自回归语言模型
- 自编码语言模型
预训练模型的简介与对比
- ELMo
  - 细节
  - ELMo的下游使用
- GPT/GPT2
  - GPT
  - 细节
  - 微调
  - GPT2
  - 优缺点
- BERT
  - BERT的预训练
  - 输入表征
  - Fine-tunninng
  - 缺点
  - ELMo/GPT/BERT对比，其优缺点
  - BERT-wwm
  - RoBERTa
- ERNIE(艾尼) 1.0
- ERNIE 2.0
- XLNet
  - 提出背景
  - 排列语言模型(Permutation Language Model，PLM)
  - Two-Stream Self-Attention
  - Transformer-XL
- ALBERT

简介

2018年ELMo/GPT/BERT的相继提出，不断刷新了各大NLP任务排行榜，自此，NLP终于找到了一种方法，可以像计算机视觉那样进行迁移学习，被誉为NLP新时代的开端。
与计算机视觉领域预训练模型不同的是，其通过采用自监督学习的方法，将大量的无监督文本送入到模型中进行学习，即可得到通用的预训练模型，而NLP领域中无监督文本数据要多少有多少，2019年发布的后续研究工作（GPT2、Roberta、T5等）表明，采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现，至少目前看来还没有达到上限。同时，如何缩减模型参数也成为了另一个研究热点，并有相应的论文在今年发表（ALBERT、ELECTRA）。这一类工作为NLP研发者趟通并指明了一条光明大道：就是通过自监督学习，把大量非监督的文本充分利用起来，并将其中的语言知识编码，对各种下游NLP任务产生巨大的积极作用。
为何预训练语言模型能够达到如此好的效果？主要有如下几点：

word2vec等词向量模型训练出来的都是静态的词向量，即同一个词，在任何的上下文当中，其向量表征是相同的，显然，这样的一种词向量是无法体现一个词在不同语境中的不同含义的。
我们采用预训练模型来代替词向量的关键在于，其能够更具上下文的不同，对上下文中的词提取符合其语境的词表征，该词表征向量为一个动态向量，即不同上下文输入预训练模型后，同一个词的词表征向量在两个上下文中的词表征是不同的。
本文将对一下几个模型进行简单的总结，主要关注点在于各大模型的主要结构，预训练任务，以及创新点：
ELMo
GPT
BERT
BERT-wwm
ERNIE_1.0
XLNET
ERNIE_2.0
RoBERTa
(ALBERT/ELECTRA)
...

预训练任务简介

总的来说，预训练模型包括两大类：自回归语言模型与自编码语言模型

自回归语言模型

通过给定文本的上文，对当前字进行预测，训练过程要求对数似然函数最大化，即：
\[max_{\theta} \ logp_{\theta}(x) = \sum_{t=1}^{T}log \ p_{\theta}(x_t|x_{

代表模型：ELMo/GPT1.0/GPT2.0/XLNet
优点：该模型对文本序列联合概率的密度估计进行建模，使得该模型更适用于一些生成类的NLP任务，因为这些任务在生成内容的时候就是从左到右的，这和自回归的模式天然匹配。
缺点：联合概率是按照文本序列从左至右进行计算的，因此无法得到包含上下文信息的双向特征表征；

自编码语言模型

BERT系列的模型为自编码语言模型，其通过随机mask掉一些单词，在训练过程中根据上下文对这些单词进行预测，使预测概率最大化，即
\[max_{\theta} \ logp_{\theta}(\bar{x}|\hat{x}) \approx \sum_{t=1}^{T}log \ m_tp_{\theta}(x_t|\hat{x}) = \sum_{t=1}^{T}log \ m_tlog\frac{exp(H_{\theta}(\hat{x})_t^Te(x_t))}{\sum_{x'}exp(H_{\theta}(\hat{x})_t^Te(x'))}\]

其本质为去噪自编码模型，加入的 [MASK] 即为噪声，模型对 [MASK] 进行预测即为去噪。
优点：能够利用上下文信息得到双向特征表示
缺点：其引入了独立性假设，即每个 [MASK] 之间是相互独立的，这使得该模型是对语言模型的联合概率的有偏估计；另外，由于预训练中 [MASK] 的存在，使得模型预训练阶段的数据与微调阶段的不匹配，使其难以直接用于生成任务。

预训练模型的简介与对比

ELMo

原文链接：Deep contextualized word representations

ELMo为一个典型的自回归预训练模型，其包括两个独立的单向LSTM实现的单向语言模型进行自回归预训练，不使用双向的LSTM进行编码的原因正是因为在预训练任务中，双向模型将提前看到上下文表征而对预测结果造成影响。因此，ELMo在本质上还是属于一个单向的语言模型，因为其只在一个方向上进行编码表征，只是将其拼接了而已

细节

引入双向语言模型，其实是2个单向语言模型（前向和后向）的集成，这样做的原因在上一节已经解释过了，用共享词向量来进行预训练；
通过保存预训练好的2层biLSTM，提取每层的词表征用于下游任务；

ELMo的下游使用

对于每一个字符，其每一层的ELMo表征均为输入词向量与该层的双向编码表征拼接而成，即：
\[R_k = \{x^{LM}_k, \overrightarrow{h}^{LM}_{k,j}, \overleftarrow{h}^{LM}_{k,j} | j = 1, ..., L\} = \{h^{LM}_{k,j}|j = 0, ..., L\}\]
对于下游任务而言，我们需要把所有层的ELMo表征整合为一个单独的向量，最简单的方式是只用最上层的表征，而更一般的，我们采用对所有层的ELMo表征采取加权和的方式进行处理，即：
\[ELMo^{task}_k = E(R_k; \theta ^{task}) = \gamma ^{task}\sum_{j=0}^L s^{task}h^{LM}_{k,j}\]

其中\(s^{task}\)可以作为学习参数，为一个归一化的权重因子，用于表示每一层的词向量在整体的重要性。\(\gamma ^{task}\)为缩放参数，允许具体的task模型去放缩 ELMo 的大小，因为ELMo的表征分布与具体任务的表征分布不一定是一样的，可以将其作为一个辅助特征参数。

得到ELMo表征之后，则需要将其用于下游任务中去，注意，ELMo的微调过程中，并不是严格意义上的微调，预训练模型部分通常是固定的，不参与到后续训练当中。具体的，有以下几种操作方法：
- 方法一：直接将ELMo表征与词向量拼接，输入到下游任务当中去；
- 方法二：直接将ELMo表征与下游模型的输出层拼接
- 另外，还可以在ELMo模型中加入dropout, 以及采用 L2 loss的方法来提升模型。

GPT/GPT2

GPT：Improving Language Understanding by Generative Pre-Training
GPT2：Language Models are Unsupervised Multitask Learners

GPT

GPT是“Generative Pre-Training”的简称，从名字上就可以看出其是一个生成式的预训练模型，即与ELMo类似，是一个自回归语言模型。与ELMo不同的是，其采用多层Transformer Decoder作为特征抽取器，多项研究也表明，Transformer的特征抽取能力是强于LSTM的。

细节

由于GPT仍然是一个生成式的语言模型，因此需要采用Mask Multi-Head Attention的方式来避免预测当前词的时候会看见之后的词，因此将其称为单向Transformer，这也是首次将Transformer应用于预训练模型，预测的方式就是将position-wise的前向反馈网络的输出直接送入分类器进行预测
此外整个GPT的训练包括预训练和微调两个部分，或者说，对于具体的下游任务，其模型结构也必须采用与预训练相同的结构，区别仅在于数据需要进行不同的处理

微调

对于带有标签\(y\)的监督数据\([x_1, ..., x_m]\)，我们直接将其输入到已经完成预训练的模型中，然后利用最后一个位置的输出对标签进行预测，即
\[P(y|x^1, ..., x^m) = softmax(h_l^mW_y)\]

其中，\(W_y\)为分类器的参数，\(h_l^m\)为最后一层最后一个位置的输出。则最大化优化目标即为：
\[ L_2(C) = \sum_{(x, y)}^{T}log \ P(y|x^1, ..., x^m)\]

具体的，对于不同的微调任务，我们需要对数据进行如下处理：

GPT2

GPT2 与 GPT 的大致模型框架和预训练目标是一致的，而区别主要在于以下几个方面：

其使用了更大的模型
使用了数量更大、质量更高、涵盖范围更广的预训练数据
采用了无监督多任务联合训练的方式，即对于输入样本，给予一个该样本所属的类别作为引导字符串，这使得该模型能够同时对多项任务进行联合训练，并增强模型的泛化能力

其他的就不深究了

优缺点

BERT

原文链接：BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

BERT 的特征抽取结构为双向的 Transformer，简单来说，就直接套用了 Attention is all you need 中的 Transformer Encoder Block 结构，虽然相比于GPT，仅仅是从单向的变为双向的，但这也意味着 BERT 无法适用于自回归语言模型的预训练方式，因此，BERT提出了两种预训练任务来对其模型进行预训练。

BERT的预训练

Task 1: MLM

由于BERT需要通过上下文信息，来预测中心词的信息，同时又不希望模型提前看见中心词的信息，因此提出了一种 Masked Language Model 的预训练方式，即随机从输入预料上 mask 掉一些单词，然后通过的上下文预测该单词，类似于一个完形填空任务。

在预训练任务中，15%的 Word Piece 会被mask，这15%的 Word Piece 中，80%的时候会直接替换为 [Mask] ，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token

没有100%mask的原因
- 如果句子中的某个Token100%都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词
加入10%随机token的原因
- Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ’hairy‘
- 另外编码器不知道哪些词需要预测的，哪些词是错误的，因此被迫需要学习每一个token的表示向量
另外，每个batchsize只有15%的单词被mask的原因，是因为性能开销的问题，双向编码器比单项编码器训练要更慢

Task 2: NSP

仅仅一个MLM任务是不足以让 BERT 解决阅读理解等句子关系判断任务的，因此添加了额外的一个预训练任务，即 Next Sequence Prediction。

具体任务即为一个句子关系判断任务，即判断句子B是否是句子A的下文，如果是的话输出’IsNext‘，否则输出’NotNext‘。

训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。这个关系保存在图4中的[CLS]符号中

输入表征

BERT的输入表征由三种Embedding求和而成：

Token Embeddings：即传统的词向量层，每个输入样本的首字符需要设置为[CLS]，可以用于之后的分类任务，若有两个不同的句子，需要用[SEP]分隔，且最后一个字符需要用[SEP]表示终止
Segment Embeddings：为\([0, 1]\)序列，用来在NSP任务中区别两个句子，便于做句子关系判断任务
Position Embeddings：与Transformer中的位置向量不同，BERT中的位置向量是直接训练出来的

Fine-tunninng

对于不同的下游任务，我们仅需要对BERT不同位置的输出进行处理即可，或者直接将BERT不同位置的输出直接输入到下游模型当中。具体的如下所示：

对于情感分析等单句分类任务，可以直接输入单个句子（不需要[SEP]分隔双句），将[CLS]的输出直接输入到分类器进行分类
对于句子对任务（句子关系判断任务），需要用[SEP]分隔两个句子输入到模型中，然后同样仅须将[CLS]的输出送到分类器进行分类
对于问答任务，将问题与答案拼接输入到BERT模型中，然后将答案位置的输出向量进行二分类并在句子方向上进行softmax（只需预测开始和结束位置即可）
对于命名实体识别任务，对每个位置的输出进行分类即可，如果将每个位置的输出作为特征输入到CRF将取得更好的效果。

缺点

BERT的预训练任务MLM使得能够借助上下文对序列进行编码，但同时也使得其预训练过程与中的数据与微调的数据不匹配，难以适应生成式任务
另外，BERT没有考虑预测[MASK]之间的相关性，是对语言模型联合概率的有偏估计
由于最大输入长度的限制，适合句子和段落级别的任务，不适用于文档级别的任务（如长文本分类）；
适合处理自然语义理解类任务(NLU)，而不适合自然语言生成类任务(NLG)

ELMo/GPT/BERT对比，其优缺点

ELMo/GPT/BERT 均为在2018年提出的三个模型，且性能是依次提高的，这里将其放在一起对比，来看看这三者之间的主要区别有哪些

ELMo 的特征提取器为LSTM，特征抽取能力明显较Transformer更弱，且并行能力较差
ELMo/GPT 均为单向语言模型，即自回归语言模型，天生适合用于处理生成式任务，但这种特性也决定了无法提取上下文信息用于序列编码
BERT采用双向Transformer作为特征抽取结构，能够有效提取上下文信息用于序列编码

BERT-wwm

原文链接：Pre-Training with Whole Word Masking for Chinese BERT
Github链接：Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

Whole Word Masking (wwm)，暂翻译为全词Mask或整词Mask，是哈工大讯飞联合实验室提出的BERT中文预训练模型的升级版本，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。

在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。这样的做法强制模型预测整个的词，而不是词的一部分，即对同一个词不同字符的预测将使得其具有相同的上下文，这将加强同一个词不同字符之间的相关性，或者说引入了先验知识，使得BERT的独立性假设在同一个词的预测上被打破，但又保证了不同的词之间的独立性。

作者将全词Mask的方法应用在了中文中，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具，即对组成同一个词的汉字全部进行Mask。这样一个简单的改进，使得同样规模的模型，在中文数据上的表现获得了全方位的提升

RoBERTa

从模型结构上看，RoBERTa基本没有什么太大创新，最主要的区别有如下几点：

移除了NSP这个预训练任务，效果变得更好
动态改变mask策略，把数据复制10份，然后统一进行随机mask；
其他的区别就在于学习率/数据量/batch_size 等

ERNIE(艾尼) 1.0

作者认为BERT在中文文本中的MLM预训练模型很容易使得模型提取到字搭配这种低层次的语义信息，而对于短语以及实体层次的语义信息抽取能力是较弱的。因此将外部知识引入大规模预训练语言模型中，提高在知识驱动任务上的性能。具体有如下三个层次的预训练任务：

Basic-Level Masking：跟bert一样对单字进行mask，很难学习到高层次的语义信息；
Phrase-Level Masking：输入仍然是单字级别的，mask连续短语；
Entity-Level Masking：首先进行实体识别，然后将识别出的实体进行mask。

ERNIE 2.0

ERNIE 2.0相比于 1.0 来说，主要的改进在于采取 Multi-task learning（多任务同时学习，同时学习的任务数量逐渐增多）以及 Continue-Learning（不同任务组合轮番学习）的机制。其训练任务包括了三个级别的任务：

词级别：
- Knowledge Masking（短语Masking）
- Capitalization Prediction（大写预测）
- Token-Document Relation Prediction（词是否会出现在文档其他地方）
结构级别
- Sentence Reordering（句子排序分类）
- Sentence Distance（句子距离分类）
语义级别：
- Discourse Relation（句子语义关系）
- IR Relevance（句子检索相关性）

XLNet

XLNet针对自回归语言模型单向编码以及BERT类自编码语言模型的有偏估计的缺点，提出了一种广义自回归语言预训练方法。

提出背景

传统的语言模型（自回归语言模型AR天然适合处理生成任务，但是无法对双向上下文进行表征；
而自编码语言模型（AE）虽然可以实现双向上下文进行表征，但是：
- BERT系列模型引入独立性假设，没有考虑预测[MASK]之间的相关性；
- MLM预训练目标的设置造成预训练过程和生成过程不一致；
- 预训练时的[MASK]噪声在finetune阶段不会出现，造成两阶段不匹配问题；
XLNet提出了一种排列语言模型(PLM)，它综合了自回归模型和自编码模型的优点，同时避免他们的缺点

排列语言模型(Permutation Language Model，PLM)

排列语言模型的思想就是在自回归和自编码的方式中间额外添加一个步骤，即可将两者完美统一起来，具体的就是希望语言模型从左往右预测下一个字符的时候，不仅要包含上文信息，同时也要能够提取到对应字符的下文信息，且不需要引入Mask符号。即在保证位置编码不变的情况下，将输入序列的顺序打乱，然后预测的顺序还是按照原始的位置编码顺序来预测的，但是相应的上下文就是按照打乱顺序的上下文来看了，这样以来，预测对象词的时候，可以随机的看到上文信息和下文信息。另外，假设序列长度为\(T\)，则我们如果遍历\(T!\)种分解方法，并且模型参数是共享的，PLM就一定可以学习到预测词的所有上下文信息。但显然，遍历\(T!\)种上下文计算量是十分大的，XLNet采用的是一个部分预测的方法(Partial Prediction)，为了减少计算量，作者只对随机排列后的末尾几个词进行预测，并使得如下期望最大化：
\[max_{\theta} \ E_{Z \sim Z_T}[\sum_{t = 1}^{T}logp_{\theta}(x_{z_t}|x_{z < t})]\]

Two-Stream Self-Attention

直接用标准的Transformer来建模PLM，会出现没有目标(target)位置信息的问题。即在打乱顺序之后，我们并不知道下一个要预测的词是一个什么词，这将导致用相同上文预测不同目标的概率是相同的。

XLNet引入了双流自注意力机制（Two-Stream Self-Attention）来解决这个问题。Two-Stream Self-Attention表明了其有两个分离的Self-Attention信息流：

Query Stream 就为了找到需要预测的当前词，这个信息流的Self-Attention的Query输入是仅包含预测词的位置信息，而Key和Value为上下文中包含内容信息和位置信息的输入，表明我们无法看见预测词的内容信息，该信息是需要我们去预测的；
Content Stream 主要为 Query Stream 提供其它词的内容向量，其Query输入为包含预测词的内容信息和位置信息，Value和Key的输入为选中上下文的位置信息和内容信息；

两个信息流的输出同样又作为对应的下一层的双信息流的输入。而随机排列机制实际上是在内部用Mask Attention的机制实现的。

Transformer-XL

Transformer-XL是 XLNet 的特征抽取结构，其相比于传统的Transformer能捕获更长距离的单词依赖关系。

原始的Transformer的主要缺点在于，其在语言建模中会受到固定长度上下文的限制，从而无法捕捉到更长远的信息。

Transformer-XL采用片段级递归机制(segment-level recurrence mechanism)和相对位置编码机制(relative positional encoding scheme)来对Transformer进行改进。

片段级递归机制：指的是当前时刻的隐藏信息在计算过程中，将通过循环递归的方式利用上一时刻较浅层的隐藏状态，这使得每次的计算将利用更大长度的上下文信息，大大增加了捕获长距离信息的能力。
相对位置编码：Transformer本身引入了三角函数向量作为位置编码向量。而Transformer-XL复用了上文的信息，这就导致位置编码出现重叠，因此采用了训练的方式得到相对位置编码向量。

ALBERT

未完待续...

参考链接
https://zhuanlan.zhihu.com/p/76912493
https://zhuanlan.zhihu.com/p/89894807
https://zhuanlan.zhihu.com/p/37684922
https://zhuanlan.zhihu.com/p/56865533
https://zhpmatrix.github.io/2019/02/16/transformer-multi-task/
https://zhuanlan.zhihu.com/p/57251615
https://zhuanlan.zhihu.com/p/68295881
https://www.zhihu.com/question/316140575

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
好习惯和坏习惯炫舞阳光
好习惯和坏习惯文/炫舞阳光生活中有很多细节，可以体现出一个人的习惯。好的习惯让人保持清晰的头脑，坏的习惯常常让人丢东忘西，头脑混沌。生活中，我喜欢整理东西。厨房里，锅碗瓢盆各样东西我习惯各就其位。案板、勺子、铲子和刀具我习惯性的挂起来。大大小小的碗和盘子，我习惯性的立在收纳柜里。每次轮到我在家做饭时，我习惯于一边使用，一边收拾和擦拭归位。做好饭时，台面干干净净。我想把这种习惯影响和传递给家人。然而
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
人到中年的5大恐惧不想独白的独白
这一段时间闭关在家，心里越来越没有底。全球疫情，全国疫情，一直在关心和自我调试中。但是，好像还是对自己的未来充满了无所适从。不想去做什么，也没有激情和兴趣去开始什么。人生过半，还有什么可以逆袭或改变的机会呢。不知道做什么的时候，去追剧，做美食，教育孩子，锻炼，花钱进什么什么读书训练营，打卡训练营，微信群，各种分享和共同体的群。但是还是没有任何的起色。就这样了吗。中午并不困，但是到了12点，还是习惯
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
我的一个小心愿，减肥20斤，有人一起吗张晓晓ZXX
我现在体重141斤，163cm，想减到120以内，不想吃减肥药，不喝奶昔，也不想买健身卡，就是希望通过一些运动的aPP进行训练和适当的节食，有人一起的吗？3月12号，我73公斤，现在70.9公斤，是通过咕咚app训练来的，但一个人太孤单，有一起的吗？我想知道除了小时候坚持一个月练习写字帖把字写好了，还能做什么锻炼一下自己的毅力，我也想知道100天之后，我能不能也达到理想的体重。接下来100天，愿意
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
2022-07-06学会放手杨晓玲乐平市第十一小学
2022年7月5日星期一晴今天结束了国培培训，上午收拾好物品，带着孩子整理心情，带着憧憬去到孩子新的学校，因为从小我有意培养孩子自己整理自己内务，孩子很认真的把自己要用的都整理好，不用的都另外装好，这一点孩子的能力还是挺强的。把自己的行李按学校提出的要求认真的整理好，我们便出发了。我们早早的来到学校，时间还早，便让她到阿姨那休息了一会儿，每去到一个新的地方，能迅速的安顿下来，这是非常好的。时间很快
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/