没吃过猪肉还没见过猪跑吗

BERT and beyond

BERT

背景前言

注意力机制-transformer

https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247486960&idx=1&sn=1b4b9d7ec7a9f40fa8a9df6b6f53bbfb&chksm=96e9d270a19e5b668875392da1d1aaa28ffd0af17d44f7ee81c2754c78cc35edf2e35be2c6a1&scene=21#wechat_redirect 讲的很详细

attention is all your need 介绍

seq-seq 的encoder -decoder模型

所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。编码器和解码器都不是固定的。

传统的encoder用rnn，但是rnn不适用于并行计算。

attention is all your need

Transformer是第一个完全依靠Self-attention而不使用序列对齐的RNN或卷积的方式来计算输入输出表示的转换模型。

Attention函数是一个查询（query）到一系列（键key-值value）对的映射，如下图。Attention的本质就是加权。

attention 定义

Self-attention即K=V=Q，例如输入一个句子，那么里面的每个词都要和该句子中的所有词进行attention计算。目的是学习句子内部的词依赖关系，捕获句子的内部结构。

Multi-head attentionQuery，Key，Value首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。多头进行多次计算而不仅仅算一次的好处是可以允许模型在不同的表示子空间里学习到相关的信息。

优点：可以捕获长距离依赖关系

李宏毅老师的ppt 真的清楚

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

transformer

transformer 结构解读

rumer transformer 解读

encoder： 6 x （两个子层，第一个是多头注意力，第二层是FFN，FFN的作用就是空间变换。FFN包含了2层linear transformation层，中间的激活函数是ReLu。）add &norm 是残差+归一化。

decoder：Decoder端的Mask的功能是为了保证训练阶段和推理阶段的一致性。token是按照从左往右的顺序推理的。也就是说，在推理timestep=T的token时，decoder只能“看到”timestep < T的 T-1 个Token, 不能和timestep大于它自身的token做attention（因为根本还不知道后面的token是什么）。

**layer normalization **：通用技术，规范优化空间，加速收敛。始终保持左图的样子

**positional encoding：**位置编码是Transformer框架中特有的组成部分，补充了Attention机制本身不能捕捉位置信息的缺陷。

Positional Embedding的成分直接叠加于Embedding之上，使得每个token的位置信息和它的语义信息(embedding)充分融合，并被传递到后续所有经过复杂变换的序列表达中去。Positional Encoding(PE)是正余弦函数，位置(pos)越小，波长越长，每一个位置对应的PE都是唯一的。之所以选用正余弦函数作为PE，是因为这可以使得模型学习到token之间的相对位置关系：因为对于任意的偏移量k， [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YagVE4Hs-1629472899314)(https://www.zhihu.com/equation?tex=PE_%7Bpos%2Bk%7D)] 可以由 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dmujLu6P-1629472899316)(https://www.zhihu.com/equation?tex=PE_%7Bpos%7D)] 的线性表示：

多注意力:

实验结果：WMT2014的英德和英法机器翻译任务上

Google 论文的主要贡献之一是它表明了内部注意力在机器翻译（甚至是一般的 Seq2Seq 任务）的序列编码上是相当重要的，而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。

BERT论文

介绍视频

bert 使用代码详解博客

模型

bert 使用 Transfomer Encoder部分

框架：无标签文本上不同任务的预训练 + 初始化预训练参数后，基于下游任务的有标签数据上的finetune。

multi-layer bidirectional Transformer encoder。

BERTBASE (L=12, H=768, A=12,Total Parameters = 110M)。BERTLARGE (L=24, H=1024, A=16, Total Parameters=340M).

问题：每一层有什么用呢？有论文认为，浅层关注语法知识；深层关注语义知识。

对weighted sum的权重可视化分析：

WordPiece：数据预处理，把单词分成piece，精简词表、清晰。比如BPE方法：loved、loving、loves。“lov”,“ed”,“ing”,“es”。所以BERT的词表有30000个token，包括[CLS]对应的最后一层隐层输出作为聚合句子表示、[SEP]然后每个token有segment 嵌入，分辨属于A还是属于B。

输入encoder表示（长度512）：

WordPiece 嵌入[6]：WordPiece是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。例如图4的示例中‘playing’被拆分成了‘play’和‘ing’；【中文的字相当于piece】
位置嵌入（Position Embedding）：位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环。位置嵌入的具体内容参考我之前的分析；
分割嵌入（Segment Embedding）：用于区分两个句子，例如B是否是A的下文（对话场景，问答场景等）。对于句子对，第一个句子的特征值是0，第二个句子的特征值是1。

每一个token的表示 = corresponding token 嵌入 + segment embedding（句子a还是句子b） + 位置嵌入

深层双向模型【深层怎么理解？？】】

task 1：MLM

15%的wordpiece被随机mask，实验次数中的每个句子，有80%直接替换为[mask]，10%替换为其他任意单词，10%保留token，然后进行预测原始token的概率，交叉熵作为损失。

【消融实验如下】：如果全部mask，模型不含有词汇的信息了，所以100%mask的效果不好。

对于采样比例做的实验：基于特征的方法是，将BERT后四层的输出作为特征。【【【实验怎么做的？看代码】】】基于finetune的方法，就是加上MLP，预测token。

task 2 ：NSP

二分类预测，句子间的下一句关系。用[CLS]。

data：

BooksCorpus (800M words) 。English Wikipedia 的纯文本(2,500M words)。[着重指出需要长的连续的文本]

featured-based 和 finetuning 方法

https://zhuanlan.zhihu.com/p/46833276

feature-based ：

利用语言模型的中间结果也就是LM embedding, 将其作为额外的特征，引入到原任务的模型中，例如在TagLM[1]中，采用了两个单向RNN构成的语言模型，将语言模型的中间结果

引入到序列标注模型中，如下图1所示，其中左边部分为序列标注模型，也就是task-specific model，每个任务可能不同，右边是前向LM(Left-to-right)和后向LM(Right-To-Left), 两个LM的结果进行了合并，并将LM embedding与词向量、第一层RNN输出、第二层RNN输出进行了concat操作。

通常feature-based方法包括两步：

首先在大的语料A上无监督地训练语言模型，训练完毕得到语言模型
然后构造task-specific model例如序列标注模型，采用有标记的语料B来有监督地训练task-sepcific model，将语言模型的参数固定，语料B的训练数据经过语言模型得到LM embedding，作为task-specific model的额外特征

ELMo是这方面的典型工作，ha请参考[2]。

好处：1.仅仅transformer表达效果不够。2.在大型LM词表示的基础上进行训练，有很多好处，很大增益。（因为大型LM可以看作很好的初始化)。

finetune：

单个线性层+非线性函数输出（如softmax）。

token级

句子级别的判断，用[CLS]。

比较两者：

CoNLL-2003 Named Entity Recognition (NER) task

使用场景

case1：输入：句子；输出：类别情感分析、文章分类

输入句子，给定输出的标签，两部分一起学：线性分类层从头学，bert只需要微调（finetune）。

case2：输入：句子；输出：每一个单词的类别 slotfilling

case：输入：两个句子；输入：类别 NLI 句子关系推理：给定前提，假设对/错/无法判断

用CLS输入线性层进行分类

case5：抽取式问答输入：语段文件，问题；输出：答案的span（文段中的开始位置s、结束位置e）

[CLS]问题[SEP]文段，学习两个embedding【s和e】，将s、e分别和d中的token做注意力点积匹配，得到一个标量，再做softmax。图中s匹配的第二个位置分数最高，则第二个是答案开始。同理第三个位置是答案结束。答案span为d2d3。

learn from scratch指重新学，bert只需要finetune

编程

[PAD]：zero padding 遮罩，將長度不一的輸入序列補齊方便做 batch 運算。
[UNK]：沒出現在 BERT 字典裡頭的字會被這個 token 取代。

bert编码实践

embedding：1 token tensors 识别每个token的索引值，用 tokenizer 轉換即可；2.segments_tensor：用來識別句子界限。第一句為 0，第二句則為 1。另外注意句子間的 [SEP] 為 0。3. masks_tensor: 用來界定自注意力機制範圍。1 讓 BERT 關注該位置，0 則代表是 padding 不需關注。

[PAD]：輸入序列長短不一，為了讓 GPU 平行運算我們需要將 batch 裡的每個輸入序列都補上 zero padding 以保證它們長度一致。另外 masks_tensor 以及 segments_tensor 在 [PAD] 對應位置的值也都是 0。

每個藍色字體都對應到一個可以處理下游任務的模型，而這邊說的模型指的是已訓練的 BERT + Linear Classifier。

# 載入一個可以做中文多分類任務的模型，n_class = 3
from transformers import BertForSequenceClassification

PRETRAINED_MODEL_NAME = "bert-base-chinese"
NUM_LABELS = 3

model = BertForSequenceClassification.from_pretrained(
    PRETRAINED_MODEL_NAME, num_labels=NUM_LABELS)

clear_output()

# high-level 顯示此模型裡的 modules
print("""
name            module
----------------------""")
for name, module in model.named_children():
    if name == "bert":
        for n, _ in module.named_children():
            print(f"{name}:{n}")
    else:
        print("{:15} {}".format(name, module))

一行程式碼就初始化了一個可以用 BERT 做文本多分類的模型 model。我也列出了 model 裡頭最 high level 的模組，

包括：bert 的embedding模块；encoder ；一个[CLS]在所有层的表示的BertPooler。dropout层；回传3个类别的线性分类器 classifier：因为是句子分类任务，所以将CLS的表示做一个线性变换。

bert 能力总结：

BERT的encoder框架很适合做自然语言理解NLU任务，但是如文章摘要等自然语言生成任务NLG，不太适合。抽取式摘要：BertSum 在 CNN/Dailymail 取得 SOTA 的研究。
UniLM通过注意力[MASK]可以在预训练阶段同时训练3种语言模型，针对finetune NLG任务。
最近最好的NLP模型是XLNet，但是花费很多。
巨人脊髓已经掌握了，我们墙外见吧。

bert family

PTMs的分类标准：

表示类型：上下文无关和上下文相关；
架构：LSTM （例如ELMo), Transformer的encoder (例如BERT)，Transformer的Decoder （例如GPT)，以及同时使用Transformer的Encoder和Decoder （例如, Seq2Seq MLM)。
预训练任务类型，如传统自回归LM，Masked-LM，Permuted-LM, DAE, CTL, 等。
扩展：例如，知识强化的PTMs，多语言或者单语言PTMs，多模态PTMs，特定领域PTMs(例如Healthcare, Finance等），以及压缩PTMs。

albert的参数比bert小，但是效果比bert稍微好一点。

ELMO：94m

双向的LSTM，正逆向的模型没有交会。任务是预测下一个token。无法同时编码双向的信息。

最大化前&后向似然函数。前后向网络共享参数（embedding 的X 和LSTM的S）

嵌入由所有层【原始token+第一层lstm+第二层lstm】的前向后向加权sum，然后作为任务模型的输入。其中这个权重是和任务模型一起由任务学出来的（task-specific）。

ERNIE：为中文设计。wwm

在bert基础之上引入外部知识图谱的信息，增强模型对于专有名词的解释。文本编码层和知识信息混合编码层进行融合。类似模型：K-BERT，knowBERT。

在信息抽取等一些需要知识信息的任务上有提升。

GPT-2：1542m 非常巨大

架构就是transformer 的decoder，从左到右由已生成的输出。

神迹：zero-shot 不需要训练资料可以达到任务高准确率。

阅读理解很好，文本摘要很差。生成任务很好！

可视化分析：

demo：只用了小版本的GPT2 （大概和bert 差不多）大的GPT2没放出来。https://app.inferkit.com/demo

multilingual BERT：104种语言

学会了语言的对应关系。自动可以将不同语言的任务进行迁移。

语言模型

三种预训练语言模型的类型：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xonmwyZc-1629472899326)(C:\Users\朱朱\AppData\Roaming\Typora\typora-user-images\image-20210613230714602.png)]

不同预训练语言模型的任务

LM = 自回归语言模型, auto-regressive language models
MLM = 遮掩语言模型，masked language models
Seq2Seq MLM=序列到序列的遮掩语言模型，Sequence-to-Sequence Masked Language Model;
PLM = Permutated language model, 重新排列语言模型
DAE = 去噪自编码器，denoising auto-encoder
DIM = Deep InfoMax，深度-信息-最大化？不好翻译
NSP/SOP=next sentence prediction, sentence ordering prediction, 下一个句子预测，句子顺序预测；
RTD = replaced token detection, 被替换掉的token的检测

2维位置编码：

对于自回归模型，将分类任务转化为生成任务。

[RoBERTa] (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

动态mask改进BERT
XLMs

跨语言语言模型，在双语序列上执行MLM。对翻译任务，把双语的两句话通过[sep]连接输入，进行MLM。
spanBERT

**相对于bert的改进：**去掉NSP任务：albert中说明NSP任务太简单，只学会了top的信息。

1 span masking：没有segment embedding ；预测一个范围span内的所有的token，而不是随机选择若干相对独立、不连续的tokens。

2 MLM+SBO ：**span-SBO **Span Boundary Objective：编码信息有：左边嵌入、右边嵌入、数字（预测第几个位置）。假设：左右两边的token能包含整个span的资讯。

loss：mask位置的loss -log（true token|LM 在该位置输出的token）加上SBO的loss：-log(true token| 左边界嵌入，右边界词嵌入，对应位置的输出)

span 选择：概率分布的期望

wwm：一次掩盖一整个word，预测wwm。phrase-level、entity-level：ERNIE。spanbert：一次随机选举长度的token序列。spanbert比较了不同的。

pretrain 的方式会有特定表现好的几个任务。

引入语言的结构信息

structBERT：类似DAE的思想

将word-objective 和 MLM-objective联合训练。“word-objective”:给定一个被打乱顺序的序列，尝试预测每个被移位的词的原始正确的位置。
XLNet

XLNet：transformer-XL ！！Permuted Language Modeling (PLM)：随机mask会导致整个词的token是独立的。方法：打乱语料的token顺序，不给看mask，但是给mask的位置。对一个输入序列构造所有可能的全排列，然后选择其中一个全排列，此后，该全排列中的若干词被选择为target，而模型被训练为预测这些targets, 基于的是：剩余的tokens以及targets的原始的正确的位置信息。【主要是预测的顺序改变】

首先说BERT：

bert不擅长生成任务？不适合seq2seq的任务【因为是mask训练的，所以只适合当encoder，decoder就不合适】，不适合autoregressive （自回归）任务

MASS/BART：seq2seq结构的目标：重构句子结构（破坏的句子——原始句子）

MASS：随机mask（mass）/

bart：自监督的训练任务。训练端到端的模型

删除 / 旋转/打乱/text infilling（插入多个mask，或者掩盖多个token，模型自己猜）还原mask的地方。旋转和打乱效果不好。text infilling效果好。

既解决文本理解任务，也解决文本生成任务。

T5：将下游任务统一为类似生成任务。基于海量数据（C4）进行训练，相较于BART 更为强悍（鲁棒）。

MoE：混合多个专家的处理能力，共同执行任务。增长参数但是不增长计算量。expert为一个模型，多个专家共同解决问题，基于可信度构成结果。

MoE +lstm (google)

switch transformer 万亿。模型的系数程度变高，空心的。性能不如同样参数量的实心模型，但是比小的实心模型效果好。

UniLM:既是编码也是解码，可以同时进行三种训练。但是有一些规则。

ELECTRA：不做预测，回答二分类问题。不做mask，而是置换成其他的token，预测有没有被置换。每一个token都有error 。训练数据集：smallBERT产生语法没有问题，语义怪怪的问题的句子。再输入ELECTRA来判别。有点像GAN。

GLUE结果：

运算量越来越多，效果越来越好。ELECTRA需要四分之一的参数，但是效果好。

sentence 嵌入：skip-thought 预测下一个句子的任务。quick-thought：避开生成，用嵌入的距离来衡量。

[CLS]：NSP:用cls来做nsp任务，二分类（需要cls向量有全句子的理解）。

roberta：nsp没有用。数据集相当于扩大。效果比bert好，说明bert当时还没收敛。

SOP sentence order prediction : 一对句子的顺序说yes or no。ALBERT。sop任务比nsp更难。

structBERT：（alice）有类似SOP的任务。

albert：12层参数共享，效果降低不大，但是参数大大降低。

T5：谷歌，把预训练的所有方法尝试了。其中C4是模型。

ERNIE：加入外部知识

audio-bert

如何产生好的词向量：模型、语料、参数

模型: 简单的模型（Skip-gram）在小语料下表现好，复杂的模型在大语料下略有优势。（不过现在都是bert）

语料：语料的领域比语料的大小更重要。

参数：迭代次数和词向量的维度。

师兄分析了很多实验的对比。我学到的：设定任务来选择最好的词向量，不如直接根据下游任务，设计和下游任务一致的目标，直接把实际任务的验证集作为终止条件。同时

那如果词向量和下游探测任务相关度这么大，

prompt tuning

假设：模型已经足够聪明，只是诱导的方式不够好。

方式：加入 prompt，it was ____（预测)

PET:pattern-exploiting training

人工定义多个模板，转化为MLM的问题，多个模板训出的模型之间ensemble（同时的）。

autoprompt

自动构建的模板效果不如手动构建的。

类似于梯度的在离散的空间搜索，但是效果比LAMA和LPAQA要好。

思考：能否放到连续空间取搜索最优解。

P-tuning：连续空间搜索最优解

连续：将离散的词变为可以学习的连续的向量。 64.2%

learning how to ask 自动模板的分析

GPT understand，too ：构建模板加入GPT,在理解任务上的性能甚至好于bert

PTR ：用rules 构建prompt

谷歌的工作:随机扔进token ，自动学模板，在模型很大时学到的效果很好。

P-tuning （插入连续向量）预训练语言模型与小样本理解

想法：GPT在NLU任务上表现不佳

是都是因为finetune 不适合GPT
是都是仅仅因为基于embedding的分类方法不适合GPT

GPT在生成任务上： stanford

在transformer的每一层插入连续的向量，可以独立训练的，超过finetune的效果

几乎都超过finetune

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qrTpxMhk-1629472899327)(C:\Users\朱朱\AppData\Roaming\Typora\typora-user-images\image-20210613224348111.png)]

super-glue 上的验证

P-TUNING之后，GPT 的效果立马超过bert。对于bert也有少量的提升。

bert在大量参数的情况下的问题：百亿参数情况下没法finetune；会出现很强的不稳定性。

所以提升GPT在理解上的能力提升很有意义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F2iPbJAk-1629472899329)(C:\Users\朱朱\AppData\Roaming\Typora\typora-user-images\image-20210613224508974.png)]

构造更小的小样本测试集。 p-tuning 都远超pet。

p-tuning 相对于人工模板的优点：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z5yFxnjF-1629472899331)(C:\Users\朱朱\AppData\Roaming\Typora\typora-user-images\image-20210613225131768.png)]

超大模型finetune的代价太大。但是p-tuning的参数需要的很少。

finetune 在模型参数增加之后慢慢达到饱和，但是p-tuning 始终线性增长。百亿效果差相当了。因为p-tuning的参数需要量很少。

华为的盘古千亿模型采取的p-tuning的方式进行下游迁移。

问题：对于不同scale模型的参数选择：向量输入prompt-encoder（LSTM：处理序列+提供很好的非线性性），不同任务表现不一样。token数量：lama个位数（9/8）。super-glue。大参数的模型需要一百多个token。

【稳定性】搜的sead 足够多，模型能够得到足够的提升。

probing

大模型知识含量是很高的【论文呢？？？？？】

大模型知识量够了，重要的是【诱导】模型发挥效果。

CPM 盘古等中文模型，怎样控制输出的随机性：微调可以实现一定的可控。需要具体的任务输入引导。

预训练模型做理解任务（分类）效果比较好，但是做生成任务效果不好（需要加额外的东西，没有逻辑）。

finetune 在模型参数增加之后慢慢达到饱和，但是p-tuning 始终线性增长。百亿效果差相当了。因为p-tuning的参数需要量很少。

华为的盘古千亿模型采取的p-tuning的方式进行下游迁移。

【稳定性】搜的sead 足够多，模型能够得到足够的提升。

probing

大模型知识含量是很高的【论文呢？？？？？】

大模型知识量够了，重要的是【诱导】模型发挥效果。

CPM 盘古等中文模型，怎样控制输出的随机性：微调可以实现一定的可控。需要具体的任务输入引导。

预训练模型做理解任务（分类）效果比较好，但是做生成任务效果不好（需要加额外的东西，没有逻辑）。

你可能感兴趣的:(BERT and beyond)

分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
Lily的Scalers Talk第八轮新概念朗读持续力训练Day219 2023-07-06 草木Lily
Lesson14-1TheButterflyEffectBeyondtwoorthreedays,theworld'sbestweatherforecastsarespeculative,andbeyondsixorseventheyareworthless.TheButterflyEffectisthereason.Forsmallpiecesofweather--andtoaglobalfor
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
在美国，现在有超过10万台atm机允许你用借记卡购买比特币麦田财经
在美国，通过普通自动取款机购买比特币已经成为现实。这一进展预示着Genmega和LibertyX之间最近的合作关系。通过这种合作，人们可以用借记卡从多台atm机上购买比特币。通过ATM机使用借记卡购买比特币“金融时报”2018年10月15日(星期一)发布的一份新闻稿显示，该国所有的Genmega自动取款机现在基本上都是比特币自动取款机。在合作的基础上，Genmega自动取款机现在将提供Freety
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
敏捷史话（六）：也许这个人能拯救你的代码 —— Robert C. Martin 敏捷初级运动员
本文摘自敏捷开发。RobertC.Martin（罗伯特·C·马丁），作为世界级软件开发大师、设计模式和敏捷开发先驱、C++Report杂志前主编，也是敏捷联盟（AgileAlliance）的第一任主席，我们尊称他为“Bob大叔（UncleBob）”。如今，年逾六十的Bob大叔过着典型的“斜杠”生活，他不仅是优秀的程序员、畅销书作家、演讲家，以及视频制作者，还是一名柔术爱好者。多年学习柔术的经历，带
[学习] Hilbert变换：从数学原理到物理意义的深度解析与仿真实验（完整实验代码）极客不孤独学习概率论信号处理 python 数学建模
Hilbert变换：从数学原理到物理意义的深度解析与仿真实验文章目录Hilbert变换：从数学原理到物理意义的深度解析与仿真实验一、数学原理二、作用与物理意义1.构造解析信号2.相位移动特性3.应用场景三、仿真实验实验1：正弦信号的Hilbert变换实验2：调幅信号的Hilbert变换四、结论Hilbert变换是信号处理领域中一项经典而强大的工具，广泛应用于瞬时频率分析、调制解调、相位提取等场景。
高效对接全球车企：知行之桥满足科伯舒特Kromberg & Schubert EDI核心需求
科博舒特(Kromberg&Schubert,K&S)是德国顶尖的汽车线束系统供应商，服务于全球各大知名车企。作为其供应商，满足K&S严苛的EDI要求是实现高效合作、进入其全球供应链的关键环节。知行之桥EDI系统专为应对此类挑战设计，本文将详细解析K&S的核心EDI需求，并展示知行之桥如何提供稳定、高效、自动化的对接方案，助力供应商轻松达标。Kromberg&SchubertEDI项目目标与K&S
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
BeyondCompare绿色破解版，文件对比神器我天哪
鸡哥今天分享的这个绿色软件BeyondCompare能够对比两个看起来一样的文件的不同支持，就是一个文件对比工具，能够对比出两个文件的每一个字节的不同之处并且用不同颜色加以标注，使用起来非常方便，还能制定规则！本版介绍*基于官方简体中文版便携式制作*绿色便携，无需安装*数据保存至根目录*绿色版可选添加右键资源管理器菜单*单文件无右键扩展*集成专业版永久授权密钥*去主界面首页下方广告横幅*完全禁止自
HW prefetcher之CDP(Content-Directed Data Prefetching) Chip Design xPU Chip Design CPU GEM5
CDP是Content-DirectedDataPrefetching的缩写，它基于RobertCooksey和StephanJourdan提出的"Stateless,Content-DirectedDataPrefetchingMechanism"论文实现。是一种内容导向的数据预取机制，CDP通过分析内存中的数据内容来识别可能的指针，当识别到指针时，它会预取指针指向的内存地址。CDP使用VPN表
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
新型BERT勒索软件肆虐：多线程攻击同时针对Windows、Linux及ESXi系统
趋势科技安全分析师发现，一个代号为BERT（内部追踪名WaterPombero）的新型勒索软件组织正在亚洲、欧洲和美国展开多线程攻击。该组织主要针对医疗保健、科技和会展服务行业，其活动范围显示其正成为勒索软件生态中的新兴威胁力量。攻击技术分析在Windows系统中，BERT通过PowerShell加载器（start.ps1）实施攻击，该脚本会执行以下操作：禁用WindowsDefender防火墙和
Ntfs!LfsReadRestart函数和Ntfs!_LFCB-＞LogHeadBuffer的关系 sitelist nt4源代码分析 LfsReadRestart LogHeadBuffer RESTART_PAGE_HE RT_PAGE_HEADER
Ntfs!LfsReadRestart函数和Ntfs!_LFCB->LogHeadBuffer的关系第0部分：////RememberthislogfileintheLfcb.//ThisLfcb->FileObject=LogFile;SetFlag(ThisLfcb->Flags,(LFCB_READ_FIRST_RESTART|LFCB_READ_SECOND_RESTART));if(Lf
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
量子计算的数学地基：解码希尔伯特空间的魔法牧之112 量子计算
在科技圈，“量子计算”早已不是陌生的名词。从谷歌的“量子霸权”实验到IBM的量子云服务，从药物研发的分子模拟到密码学的革命性突破，量子计算正以颠覆式的姿态重塑着人类对计算的认知。但在这些令人惊叹的应用背后，藏着一个关键的数学基石——希尔伯特空间（HilbertSpace）。它像一片隐形的“量子舞台”，支撑着量子比特的叠加、纠缠与计算，是理解量子计算本质绕不开的概念。一、从“普通空间”到“量子空间”
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
python transformers库笔记（BertForTokenClassification类）夏末蝉未鸣01 自然语言处理 python transformer 自然语言处理
BertForTokenClassification类BertForTokenclassification类是HuggingFacetransformers库中专门为基于BERT的序列标注任务（如命名实体识别NER、词性标注POS）设计的模型类。它在BERT的基础上添加了一个线性分类层，用于对每个token进行分类。1、特点任务类型：专为Token-level分类设计，即对输入序列中的每一个tok
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
SEO优化技巧深度解析：从算法逻辑到实战策略的全链路突破 boyedu 网站建设网站建设网站运营网站架构
第一章搜索引擎算法逻辑：SEO优化的底层密码1.1算法进化史：从关键词匹配到意图理解搜索引擎算法经历了从简单关键词匹配到复杂语义理解的跨越式发展。早期算法以PageRank为核心，通过分析网页间链接关系评估权威性。随着Hummingbird算法的推出，搜索引擎开始解析自然语言，BERT算法进一步实现上下文语义理解。当前算法已形成多维度评估体系，涵盖内容质量、用户体验、权威性建设等层面。以Googl
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
03每日简报20250705 Alvin_YD 每日简报人工智能娱乐社交电子媒体传媒
每日简报新闻简报：AI行业信任危机浮现标题：知名科技作者AlbertoRomero发文《我对AI行业正在失去所有信任》来源：TheAlgorithmicBridge（算法之桥）核心内容：作者立场：长期支持AI技术的作者AlbertoRomero公开表达对行业信任的崩塌，称"作为一个支持者，我本不愿有这种感受"。行业痛点：未具体说明的行业乱象导致公众信任度下降暗示AI发展过程中存在伦理或透明度问题传
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

BERT and beyond

BERT

背景前言

注意力机制-transformer

seq-seq 的encoder -decoder模型

attention is all your need

李宏毅老师的ppt 真的清楚

transformer

BERT论文

模型

task 1：MLM

task 2 ：NSP

data：

featured-based 和 finetuning 方法

**feature-based **：

finetune：

比较两者：

使用场景

case1：输入：句子； 输出：类别 情感分析、文章分类

case2：输入：句子 ；输出：每一个单词的类别 slotfilling

case：输入：两个句子；输入：类别 NLI 句子关系推理：给定前提，假设对/错/无法判断

case5：抽取式问答 输入：语段文件，问题；输出：答案的span（文段中的开始位置s、结束位置e）

编程

bert编码实践

bert 能力总结：

bert family

ELMO：94m

ERNIE：为中文设计。wwm

GPT-2：1542m 非常巨大

multilingual BERT：104种语言

语言模型

prompt tuning

PET:pattern-exploiting training

autoprompt

P-tuning：连续空间搜索最优解

learning how to ask 自动模板的分析

GPT understand，too ：构建模板加入GPT,在理解任务上的性能甚至好于bert

PTR ：用rules 构建prompt

P-tuning （插入连续向量）预训练语言模型与小样本理解

probing

probing

你可能感兴趣的:(BERT and beyond)

feature-based ：

case1：输入：句子；输出：类别情感分析、文章分类

case2：输入：句子；输出：每一个单词的类别 slotfilling

case5：抽取式问答输入：语段文件，问题；输出：答案的span（文段中的开始位置s、结束位置e）