zakexu

从语言模型到XLNet的知识点笔记

文章目录

前言
一、LM
二、RNN vs LSTM

（一）RNN
（二）LSTM
（三）GRU
（四）RNN网络的基本应用

三、Attention Mechanism
四、Transformer
五、TransformerXL
六、Pretrain + Finetune Pipeline

（一）ELMo
（二）GPT
（三）BERT
（四）GPT2.0
（五）XLNet

总结
作者简介
参考文献

前言

前段时间一直在忙产品上线的事情，对于NLP领域的新宠“Pretrain+Finetune”范式以及BERT、XLNet等模型都是零零散散的了解，很多细节一知半解，趁着这几天有些时间，索性把相关的paper都从头看一遍，加深理解。大规模Pretrain加小规模Finetune其实并不是最近才有的Pipeline，几年前在CV领域已被提出并证实其在Transfer方面的效果。但CV领域的Pretrain是基于大规模的监督数据，而在NLP领域，标注数据是非常稀缺的，因此才一直不愠不火。直到BERT的推出，基于非监督语言模型的Pretrain才逐渐火爆（毕竟无监督的语料数据太容易获得了），因此笔者就从LM开始，把最近一些前沿的重点工作做下简单的总结，也算是做下笔记加深印象。

一、LM

语言模型（Language Model，LM）是一个非常基础的概念，在自然语言处理的各项任务中起到极其重要的作用。同时对于后续知识点的掌握是一个不可或缺的储备，因而文章的开头还是先简单熟悉一下LM。

1、定义：对于长度为 $n$ 的语言序列 $w_1,w_2,...,w_n$ ，其语言模型指的就是该语言序列的共现概率，也就是联合概率分布 $p(w_1,w_2,...,w_n)$ 。

2、概率计算：根据贝叶斯链式法则，语言模型的联合概率分布可以拆解为： $p(w_1,w_2,...,w_n)=p(w_1)*p(w_2|w_1)*p(w_3|w_1,w_2)...p(w_n|w_1,w_2,...,w_{n-1})$ 其模型参数 $p(w_i|w_1,w_2,...,w_{i-1})$ 通过极大似然估计可得： $p(w_i|w_1,w_2,...,w_{i-1})=\frac{count(w_1,w_2,...,w_{i-1},w_i)}{\sum_w count(w_1,w_2,...,w_{i-1},w)}$ 上述的参数计算方式有两个明显的缺点：

计算量大：假设训练语料中字典大小为 $V$ ，语言序列长度最长为 $n$ ，语言序列中的 $w_i$ 都来自字典，那么模型参数量级为 $V^n$ ，也就是意味着模型参数量会随着语言序列长度的增长而指数级暴增。
数据稀疏：由于整个模型的参数量级为 $V^n$ ，根据似然估计的计算方式，一般的训练语料中，会出现大量的参数为0的情况（一般的训练语料很难覆盖到所有的 $w_1,w_2,...,w_n$ ）。

3、N-gram模型：为了解决上述参数量大而带来的计算问题，引入了马尔科夫假设，也就是任意一个当前词 $w_i$ 出现的概率，只跟其上文的前 $N - 1$ 个词有关，这样的模型就称为N-gram模型。一般 $N$ 的取值为1、2、3，分别对应unigram、bigram、trigram模型；以bigram为例，其概率模型可以表示为： $p(w_1,w_2,...,w_n)=\prod_{i=1}^n{p(w_i|w_{i-1})}$ 当 $i = 1$ 时， $w_0$ 一般用 $< S >$ 表示，代表起始符。通过上述概率模型的表述，可以看出模型的参数量级从 $V^n$ 降为 $V^2$ 。但是N-gram模型依然会面临OOV问题，也就是测试集存在训练集未出现的词。为了解决OOV问题，还需要在N-gram模型中引入平滑技术，以最常见的加法平滑为例，其模型参数可以表示为： $P(w_i|w_{i-1})=\frac{ count(w_{i-1}，w_i) + \lambda}{\sum_wcount(w_{i-1},w) + \lambda\vert V \vert}$ 其中 $\lambda$ 表示平滑因子， $\vert V \vert$ 表示字典大小，这样子就可以保证模型参数不为0。

4、基于神经网络的语言模型（Neural Network Language Model，NNLM）：上述的N-gram本质上是基于统计频次的模型，缺乏泛化能力。而基于神经网络的语言模型赋予每个词向量化的能力，丰富其表征能力，从而提高模型泛化的能力以及避免OOV带来的影响。如图1所示就是基于前向神经网络的语言模型。

图1：基于前向神经网络的语言模型

5、语言模型的评价指标：perplexity（困惑度）

在信息论中，一般采用相对熵来衡量两个分布之间的相似度。对于随机变量 $X$ ，其熵、交叉熵以及相对熵的定义如下：
$H(p)=-\sum_i{p(x_i)logp(x_i)}$ $H(p,q)=-\sum_i{p(x_i)logq(x_i)}$ $D(p||q)=H(p,q)-H(p)=\sum_i{p(x_i)logp(x_i)/q(x_i)}$ 其中 $p$ 是样本的真实分布， $q$ 是模型的预测分布。
对于语言模型而言，计算相对熵评测其模型效果时， $H (p)$ 是一个固定不变的值（真实分布唯一），因此可以用 $H (p ， q)$ 来衡量两个分布之间的相似度。对于样本的真实分布可以表示为：

模型的预测分布可以表示为 $q(w_i|w_1,w_2,...,w_{i-1})$ ，因此，对于语言序列 $w_1,w_2,...,w_n$ ，语言模型得到的交叉熵可以表示为： $H(p,q)=-\sum_w{p(w)logq(w)}\\=-\frac{1}{n}\sum_{i=1}^n(\sum_wp(w|w_1,w_2,...,w_{i-1})logq(w_i|w_1,w_2,...,w_{i-1}))\\=-\frac{1}{n}\sum_{i=1}^n(1*logq(w_i|w_1,w_2,...,w_{i-1})+\sum_{w\neq w_i}0*logq(w_i|w_1,w_2,...,w_{i-1}))\\=-\frac{1}{n}\sum_{i=1}^nlogq(w_i|w_1,w_2,...,w_{i-1})\\=-\frac{1}{n}log\prod_{i=1}^nq(w_i|w_1,w_2,...,w_{i-1})\\=-\frac{1}{n}logq(w_1,w_2,...,w_n)$ perplexity的定义： $perplexity=2^{H(p,q)}=(q(w_1,w_2,...,w_n))^{-1/n}=\sqrt[n]{\frac{1}{q(w_1,w_2,...,w_n)}}$ 对于语料库中的语言序列 $w_1,w_2,...,w_n$ 来说，其perplexity越小代表通过语言模型计算得到这个序列的概率越高，也代表语言模型对语料库的拟合越好。

二、RNN vs LSTM

（一）RNN

1、自然语言处理本质上属于序列问题，循环神经网络（Recurrent Neural Network，RNN）就是为了解决序列问题而被提出的。相比传统的DNN或者CNN网络，它的优势在于：

可以更加便捷地学习到足够长的上文信息；在语言模型的学习过程中，N-gram模型随着 $N$ 的变大会带来模型参数量级的指数增长，而RNN可以很好地解决这个问题，理论上可以获得上文所有序列的信息。
可以适应序列数据不定长输入的特点；在自然语言处理的任务中，输入的序列通常都是不定长的，而传统的DNN跟CNN输入输出都是固定维度的。

2、定义：给定一个长度为 $t$ 的输入样本 $x_0,x_1,x_2,...,x_t$ ，其在 $t$ 时刻对应的模型输入是 $x_t$ （注意： $x_t$ 是一个向量），该时刻的隐层状态 $h_t$ 是由当前时刻模型的输入 $x_t$ 跟上一时刻模型的隐层状态 $h_{t-1}$ 所决定的。对于每个时刻的模型输出 $O_t$ 则由当前时刻的隐藏状态 $h_t$ 所决定。具体如图2所示。其中 $A$ 代表单个时刻的网络模型，每个时刻的网络模型参数是共享的。从图中可以看出，对于不定长的输入，RNN可以通过横向扩展网络结构来训练，而由于横向的网络模型参数是共享的，所以这种结构天然适合不定长的序列任务，也是RNN的核心思想。

图2：RNN示意图

3、RNN的前向传播

对于 $t$ 时刻，假设输入为 $x_t$ ，那么隐层状态为： $h_t=\phi(Ux_t +Wh_{t-1} + b)$ 其中 $U$ 为输入到隐层的权重参数矩阵， $W$ 为相邻时刻隐层间的权重参数矩阵（也叫自循环参数矩阵）， $b$ 是偏置参数， $\phi$ 是激活函数。最终模型的输出就是： $O_t=\sigma(Vh_t+c)$ 其中 $V$ 是隐层到输出层的权重参数矩阵， $c$ 是偏置参数， $\sigma$ 是激活函数。以上列举的模型参数 $U, W, V, b, c$ 是所有时刻共享的。

4、RNN的反向传播

RNN的损失函数一般采用交叉熵，对于时刻 $t$ ，交叉熵定义如下： $L_t=-\frac{1}{m}\sum_{i=1}^my_t^ilog(O_t^i)$ 其中 $m$ 表示样本的数量， $y_t^i$ 表示第 $i$ 个样本第 $t$ 时刻的真实输出， $O_t^i$ 表示第 $i$ 个样本第 $t$ 时刻的实际输出，因此总的损失函数如下： $L=\sum_tL_t$ 定义了损失函数，就可以通过梯度下降法来训练RNN模型。梯度的计算采用的是BPTT（Back Propagation Through Time）。对于 $V$ 的梯度，计算比较简单： $\frac{\partial{L_t}}{\partial{V}}=\frac{\partial{L_t}}{\partial{O_t}}\frac{\partial{O_t}}{\partial{V}}$ 而对于 $U, W$ 的梯度，相对比较复杂，需要沿着时间轴反向传播： $\frac{\partial{L_t}}{\partial{U}}=\sum_{i=1}^t\frac{\partial{L_t}}{\partial{O_t}}\frac{\partial{O_t}}{\partial{h_t}}(\prod_{j=i+1}^t\frac{\partial{h_j}}{\partial{h_{j-1}}})\frac{\partial{h_i}}{\partial{U}}$ $\frac{\partial{L_t}}{\partial{W}}=\sum_{i=1}^t\frac{\partial{L_t}}{\partial{O_t}}\frac{\partial{O_t}}{\partial{h_t}}(\prod_{j=i+1}^t\frac{\partial{h_j}}{\partial{h_{j-1}}})\frac{\partial{h_i}}{\partial{W}}$ 通过上述梯度的公式可以看出，随着序列长度的扩展，梯度会由于小数的累乘而变得接近于0，那么就会出现梯度弥散问题，因此RNN一般也就适用于序列长度比较短的场景。为了克服RNN在长依赖上的缺点，LSTM模型被提出。

（二）LSTM

1、定义：LSTM即Long Short Memory Network，是为了克服RNN在长期依赖问题上的缺陷而被提出，属于RNN的一种变种，通过一堆门控单元来对历史信息进行选择性地传递或者遗忘，从而有效地捕捉上文信息。

图3：RNN vs LSTM

2、LSTM的前向传播

单元状态流

图4：LSTM cell state示意图

单元状态流可以理解为LSTM的记忆流水线，上面存储着LSTM对上文信息的提取记忆。主要是通过遗忘门、输入门以及输出门来管控。

遗忘门

图5：LSTM遗忘门

如图所示， $h_{t-1}$ 表示上一个时刻的隐层状态， $x_t$ 表示 $t$ 时刻的输入（注意： $x_t$ 是一个向量）， $W_f$ 表示遗忘门权重参数（该权重参数可以拆分为两个权重参数矩阵，分别对应输入状态跟上一个时刻隐层状态）， $b_f$ 表示遗忘门偏置参数， $\sigma$ 表示sigmoid激活函数，这样子可以确保遗忘门输出 $f_t$ 是一个0到1之间的数值，这个数值决定有多少历史信息需要遗忘。1表示完全保留，0表示完全舍弃。

输入门

图6：LSTM输入门

如图所示， $W_i$ 表示输入门权重参数， $b_i$ 表示输入门偏置参数， $\sigma$ 表示sigmoid激活函数，这样子可以确保输入门输出 $i_t$ 是一个0到1之间的数值，这个数值决定有多少输入信息需要记忆。1表示完全保留，0表示完全舍弃。 $W_C$ 表示权重参数， $b_C$ 表示偏置参数， $\tanh$ 表示激活函数，输出值 $\tilde{C_t}$ 表示当前时刻流向单元状态的值。输入门控制的就是有多少 $\tilde{C_t}$ 流入单元状态。

图7：单元状态流更新示意图

根据图7可以看出，最终单元状态保存的信息就是通过对上一个时刻的状态信息 $C_{t-1}$ 进行选择性遗忘，对当前时刻的输入单元状态信息 $\tilde{C_t}$ 进行选择性保留，从而组成当前时刻的最终的单元状态信息 $C_t$ 。

输出门

图8：LSTM输出门

如图所示， $W_O$ 表示输出门权重参数， $b_O$ 表示输出门偏置参数， $\sigma$ 表示sigmoid激活函数，这样子可以确保输出门输出 $O_t$ 是一个0到1之间的数值，这个数值决定有多少输出信息需要记忆。1表示完全保留，0表示完全舍弃。

（三）GRU

GRU（Gated Recurrent Unit）是LSTM的变种，LSTM具有3个门（输入门、输出门、遗忘门），而GRU只有2个门（更新门、重置门），并且GRU也抛弃了单元状态的概念，由于GRU的模型参数变少，所以训练时候更好收敛。

图9：GRU示意图

如图所示， $r_t$ 表示重置门， $z_t$ 表示更新门。

（四）RNN网络的基本应用

1、N vs N

图10：RNN N vs N

如图所示，输入输出等长。典型的应用场景有：序列标注、语言建模（输入一般是 $S,w_1,w_2,...,w_n$ ，输出则是 $w_1,w_2,...,w_n,E$ ，这就是典型的char RNN）等。

2、N vs 1

图11：RNN N vs 1

如图所示，输入是一个序列，输出则是单个时刻的向量，后面再接个softmax分类器。典型的应用场景有：文本分类、情感分析等。

3、1 vs N

图12：RNN 1 vs N 、

如图所示，输入是单个时刻的向量，输出则是一个序列。典型的应用场景有：图像生成文字等。

4、N vs M

图13：RNN N vs M

如图所示，输入输出可以是不等长序列，该模型先是将输入序列编码成一个上下文向量，然后根据上下文向量解码成一个不等长的输出序列，因此该结构也叫encoder-decoder结构，也叫seq2seq模型。典型的应用场景有：
机器翻译、文本摘要、语音识别、阅读理解（输入是文章内容以及问题，输出是问题对应的回答）。

三、Attention Mechanism

上文已经介绍了seq2seq的模型结构，该网络结构在处理序列到序列的任务中应用非常广泛。但其存在2个明显不足的问题：

encoder将所有的输入序列信息压缩到固定维度的上下文向量 $C$ 中，很显然是存在信息的有损压缩的，尤其是当输入序列长度过长的情况下。
decoder在解码的时候，每一个时刻的上下文向量 $C$ 是固定不变的，但在实际情况中，decoder端某个时刻往往只对应encoder端的某几个时刻的序列值，而不是所有时刻。举个例子，在机器翻译中，对于样本对“我爱中国——I Love China”，输出序列的“China”其实只跟输入序列的“中国”有关。

因此，为了解决上述存在的问题，Attention Mechanism（AM）被提出。

1、Attention机制

图14：attention机制

如图所示，对于decoder，定义条件概率如下： $p(y_t|y_1,y_2,...,y_{t-1},X) = g(y_{t-1},s_t,c_t)$ 其中 $s_t$ 表示decoder在 $t$ 时刻的隐层状态， $c_t$ 表示decoder在 $t$ 时刻的上下文向量。对于 $s_t$ 可以表示如下： $s_t = f(s_{t-1},y_{t-1},c_t)$ 其中 $c_t$ 表示如下： $c_t= \sum_{k=1}^T\alpha_{tk}h_k$ 其中 $t$ 表示decoder第 $t$ 个时刻， $h_k$ 表示encoder的第 $k$ 个时刻的隐层状态， $\alpha_{tk}$ 表示decoder的第 $t$ 个时刻跟encoder的第 $k$ 个时刻的权值，可以理解为是源端第 $k$ 个词对目标端第 $t$ 个词的影响程度， $\alpha_{tk}$ 的计算如下： $\alpha_{tk}=\frac{exp(e_{tk})}{\sum_{k=1}^Texp(e_{tk})}$ $e_{tk}=score(s_{t-1},h_k)$ $e_{tk}$ 是一个对齐模型，用于衡量encoder端第 $k$ 个位置的词，对于decoder端第 $t$ 个位置的词的对齐程度（影响程度）。对齐模型 $e_{tk}$ 最常见的就是点乘 $score(s_{t-1},h_k) = s_{t-1}^Th_k$ 。

2、Self-Attention

传统的Attention机制是根据encoder端跟decoder端的隐层状态来计算Attention Score的，得到的结果是源端跟目标端之间词与词的依赖关系。但Self-Attention是分别在encoder跟decoder端计算Attention Score的，先是在encoder端计算Attention Score捕捉源端自身词与词之间的依赖关系，然后将encoder端得到的Attention Score加入到decoder端，捕捉目标端自身词与词之间的依赖关系以及目标端跟源端词与词之间的依赖关系。相对比传统的Attention机制，Self-Attention的优势在于不仅可以捕捉目标端跟源端之间词与词的依赖关系，还可以捕捉源端或者目标端自身词与词的依赖关系。

3、Scaled Dot-Product Attention

图15：Scaled Dot-Product Attention示意图

之所以提Scaled Dot-Product Attention是因为一般Self-Attention都是结合Scaled Dot-Product Attention实现的。假设输入为 $X={x_1,x_2,...,x_m}$ ，其中 $x_m$ 是维度为 $d_{model}$ 的向量。首先将输入 $X$ 经过线性变化得到 $Q, K, V$ （Self-Attention的体现），分别表示Query、Key、Value。如图所示， $Q, K$ 做一个矩阵相乘的操作，得到输入端自身词与词之间的依赖关系，然后依次经过尺寸变换（防止输入维度过大导致梯度落在softmax函数的边缘区域，从而训练难收敛）、掩码（可选操作，主要用于对时间先后关系的表示）、SoftMax操作，得到最终的Self-Attention矩阵。将Self-Attention矩阵跟 $V$ 做矩阵相乘，就可以得到最后的输出结果。 $Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$ $Q = X W^Q$ $K = X W^K$ $V = X W^V$ 其中 $X\in{R^{m \times d_{model}}}$ ， $W^Q\in{R^{d_{model} \times d_{model}}}$ ， $W^K\in{R^{d_{model} \times d_{model}}}$ ， $W^V\in{R^{d_{model} \times d_{model}}}$ ， $d_k=d_{model}$ 表示 $Q, K$ 的向量维度。

4、Multi-Head Attention

图16：Multi-Head Attention示意图

上述的Attention都是只有一套 $Q, K, V$ ，而Multi-Head Attention是在一套 $Q, K, V$ 的基础上线性变化得到 $h$ 套 $Q_i,K_i,V_i$ ，分别得到输出矩阵之后再进行拼接。之所以采用多套 $Q_i,K_i,V_i$ 一方面是可以加速Attention的计算，一方面是可以获取不同空间维度的依赖信息。个人理解这应该是一个工程上的trick。 $MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O$ 其中 $head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)$ 其中 $W_i^Q\in{R^{d_{model} \times d_k}}$ ， $W_i^K\in{R^{d_{model} \times d_k}}$ ， $W_i^V\in{R^{d_{model} \times d_v}}$ ， $W_i^O\in{R^{hd_v \times d_{model}}}$ 。假设 $d_{model}=512,h=8$ ，那么 $d_k=d_v=d_{model}/h=64$ 。

四、Transformer

传统seq2seq的encoder跟decoder都是基于RNN等序列模型进行设计的，比如为了改善RNN的长期依赖问题，引入LSTM；为了获取目标端跟源端的对齐属性，引入了Attention机制。但是由于基础模型都是RNN等序列模型，在前向预测或者训练过程中，都是必须沿着序列方向依次进行计算（along the symbol positions），无法并行，因此计算效率是其面临的一个问题。为了改善这个问题，Google设计了Transformer特征抽取器。Transformer完全抛弃了RNN等序列模型，encoder跟decoder都是完全基于Attention机制设计的。

具体的模型结构如图17所示。整个网络结构还是沿用传统的两段式的encoder-decoder结构。

图17：Transformer网络结构图

encoder跟decoder都是 $N$ 层网络结构。对于encoder，每一层网络是由2个子层组成，分别是Multi-Head Attention跟Feed Forward Network。对于decoder，每一层网络则是由3个子层组成，分别是Masked Multi-Head Attention、Multi-Head Attention跟Feed Forward Network。除此之外，整个模型所有的子层都会引入残差连接以及layer normalization，因此每个子层的输出可以表示为 $L a y e r N o r m (x + S u b l a y e r (x))$ ，其中 $x$ 表示每一个子层的输入。由于引入了残差连接，因此每一个子层网络的输出向量的维度都必须保持在 $d_{model}$ 。
Transformer网络除了encoder跟decoder之外，还包含embedding层跟softmax层。embedding层将输入或者输出的token转换成维度 $d_{model}$ 的向量。softmax层将decoder输出的向量做一个线性变换然后经过softmax分类器，预测下一个token的概率值。这儿需要注意的是embding层也会做一个线性变化，跟softmax层的线性变化是共享权重参数的，只不过embedding层的权重参数会乘以一个缩放因子 $\sqrt{d_{model}}$ 。
为了充分利用序列的位置信息，Transformer在 embedding层引入了positional encoding。每一个token对应的positional encoding是一个 $d_{model}$ 维的向量，表示如下： $PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$ $PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$
Transformer总共有3种不同结构的Attention。在encoder中的Multi-Head Attention指的是典型的Attention，主要是为了捕捉源端词与词之间的依赖关系。Decoder有2种Attention。其中的Multi-Head Attention也是典型的Attention，只不过 $K, V$ 是来自encoder，Q来自上一层decoder，主要是为了捕捉源端跟目标端词与词之间的依赖关系。Masked Multi-Head Attention是为了捕捉目标端词与词之间的依赖关系，加了Masked是为了防止信息泄露，也就是对下文序列的token做了一个掩码不可见的操作。
Transformer中的FFN是一个两层的全连接网络，而且是针对每一个position都是共享的。其计算公式如下： $FFN(x)=max(0,xW_1+b_1)W_2+b_2$
关于并行，从上面的描述中可以看出，encoder始终是可并行的，也就是每个position之间的encoder计算可以说都是独立的。而对于decoder而言，训练时候，每个position可以看成是独立的，但在预测的时候，就依然还是不可并行计算的，当前position的计算还是得依赖上一个position的计算结果。

五、TransformerXL

虽然Transformer在各项任务表现突出，但是其有一个比较明显的不足之处，也就是对长文本的长期依赖问题处理不好。首先Transformer的输入是固定长度的token序列，这就导致在训练的时候，经常需要对长文本进行固定片段的划分，分批进入网络训练，一方面是无法捕捉超长文本的依赖关系，另一方面也导致上下文碎片化，忽略了句子边界，也就是原文中提到的context fragmentation。因此，google在Transformer的基础上提出了TransformerXL（extra long的意思），目的就是为了解决Transformer在超长文本的不足之处，其改进点主要有两个：segment-level recurrence mechanism跟positional encoding scheme。

segment-level recurrence mechanism（片段级递归机制）

图18：Transformer处理长文本

如图所示，Transformer在处理长文本时，都是通过设置滑动窗口来计算的，每一个窗口对应一个segment。虽然每一个窗口对每一个segment能够很好地处理上文依赖关系，但是窗口之间，也就是上下文segment之间的长期依赖信息并没能往后传递，而且每个窗口也可能会存在着依赖信息重复计算的情况（窗口重叠）。参考RNN获取长期依赖关系的方式，也就是通过同层间的隐状态进行传递，自然而然可以想到的方案就是给segment之间加入这种类似的机制。

图19：TransformerXL处理长文本

假设相邻的两个长度为 $L$ 的segment分别是 $s_\tau=[x_{\tau,1},x_{\tau,2},...,x_{\tau,L}]$ 、 $s_{\tau+1}=[x_{{\tau+1},1},x_{{\tau+1},2},...,x_{{\tau+1},L}]$ ，每个segment在第 $n$ 层的隐层状态是 $h_{\tau}^n\in R^{L*d}$ ，其中 $d$ 表示隐层状态的向量维度，那么TransformerXL的片段级递归机制可以表示为： $\hat h_{\tau+1}^{n-1}=[SG(h_{\tau}^{n-1});h_{\tau+1}^{n-1}]$ $q_{\tau+1}^{n},k_{\tau+1}^{n},v_{\tau+1}^{n}=h_{\tau+1}^{n-1}W_q^T,\hat h_{\tau+1}^{n-1}W_k^T,\hat h_{\tau+1}^{n-1}W_v^T$ $h_{\tau+1}^{n}=Transformer(q_{\tau+1}^{n},k_{\tau+1}^{n},v_{\tau+1}^{n})$ 由上可得， $h_{\tau}^n\in R^{L*d}$ 意味着memory只存储了长度为 $L$ 的信息，理论上可以不加限制，因此广义的应该是 $\hat h_{\tau+1}^{n-1}=[SG(m_{\tau}^{n-1});h_{\tau+1}^{n-1}]$ ，其中 $m_{\tau}^n\in R^{M*d}$ 。

Relative Positional Encodings（相对位置编码）
Transformer采用一个固定的绝对位置向量矩阵 $\in R^{L_{max}*d}$ 来表示位置信息。但对于片段递归机制而言，如果同一个position出现在相邻的两个segment中，那么是会有问题的，因此作者提出了相对位置编码的概念。先看看Transformer是怎么结合position coding做Attention score的计算，考虑绝对位置编码情况下，第 $i$ 个query跟第 $j$ 个key的score可以表示如下： $A_{i,j}^{abs}=((E_{x_i}+U_i)W_q)^T((E_{x_j}+U_j)W_k)\\=\underbrace{E_{x_i}^TW_q^TW_kE_{x_j}}_{a}+\underbrace{E_{x_i}^TW_q^TW_kU_j}_{b}+\underbrace{U_i^TW_q^TW_kE_{x_j}}_{c}+\underbrace{U_i^TW_q^TW_kU_j}_{d}$ 其中 $E$ 表示embedding。而考虑相对位置编码的情况，也就是TransformerXL，第 $i$ 个query跟第 $j$ 个key的score可以表示如下： $A_{i,j}^{rel}=\underbrace{E_{x_i}^TW_q^TW_{k,E}E_{x_j}}_{a}+\underbrace{E_{x_i}^TW_q^TW_{k,R}R_{i-j}}_{b}+\underbrace{u^TW_{k,E}E_{x_j}}_{c}+\underbrace{v^TW_{k,R}R_{i-j}}_{d}$ 对比绝对位置编码，区别主要有：在b、d项，引入了 $\in R^{L_{max}*d}$ 表示的是相对位置差的向量编码，该矩阵类似原来的 $U$ 不需要训练得到的；在c、d项，引入 $u, v$ 主要想通过可训练的参数获取统一的表达，因为query对所有position是一样的，不需要位置信息；在a、b、c、d项，将 $W_k$ 拆分成两个 $W_{k,E}$ ， $W_{k,R}$ ，分别对应产生content-based的key以及location-based的key。因此，最后a、b、c、d分别对应的就是content-based addressing、content-dependent positional bias、global content bias、global positional bias。

六、Pretrain + Finetune Pipeline

（一）ELMo

通过预训练得到高质量的词向量一直是具有挑战性的问题，主要有两方面的难点，一个是词本身具有的语法语义复杂属性，另一个是这些语法语义的复杂属性如何随着上下文语境产生变化，也就是一词多义性问题。传统的词向量方法例如word2vec、GloVe等都是训练完之后，每个词向量就固定下来，这样就无法解决一词多义的问题。为了解决这个问题，AI2提出了ELMo（Embeddings from Language Models），其通过在大型语料上预训练一个深度BiLSTM语言模型网络来获取词向量，也就是每次输入一句话，可以根据这句话的上下文语境获得每个词的向量，这样子就可以解决一词多义问题。总结来说，word2vec、GloVe等模型是得到一个大型的词向量矩阵，每个词的向量都是固定的，而ELMo是得到一个预训练的语言模型，每次需要获取一个词的向量时，需要实时输入词的上下文序列，从而得到该语境下的词向量。

除此之外，ELMo是一个多层的网络结构，最终得到的词向量可以是每一层网络输出向量的线性组合，而不仅仅只是顶层输出的向量。通过评估可以发现，底层网络的输出向量主要获取语法层面的信息，因此在词性标注等任务表现突出；而顶层网络的输出向量主要获取上下文相关的语义信息，因此在词义消岐等任务表现突出。

1、双向LSTM语言模型

前向LSTM语言模型表达式如下： $p(t_1,t_2,...,t_N)=\prod_{k=1}^Np(t_k|t_1,t_2,...,t_{k-1})$
其中 $t_k$ 表示第 $k$ 个token，在输入层，会转换成与上下文无关的词向量 $x_k^{LM}$ （原文作者用的是CNN-BIG-LSTM）；前向LSTM模型一共有 $L$ 层隐层，第 $k$ 个token在第 $j$ 层的状态值为： $\stackrel{\rightarrow}{h}_{k,j}^{LM}$ ，而第 $k$ 个token在第 $L$ 层的状态值 $\stackrel{\rightarrow}{h}_{k,L}^{LM}$ ，后面一般会接一个softmax，用来预测 $t_{k+1}$ 。
后向LSTM语言模型表达式如下： $p(t_1,t_2,...,t_N)=\prod_{k=1}^Np(t_k|t_{k+1},t_{k+2},...,t_N)$ 后向LSTM模型跟前向LSTM模型结构类似，只是方向相反，第 $k$ 个token在第 $j$ 层的状态值表示为： $\stackrel{\leftarrow}{h}_{k,j}^{LM}$
双向LSTM语言模型：其实就是对前向LSTM语言模型跟后向LSTM语言模型做一个联合训练。损失函数定义如下： $\sum_{k=1}^N(logp(t_k|t_1,t_2,...,t_{k-1};\theta_x,\stackrel{\rightarrow}{\theta}_{LSTM},\theta_s)+logp(t_k|t_{k+1},t_{k+2},...,t_N;\theta_x,\stackrel{\leftarrow}{\theta}_{LSTM},\theta_s))$ 其中 $\theta_x$ 表示embedding层的参数，将token转换成上下文无关的输入词向量。 $\theta_s$ 表示softmax的参数，这两个参数在前向跟后向网络是共享的。而 $\stackrel{\rightarrow}{\theta}_{LSTM}$ 跟 $\stackrel{\leftarrow}{\theta}_{LSTM}$ 分别表示前向跟后向网络的模型参数。

图20：双向LSTM语言模型网络结构图

2、ELMo向量

对于一个token $t_k$ ，在一个 $L$ 层的双向LSTM模型中，其有一套 $2 L + 1$ 的向量表示组合： $R_k= \{x_k^{LM},\stackrel{\rightarrow}{h}_{k,j}^{LM},\stackrel{\leftarrow}{h}_{k,j}^{LM}|j=1,2,...,L\}$ 可以将每一层的前向跟后向隐层向量进行维度上的拼接，从而得到 $L + 1$ 个向量表示组合： $R_k=\{h_{k,j}^{LM}|j=0,1,2,...,L\}$ 其中 $h_{k,j}^{LM}=[\stackrel{\rightarrow}{h}_{k,j}^{LM};\stackrel{\leftarrow}{h}_{k,j}^{LM}]$ 当 $j = 0$ 时， $h_{k,0}^{LM}=[x_k^{LM};x_k^{LM}]$ 表示输入层。那么ELMo向量可以表示如下： $ELMo_k^{task}=E(R_k;\theta^{task})=\gamma^{task}\sum_{j=0}^Ls_j^{task}h_{k,j}^{LM}$ 其中 $s_j^{task}$ 是跟任务相关的softmax权重参数， $\gamma^{task}$ 是一个缩放因子，这两个参数在ELMo向量的实际应用中属于工程性的trick。

3、ELMo向量在下游监督任务的应用

基于一个预训练好的BiLSTM语言模型，我们可以得到一套 $2 L + 1$ 的向量表示组合（一般取 $L = 2$ ，那么就可以得到3层向量特征，可以理解为输入层捕捉的是单词特征，第一层LSTM捕捉的是句法信息，第二层LSTM捕捉的是语义信息），那么只需要结合下游任务，学习获得权重因子 $s_j^{task}$ 、 $\gamma^{task}$ 即可得到最终的词向量 $ELMo_k^{task}$ 。

ELMo的作者提供了几种应用的思路：（1）固定权重因子 $s_j^{task}$ 、 $\gamma^{task}$ ，从而得到 $ELMo_k^{task}$ 向量，然后跟原始词向量进行拼接， $x_k;ELMo_k^{task}]$ ，再输入到下游任务中，重新训练权重因子。（2）在前者的基础上，对隐层的输出也引入ELMo向量， $h_k;ELMo_k^{task}]$ ，只不过是采用不同的权重因子。

（二）GPT

ELMo虽然解决了一词多义的问题，但还有没有改善的空间呢？肯定是有的，最简单的想法就是用新秀特征抽取器Transformer替换LSTM，因此，openAI就提出了GPT（Generative Pre-Training）。基于Pretrain + Finetune范式，用Transformer decoder替换ELMo的LSTM，而且GPT只采取了单向的网络，这儿也就埋下了伏笔，给了Bert有机可乘（Bert后面再介绍）。

图21：GPT模型图

前向计算：对于输入的第 $i$ 个token，其上文长度为 $k$ 的token序列可以表示为 $U=(u_{-k},...,u_{-2},u_{-1})$ ，因此GPT的前向计算可以表示如下： $h_0=UW_e+W_p$ $h_l=Transformer\_block(h_{l-1} ，i=1,2,..,n)$ $P(u)=softmax(h_nW_e^T)$ 总共有 $n$ 层网络， $W_e$ 表示embedding矩阵， $W_p$ 表示position encoding； $h_l$ 表示第 $l$ 层Transformer的输出； Transformer_block用的是传统的Transformer中的decoder（当然，没有了encoder，就不需要Multi-Head Attention，只需要Masked Multi-Head Attention跟FFN即可）。
Pretrain：GPT的预训练是基于以下的损失函数进行梯度下降训练（单向语言模型）： $L_1(\mu)=\sum_ilogP(u_i|u_{i-k},...,u_{i-1};\theta)$ 其中 $\mu=(u_1,u_2,...,u_m)$ 表示输入token序列。
Finetune：假设现有数据集 $C = (x, y)$ ，下游任务是一个分类任务，那么其预测函数为： $P(y|x_1,x_2,...,x_m)=softmax(h_n^mW_y)$ 其中 $x_m$ 表示第 $m$ 个token， $W_y$ 表示接在最后一个token后面的线性转换矩阵， $h_n^m$ 表示第 $m$ 个token在第 $n$ 个Transformer的输出。最终Finetune时候的损失函数可以定义为： $L_3(C)=L_2(C)+\lambda*L_1(C)$ $L_2(C)=\sum_{(x,y)}logP(y|x_1,x_2,...,x_m)$

（三）BERT

前面提到的GPT是基于单向语言模型来做预训练的，在sentence级别的NLP任务表现良好，但是在token级别的NLP任务并不是最佳选择，毕竟token的含义不仅取决于上文信息，同时也跟下文信息有着密切关系，因此，Google提出了BERT（Bidirectional Encoder Representations from Transformers）模型，用双向语言模型替换单向语言模型。

图22：BERT模型图

前向计算：如图可以看出，BERT的前向跟GPT的前向区别主要有两点：（1）GPT的特征抽取器采用的是Transformer的decoder（单向语言模型），而BERT采用的是Transformer的encoder（双向语言模型）；（2）输入表示的区别：如图23所示，所有输入序列开头添加[CLS]token（对于N vs 1的NLP下游任务，取[CLS]token的最后一层向量进入下游任务），句子结尾添加[SEP]token；输入层由3个embedding向量组成，分别是token embedding、segment embedding、position embedding；输入token不超过512个。

图23：BERT输入层

Pretrain：区别于GPT的单向语言模型训练，BERT是一个双向语言模型，作者采用两个无监督任务进行预训练，一个是token级别的，一个是sentence级别。token级别的预训练任务采用的是Masked Language Model（MLM）；具体做法是取每个输入序列15%的token进行预测，其中80%替换成[mask]，10%替换成随机token，10%保持不变；训练过程中，在这15%的token的最后一层向量后面接一层softmax进行预测。sentence级别的预训练任务采用的是next sentence predict；具体做法就是构造句子对训练样本 $sentence_A,sentence_B]$ ，50%的样本label为1，表示句子B是句子A的下一句，50%的样本label为0，表示句子B不是句子A的下一句；训练过程中，取[CLS]token的最后一层向量进行预测。因此，BERT就是联合上述两个任务进行预训练的，既可以捕捉token级别的信息，又可以捕捉sentence级别的信息。
Finetune：BERT的Finetune就很好理解了，跟GPT的Finetue没有太大区别，都是采用少量的NLP下游任务的监督样本，对BERT以及下游任务的参数进行微调。

（四）GPT2.0

前文提到的ELMo、GPT、BERT本质上都是基于大量无监督样本的预训练以及少量指定任务的有监督样本进行Finetune，最终衡量各个预训练模型的效果都是通过在各种下游任务的benchmark刷SOA来验证。而GPT2.0则不是一味地刷benchmark的SOA来指导工作，其更关注的是预训练模型的通用性。原文作者提出，现有的机器学习系统更多的像是一个narrow experts，在指定领域，拥有数量足够大的标注数据集、容量足够大的模型结构，在有监督的学习方法下，就可以获得特定领域下足够好的效果；但这些模型对数据的分布比较敏感而且现实世界中，很多特定领域的任务都没有足够多的标注样本；所以作者把研究的重心放在了competent generalists，也就是通过无监督的方法获取更加通用的模型上，通用到不需要有监督的Finetune就可以直接应用到下游任务中。论文作者也提出了，现有模型缺乏的泛化能力主要是因为训练过程中的单任务单领域数据所导致。因此，GPT2.0更加关注的是通过多领域的数据集来获取更加通用的预训练模型（multi-task learning），从而在zero-shot（无需任务参数以及网络结构的调整）的设定下，可以在下游任务中表现良好。

相比GPT，GPT2.0的改进在于：

对GPT的模型参数进行扩容：比如扩充到48层的Transformer Layer；将Layer Normalization放到每一层的外面；将输入token序列长度由512的限制扩充到1024等。
更丰富、更高质量的数据集：通过爬取网页，人工筛选，最终构建了800万篇、40GB大小的网页数据集WebText。
单向语言模型+多任务的训练方法：GPT的单向语言模型可以表示为 $p (o u t p u t ∣ i n p u t)$ ，而GPT2.0则是在单向语言模型的基础上，加入了多任务的因素， $p (o u t p u t ∣ i n p u t, t a s k)$ 。具体是通过构造训练样本而实现的，在输入的token序列添加具体的任务标识（下游任务通过任务标识来做预测），比如对于翻译任务，输入token序列可以表示为： $(translate\ to\ french,english\ text,french\ text)$ ，对于阅读理解任务，输入token序列可以表示为： $(answer\ the\ question,document,question,answer)$ 。
基于Byte Pair Encoding的输入表示。

（五）XLNet

前面提到的GPT跟BERT这两个语言模型，分别属于AutoRegressive（AR）模型跟denoising AutoEncoder（AE）模型。其中AR模型属于单向语言模型，可以表示为： $p(x)=\prod_{t=1}^Tp(x_t|x_{<t})$ ；而AE模型没有明确的density estimation，其通过对输入token序列随机做[MASK]（denoising的体现），然后再进行重建，从而训练得到整个语言模型，属于双向语言模型，可以获得上下文信息。可以分别看一下AR模型跟AE模型的似然函数，对于AR模型，其最大似然函数表示为： $max_\theta\ logp_\theta(x_t|x_{<t})=\sum_{t=1}^Tlog\frac{exp(h_\theta(x_{1:t-1})^Te(x_t))}{\sum_{x^{'}}exp(h_\theta(x_{1:t-1})^Te(x^{'}))}$ 其中 $e$ 表示embedding向量；对于AE模型，假设 $\stackrel{-}{x}$ 表示被mask的token， $\hat{x}$ 则表示被mask后的完整token序列，那么其最大似然函数可以表示为： $max_\theta\ logp(\stackrel{-}{x}|\hat{x})\approx\sum_{t=1}^Tm_tlogp_{\theta}(x_t|\hat{x})=\sum_{t=1}^Tm_tlog\frac{exp(H_\theta(\hat{x})_t^Te(x_t))}{\sum_{x^{'}}exp(H_\theta(\hat{x})_t^Te(x^{'}))}$ 其中 $m_t=1$ 表示被maske的token。

基于AR的GPT模型缺点在于只能学到上文信息；而基于AE的BERT模型虽然可以学到上下文信息，但由于训练时对输入token序列随机做了[MASK]，导致了Pretrain跟Finetune两个阶段输入不一致，而且随机替换token，会破坏masked token之间的相关性（例如对“因为”、“所以”这样一些具有上下文关系的masked token），对于某些特定任务，效果不佳。而为了综合AE跟AR的优点，google提出了XLNet。XLNet本质上是一个AR模型，但其通过优化联合概率分布函数的所有可分解排列组合的期望似然（排列语言模型）引入上下文信息，除此之外，也集成了TransformerXL（当前效果最好的AR模型）的优点segment-level recurrence mechanism
跟positional encoding scheme，解决长文本依赖问题，从而完虐BERT。

Permutation Language Modeling（排列语言模型）

图24：排列语言模型示意图

对于AR模型的表达 $p(x)=\prod_{t=1}^Tp(x_t|x_{<t})$ ，其通过将联合概率分布拆解成多个条件概率的累积，默认是前向的分解方式，也就是 $p(x)=\prod_{t=1}^Tp(x_1)p(x_2|x_1)p(x_3|x_1,x_2),...,p(x_T|x_{<T})$ 。但其实是可以有 $T!$ 种分解方式，如图24，对于输入序列 ${x_1,x_2,x_3,x_4}$ ，列举了4种分解的方式（例如对于分解顺序2-4-3-1， $p(x)=\prod_{t=1}^4p(x_2)p(x_4|x_2)p(x_3|x_2,x_4)p(x_1|x_2,x_4,x_3)$ ）。假设 $Z_T$ 表示所有分解方式的集合， $z$ 表示具体的分解方式，那么排列语言模型的最大化期望似然可以表示为： $max_\theta\ E_{z\sim{Z_T}}[\sum_{t=1}^Tlogp_\theta(x_{z_t}|x_{z<t})]$ 如式子所示，所有分解方式都共享一套模型参数，最终的优化目标就是所有分解方式的期望似然。这儿需要注意的是：（1）排列语言模型并没有改变输入token序列的顺序，而是改变分解的顺序（通过Transformer内部Attention的掩码来实现），这点很重要，因为在Finetune阶段，模型的输入是有序的。（2）不一定需要采集所有的分解方式，可以用采样的方式。

Two-Stream Self-Attention（双流自注意模型）

图25：双流自注意模型示意图

基于Transformer来实现排列语言模型，其概率函数可以表示如下： $p_\theta(x_{z_t}=x|x_{z<t})=\frac{exp(h_\theta(x_{z<t})^Te(x))}{\sum_{x^{'}}exp(h_\theta(x_{z<t})^Te(x^{'}))}$ 其中 $z$ 表示某种分解的顺序， $h_\theta(x_{z<t})$ 表示 $t$ 时刻之前的上文信息；根据式子可以看出，预测函数跟token所在位置无关，也就是对target position不敏感，从而丢失了位置信息，导致训练得到的representation没有多大意义（假设输入token序列是 $x_1,x_2,x_3,x_4$ ，对于分解顺序1-2-3-4跟1-2-4-3，在位置3跟4看到的都是位置1跟2，由于没有位置信息 $z_t$ ，大家看到的都是位置1跟2，所以就会给训练带来不确定性，这个不确定性是排列语言模型带来的，GPT中由于只有前向一种分解方式，因而没有这个问题的存在）。为了避免这个问题，原文作者对预测函数做了re-parameterize，表示如下： $p_\theta(x_{z_t}=x|x_{z<t})=\frac{exp(g_\theta(x_{z<t},z_t)^Te(x))}{\sum_{x^{'}}exp(g_\theta(x_{z<t},z_t)^Te(x^{'}))}$ 其中 $g_\theta(x_{z<t},z_t)$ 引入了target position信息 $z_t$ 。虽然通过引入位置变量 $z_t$ 可以获取target-aware的表达，但是怎么设计 $g_\theta(x_{z<t},z_t)$ 成了一个难题。原文作者提出了双流的概念，如图25所示（结合图24的（a）（b）小图）。双流指的分别是query stream跟content stream：

图26：query stream VS content stream

其中 $g_{z_t}^{(m)}$ 表示第 $m$ 层的 $g_\theta(x_{z<t},z_t)$ ；而 $h_{z_t}^{(m)}$ 则表示第 $m$ 层的 $h_\theta(x_{z\leq{t}})$ 。其中content stream跟传统的Transformer的Attention机制一样，而QS（query stream）跟CS（content stream）的区别联系就在于：QS的K、V是来自CS；QS只包含当前位置信息 $z_t$ （体现在 $Q=g_{z_t}^{m-1}$ ，其实就是通过设计一个包含 $z_t$ 的Q），不包含 $x_{z_t}$ ，而CS除了包含 $z_t$ ，还包含了 $x_{z_t}$ 。

总结

本文主要是对Pretain+Finetune范式下的若干主流模型进行一个学习总结，基本都是抱着论文一步一步啃下来的，至于在实际业务中的落地效果，下来笔者再持续关注。

作者简介

zakexu，硕士毕业于华南理工大学，现任腾讯云AI算法工程师，负责腾讯云NLP的公有云产品架构以及标准化产品交付，欢迎交流合作！

个人博客：https://zakexu.blog.csdn.net/
知乎ID：zakexu

参考文献

Understanding LSTM Networks
完全图解RNN、RNN变体、Seq2Seq、Attention机制
模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用
Attention Is All You Need
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Deep contextualized word representations
Improving Language Understanding by Generative Pre-Training
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Language Models are Unsupervised Multitask Learners
XLNet: Generalized Autoregressive Pretraining for Language Understanding

你可能感兴趣的:(自然语言处理,BERT,机器学习,数据挖掘,人工智能,自然语言处理)

供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
SpringBoot电商项目实战：从零搭建百万级架构
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot电商项目实战：从
GPT在AI原生应用领域的无限潜力
GPT在AI原生应用领域的无限潜力关键词：GPT、AI原生应用、自然语言处理、无限潜力、应用场景摘要：本文深入探讨了GPT在AI原生应用领域所展现出的无限潜力。首先介绍了相关背景知识，包括GPT的基本概念和AI原生应用的定义。接着详细解释了GPT的核心概念，以及它与AI原生应用的紧密联系。通过数学模型和公式对GPT的工作原理进行了阐述，并给出了实际的代码案例。还探讨了GPT在多个实际应用场景中的表
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
面向智能医疗的6G物联网和人工智能 Allen_Lyb 医疗高效编程研发物联网人工智能健康医疗
AbstractTheconvergenceof6Gwirelesstechnology,theInternetofThings(IoT),andArtificialIntelligence(AI)ispoisedtorevolutionizehealthcaredeliverybyenablingunprecedentedlevelsofconnectivity,intelligence,and
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
逻辑结构学派一（五个基础理论）刘海东刘海东人工智能
逻辑结构学派一（五个基础理论）作者：刘海东，中国广东技术师范大学摘要本篇论文通过《逻辑结构学派的宗旨》、《逻辑结构学》、《逻辑工程学》、《逻辑方程结构图理论》、《仿生逻辑理论》五个领域的研究提出《逻辑结构学派的宗旨》、《主观能动性结构》、《主观能动性结构工程》、《赋予生命的逻辑方程结构图》、《仿生逻辑》五个基础经典理论，让人工智能、机器人、智能社会三个主体的基础研究有了方向、方法和判断标准。关键词
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
大模型黄金时代！IT人转行指南：有人薪资翻倍，35+仍吃香_转行大模型！
高薪背后，是百万人才缺口与IT人前所未有的转型机遇当传统IT岗位增长放缓，一个全新领域正以惊人的速度重塑技术人才格局：大模型算法岗平均月薪突破6.8万元，AI产品经理岗月薪近5万元，自动驾驶等AI岗位扩招幅度高达60%36。与此同时，人社部数据显示我国人工智能领域人才缺口超过500万，供需比例达1：106。曾经焦虑“35岁危机”的程序员们发现，那些深耕大模型领域的同行不仅未被淘汰，反而成为企业竞相
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
大模型卷出新高度|暴雨AI服务器M8878助解算力之困 BAOYUCompany 人工智能服务器运维
当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。AI热度和话题持续火
探索AI时代：全国启动人工智能与未来公益讲座私域合规研究人工智能百度
人工智能与未来——AI赋能中小企业数字化升级公益讲座一、讲座背景随着科技的飞速发展，人工智能（AI）已经深入到了各行各业，为了推动AI技术在中小企业的广泛应用，助力企业拥抱新技术，迎接新机遇，拟申请联合组织AI赋能中小企业数字化升级公益讲座。讲座内容涵盖包括AI新媒体矩阵营销、AI智能跨境获客平台、AI+直播电商认证，AI+数字展厅、中检AI报关风险诊断及合规AI制单系统、AI+商品追溯、AI个人
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
MATLAB基础应用精讲-【人工智能】数据空间（概念篇）林聪木算法分类
目录前言算法原理发展历程什么是数据空间数据空间基本规律？数据共存方法Pay-as-you-go的进化方式跨域和异构数据源的需求技术实现服务提供数据空间的特点多元主体的开放参与多元角色的中间服务全面覆盖的认证机制丰富的数据联合利用机制数据空间技术框架国际数据空间组成部分使用控制数据场数据场的作用下，三种典型的数据要素价值释放模式数据空间的发展现状国内发展现状：国外发展现状：数据空间的基础设施数据空间
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http