小浩弟

深度学习的Attention机制，看这一篇文章就够了

Attention 机制的由来与发展

看 NLP 方向的论文，几乎每篇都能看到 self-attention、transformer、bert 的出现，如果直接去学习这几个模型的话，很容易迷失在各种矩阵操作中，心里会一直有个疑问，为什么要这么做？但是了解 attention 机制的源头及发展后，心里就慢慢清晰了起来。所以，写这篇文章打算从头梳理一下 attention。

机器翻译理论部分

在 NLP 中给定一个序列，输出另一个序列的任务，称为 seq2seq，也就是序列到序列的任务。也是机器翻译最常用的模型，解决的最大的问题就是输入序列和输出序列的长度不一致问题。

在机器翻译问题中，假设我们有一系列的训练样本 $x_i,y_i),i=1...n$ ，其中 $x$ 代表待翻译的句子， $y$ 代表翻译后的句子。
对于每一个训练样本 $x_i,y_i)$ ， $x, y$ 分别代表两个序列， $\left(x^{<1>}, x^{<2>}, \ldots, x^{}\right)$ ， $\left(y^{<1>}, y^{<2>}, \ldots, y^{}\right)$ 。
例如在中英翻译中， $x = (我，是，中国，人)$ ， $y = (I, a m, c h i n e s e)$ 。
根据极大似然估计，我们的目标函数可以写为最大化: $\mid X)=\prod_{i=1}^{n} P\left(Y_{i} \mid X_{i}\right)$
转换成 $\log$ 形式则是最小化:
$\underset{\theta}{\operatorname{min}} -\frac{1}{N} \sum_{i=1}^{N}\log_{}{ P\left(Y_{i} \mid X_{i}\right)}$
其中 $\theta$ 为模型参数。
现在我们只需要知道 $\mid X)$ 怎么求即可。
首先我们知道： $\mid X) = P\left(y^{<1>}, y^{<2>}, y^{<3>}, \ldots y^{} \mid x^{<1>}, x^{<2>}, \ldots x^{}\right)$
上面这个式子可以用下面的公式转换，由于序列太长，所以只写了一部分举例：
$P\left(y^{<1>}, y^{<2>} \mid x^{<1>}, x^{<2>}\right) = P\left(y^{<1>}\mid x^{<1>}, x^{<2>}\right) \cdot P\left( y^{<2>}\mid y^{<1>},x^{<1>}, x^{<2>}\right)$
这个式子就是序列模型的原理。下面讲 seq2seq 模型时，就可以对照理解这个式子了。

seq2seq 最初模样

seq2seq 模型被称为条件语言模型（conditional language model）。最早由bengio等人发表在 computer science 上的论文：Learning Phrase Representations using RNN Encoder–Decoder
for Statistical Machine Translation
其结构如下图所示:

Encoder 用 RNN 来构成，每个 time-step 向 Encoder中 输入一个词的向量 $ x^{}$ ，输出为 $h^{}$ ，直到句子的最后一个单词被输入 $x^{}$ ，得到的输出为句向量 $c=tanh(Vh^{})$ 。
其中 Encoder 中 RNN 状态更新公式为：
$h^{}=f\left(h^{}, x^{}\right), t=1, \ldots, T_{x}$
其中 $f$ 代表 RNN，也可以换成 LSTM 或 GRU。
句子向量 $c$ 由 Encoder 最后一刻的输出状态 $h^{}$ 变换得到：
$c=tanh(Vh^{})$

Decoder 用另一个 RNN 来构成，用来根据之前 Encoder 得到的句向量 $c$ 和前一时刻的结果 $y^{}$ 和当前时刻的输出 $h^{}$ 来得到 $y^{}$ ，依此类推直到得到结尾输出 EOS。
其中，Decoder 的第一个隐状态 $h^{<0>}$ 由于没有上一时刻的输出和隐状态输出， $h^{<0>}$ 的计算公式为:
$h^{<0>}=\tanh \left(V^{\prime} c\right)$
其它时刻的 $h^{}$ 计算公式为:
$h^{}=f\left(h^{}, y^{}, c\right), t=1, \ldots, T_{x}$
每一时刻的输出 $y^{}$ 计算公式为:
$P\left(y^{} \mid y^{}, y^{}, \ldots, y^{<1>}, c\right)=g\left(h^{}, y^{}, c\right)$
$g$ 函数一般为 softmax。

整个 Decoder 的过程可以理解为：
$P(y_1,y_2,y_3) = P\left(y_{1}, c\right) \cdot P\left(y_{2} \mid y_{1}, c\right) \cdot P\left(y_{3} \mid y_{1}, y_{2}, c\right)$

总结：
论文中的给出的这个结构图上显示的相关关系还是非常准确的，每条线都代表着相关关系。
总的来说就是 Encoder 只负责输出一个代表句子的向量 $c$ ，然后 Decoder 中的每一时刻的 $h^{}$ 计算都与 $h^{},y^{}$ 相关，每一时刻的输出计算都与 $h^{}, y^{}, c$ 相关。

这就延伸出了三个问题：

由于 RNN 长距离梯度消失的问题，句子很长的话，句子向量 $c$ 可能会丢失部分内容的语义信息，并不能很好的代替整个句子的语义。
每次做预测输出或计算，都用到了整个句子的信息 $c$ ，实际上把 I 翻译 我 并不需要整个句子的信息。
翻译对齐问题，我们在做翻译的时候差不多有个中英对齐的关系，比如 I 翻译成 我，you 翻译成 你。而这个模型里面体现不出来这种对齐关系。

seq2seq的改进模型

改进模型介绍2014年谷歌发表的论文Sequence to Sequence Learning with Neural Networks。
模型如下图:

可以看到，该模型和第一个模型主要的区别在于从输入到输出有一条完整的流：ABC 为 Encoder 的输入，WXYZ 为 Decoder 的输出。将 Encoder 最后得到的隐藏层的状态 ht 输入到 Decoder 的第一个 cell 里，就不用像第一个模型一样，每一个 Decoder 的 cell 都需要 Encoder 中的信息，因此从整体上看，从输入到输出像是一条“线性的数据流”。
同时该论文也提出来，ABC 翻译为 XYZ，输入的时候将 ABC 的变为 CBA 效果更好。论文猜测是因为翻转原句子虽然没有改变 “对应词” 之间的平均距离，但是原句子与目标句子中前几个 “对应词” 之间的距离缩短了，比如 A 和 X 的距离。这样更有利于句子中前几个词的翻译。这从另一方面证明了长序列信息丢失的问题。

“对应词” 在翻译中可以理解为 I 和 我 是一组对应词，you 和 你 是一组对应词。

具体来说，此模型的 Encoder 的过程如下图。这和我们之前的 Encoder 一样。

不同的是 Decoder 的阶段：

这个模型流程比较丝滑，容易理解，就不过多解释了。不过这个模型并没有解决我们一开始说的那三个问题，只不过把 seq2seq 的流程给优化了，更容易理解了。
真正解决问题的是下面要介绍的第一代 attention。

seq2seq with attention

为了解决 seq2seq 中前面说的那三个问题，论文NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE这时就提出了第一代 attention，即对于 Decoder 中每一个 cell，都检测 Encoder 中每个单词对它重要性。
模型改进的结构如下图：

上图中，Encoder 和 Decoder 都发生了变化。

首先说 Encoder，使用了双向RNN，解决 RNN 单向性的问题。使用 $ \overrightarrow{h_j} $ 代表 RNN 前向的隐层状态,$\overleftarrow{h_j} $ 代表 RNN 的反向隐层状态，$ h_j$ 的最终状态为将两者连接 concat 起来，即 $h_j=\left[\overrightarrow{h_{j}} ; \overleftarrow{h_{j}}\right]$

下面说说 Decoder，对于 Decoder 中每时间步的输出公式为:
$p\left(y_{i} \mid y_{1}, \ldots, y_{i-1}, \mathbf{x}\right)=g\left(y_{i-1}, s_{i}, c_{i}\right)$
即对于时间步 $i$ 的输出 $y_i$ ，由时间步 $i$ 的隐藏状态 $s_i$ ，由 attention 计算得到的输入内容 $c_i$ 和上一时间步的输出 $y_{i-1}$ 得到。
其中 $s_i$ 是对于时间步 $i$ 的隐藏状态，计算公式为：
$s_{i}=f\left(s_{i-1}, y_{i-1}, c_{i}\right)$

只看公式的话，会发现加入 attention 的 seq2seq 与之前的 seq2seq 只有内容 $c$ 不同，之前的 seq2seq 的 Decoder 中所有的时间步共用一个 $c$ ，而加入了 attention 的 seq2seq 每一个时间步都有一个 $c_i$ ，那 $c_i$ 是怎么得来的呢？和输入内容以及 attention 有什么关系呢？我们接着看公式:
$c_{i}=\sum_{j=1}^{T_{x}} \alpha_{i j} h_{j}$
即，对于 Decoder 的时间步 $i$ 的内容向量 $c_i$ ， $c_i$ 等于 Encoder 中隐藏状态序 $\left(h_{1}, \cdots, h_{T_{x}}\right)$ 的加权求和，其中每个 $h_j$ 对应的权重 $α_{ij}$ 计算公式如下:
$\alpha_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{T_{x}} \exp \left(e_{i k}\right)}$
其中 $e_{ij}=a(s_{i-1},h_j)$ ， $e_{ij}$ 又称 attention score 或 “相似度“ 或 “影响度” 或 “匹配得分”

这里 $a$ 通常是点积计算。这里计算 $e_{ij}$ 写的是原论文公式，用 $s_{t-1}$ 和 $h_i$ 来算，但斯坦福教材上是画的是 $s_t$ 和 $h_i$ 来算，而且后续论文大多是用的这种方式，即当前步的 attention score 用的当前步的隐藏状态 $s_t$ 和 $h_i$ 去算的。

网上找了一个可视化这部分公式计算的图，希望可以帮助大家理解：

最后总结一下该论文：
我们在 Encoder 的过程中得到双向RNN 单元的隐藏状态序列 $\left(h_{1}, \cdots, h_{T_{x}}\right)$ 。
然后对于 Decoder 中的每一个时间步 $i$ 的隐藏状态 $s_i$ ，可以通过时间步 $i - 1$ 的隐藏状态 $s_{i-1}$ 、输入内容的编码向量 $c_i$ 和上一个时间步输出 $y_{i-1}$ 得到。每个时间步的 $c_i$ 都各不相同， $c_i$ 由 attention 机制计算得到，具体步骤见文章。对于每一个时间步 $i$ 的输出 $y_i$ ，由时间步 $i$ 的隐藏状态 $s_i$ ，由 attention 计算得到的输入内容 $c_i$ 和上一时间步的输出 $y_{i-1}$ 得到。

attention 通用定义

attention 被提出以来，很快被应用到了各个领域，这里 Stanford 的教授在其教学课件中，给出了一个基本通用的定义：

给出一组值向量(values)和一个查询向量(query)，attention是一种根据查询向量(query)计算这组值向量(values)的加权和的方法。

举例： seq2seq 中，哪个是 query，哪个是 values？

Decoder 中每一个时间步的 $s_t$ 是 query，Encoder 的 hidden states 是 values。

更进一步，这个加权和就是对 values 中的信息的一个有选择性的概要，我们的query 决定了 values 中的哪一部分会被关注，会被着重提取。
同时 attention 也是一种获取一组长度不定的向量(values)依赖于另一个向量(query)的定长表示的方式。

attention 的 q,k,v 定义

在经典论文attention Is All You Need中，给出了 q,k,v 版本的 attention 定义。

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.

attention 函数的本质可以被描述为"查询向量（query）"与"键值对(key-value)"这两种不同数据结构的一种运算方式。
举一个非常形象的例子，一听就懂。 attention 的计算过程可以理解为一个和尚去化斋。
现在有一个和尚名字叫 query，要去化斋———化斋可以理解为要饭，饭就是 value。他每天的化斋流程就是，敲开山下每一户人家的门———每一户人家代表一个 key，每一户人家 key 都会根据自家的情况，给和尚 query 不同的饭量 value。比较经典的就是下图，是不是很像和尚敲门化斋。

当然也可以不止有一个和尚，还可以有其它和尚 query2 等等，其它和尚去其它地方化斋，这就是所谓的 multi-head attention。

整个过程可以公式化，流程化成三步如下图：

将 query 和每个 key 进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；
$f\left(Q, K_{f}\right)=\left\{\begin{array}{ll} Q^{T} K_{i} & \text { dot product} \\ Q^{T} W_{a} K_{i} & \text { general or multiplicative} \\ W_{a}\left[Q ; K_{i}\right] & \text { concat } \\ v_{a}^{T} \tanh \left(W_{a} Q+U_{a} K_{i}\right) & \text { perceptron or addictive} \end{array}\right.$
一般是使用一个 softmax 函数对这些权重进行归一化；
$a_{i}=\operatorname{soft} \max \left(f\left(Q, K_{i}\right)\right)=\frac{\exp \left(f\left(Q, K_{i}\right)\right)}{\sum_{j} \operatorname{exp}\left(f\left(Q, K_{j}\right)\right)}$
将权重和相应的键值 value 进行加权求和得到最后的 attention 。目前在 NLP 研究中，key 和 value 常常都是同一个，即 key=value
$\text { attention }(Q, K, V)=\sum_{j} a_{i} V_{i}$

attention 的变种

首先从大的概念来讲，针对 attention 的变体主要有两种方式：
1.一种是在 attention 向量的加权求和计算方式上进行创新
2.另一种是在 attention score（匹配度或者叫权值）的计算方式上进行创新
当然还有一种就是把二者都有改变的结合性创新，或者是迁移性创新
attention score 常见的计算方式我们前面已经给出了，所以下面主要介绍向量的加权求和计算方式上进行创新。

self-attention

前面我们介绍了在 seq2seq 模型中的 attention，是 Decoder 中的 query 去和 Encoder 计算 attention score，再后来 NLP 中出来的 attention 多用来在 Encoder 中自己与自己做attention，也就是 self-attention。

比如 Transformer 和 Bert 中，都是在 Encoder 中输入句子或者段落，然后在 Encoder 内完成 attention 的计算。 Encoder 自己与自己算，所以广义上也称为一种 self-attention。

Transformer 中的 slef-attention 李宏毅版本的计算方法如下图:

这里的 q,k,v 都是输入向量 $a$ 通过矩阵变换得到的，不同向量在 Encoder 中与同一时刻输入进来的其它向量做 attention 计算，因为在 Encoder 内部自己与自己计算，所以叫 self-attention。这里主要是强调，self-attention 和 attention 计算理念相同，就是计算对象不同。

追溯原始的话，Self Attention 最早在 2016 年被提出。在文本分类，文本推荐等领域，虽然输入是一个序列（或者说一组向量），但是输出却不是（输出通常为一个值）。我们有 values，但是似乎难以寻找一个额外的 query。例如文本分类中，除了文本本身并没有其他输入。
针对这样的场景，Yang et al.在2016年提出了Self Attention。顾名思义，self attention 的 query 和 values 都属于同一个序列。

观察到对于一个句子的向量表示，各个词在其中的贡献程度都是不一样的。同样对于一篇文章的向量表示而言，各个句子对其的贡献程度也是不同的。Yang et al. 希望通过 Self attention 机制可以帮助提取出相对更重要的词语或句子。

给出句子层级的 Context 向量 $u_s$ ，第 $i$ 个句子的 RNN 隐层向量为 $h_i$ ，求文章的表示向量 $v$ ，有
$u_{i}=\tanh \left(W_{s} h_{i}+b_{s}\right)$
$\alpha_{i}=\frac{\exp \left(u_{i}^{T} u_{s}\right)}{\sum_{i} \exp \left(u_{i}^{T} u_{s}\right)}$
$v=\sum_{t} \alpha_{i} h_{i}$

Soft attention、global attention

这两个就是我们上面讲过的那种最常见的 attention，是在求注意力分配概率分布的时候，对于输入句子 X 中所有单词都给出个概率，是个概率分布，换句话说，就是给所有 value 一个权重。如下图：

Hard attention

事实上，attention 输出并不一定要通过 Softmax 和加权和获得。Soft是给每个单词都赋予一个权重(概率)，那么如果不这样做，直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为 0，这就是 Hard Attention Model 的思想。
这种方法虽然快速，其不可导的特性也为模型训练带来了困难，需要引入variance reduction 或者强化学习来帮助学习。

local attention （半软半硬attention）

我们之前介绍的 attention 都是对整组向量进行的 attention 操作，但是当向量数量很多（长句子，图像）时，计算的消耗(Softmax 是一个耗时操作)会很大，这其实也是 Hard Attention 提出的初衷。但是 Hard Attention 不可导的特性也带来了一些困难，有没有既可导又可以减少计算时间的方法呢？ Local Attention 就是这样被提出来的。

相对于 global attention (对整组向量进行 attention 计算), local attention 只对一个窗口内的向量进行 attention 计算。先根据 Decoder 当前时步选择一个 Encoder 对应的位置 $p_t$ 作为基准位置，然后取 $p_t-D,p_t+D]$ 作为计算窗口，这里的 $D$ 是根据经验取的超参数。之后对窗口内向量计算 attention 输出。

这里对于 $p_t$ 的取法论文给出了两种变体，一种是简单的一一对应。即 $p_t = t$ ，Decoder 的第一时步即对应 Encoder 的第一个输入位置，第二时步则对应 Encoder 的第二个输入位置，依次类推。此时的 attention 计算也和 global attention 一致，唯一的不同是只对窗口内元素进行计算。

第二种方法是 joint learning 一个预测网络层来预测 $p_t$ 的值。论文中给出的方法是 $p_{t}=S \cdot \operatorname{sigmoid}\left(v_{p}^{T} \tanh \left(W_{p} h_{t}\right)\right)$
这里 $W_p$ 和 $v_p$ 是可学习的模型参数， $S$ 是输入句子的长度， $h_t$ 是 Decoder 在 $t$ 时刻的隐层向量。此时 attention的计算在 softmax 的基础上乘上了一个高斯分布项使得靠近 $p_t$ 的输入能有更高的权重。
$\alpha_{t}(s)=\operatorname{arign}\left(h_{t}, h_{s}\right) \exp \left(-\frac{\left(s-p_{t}\right)^{2}}{2 \sigma^{2}}\right)$
这里 $s$ 是一个位于 $p_t-D,p_t+D]$ 的整数，表示对应第 $s$ 个 Encoder输入。相应的是 Encoder 第 $s$ 个输入相对于 Decoder 第 $t$ 个输出的 attention 权重， $h_s$ 是第 $s$ 个 Encoder 输入的隐层向量， $h_t$ 是 Decoder 在 $t$ 时刻的隐层向量， $a l i g n ()$ 是 global attention 中计算 attention 权重的方式， $\sigma=\frac{D}{2}$ 。

Scaled Dot-Prodcut Attention

这里主要讲 Transformer 模型的 attention 设计。 Transformer 同样采用了 Key-Value Attention 的设计，不过出于性能考虑，它使用的不是 addictive 的形式，而是 dot product 形式:
$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$

其中
$\in \mathbf{R}^{|Q| \times d_{k}}，K \in \mathbf{R}^{|K| \times d_{k}},V \in \mathbf{R}^{|K| \times d_{v}}$

$Q$ 是 query 向量构成的矩阵，|Q|是 query 的数量。 $K$ 是 Key 向量构成的矩阵，|K| 是 key 的数量，同时也是 key-value 对中的 value 的数量。 $V$ 是 values 向量构成的矩阵。分母 $\sqrt{d_{k}}$ 是一个数值上的处理，为避免 dot product 过大而引入的缩放项, $d_k$ 是 key 向量维度，也是 query 向量的维度。
也可以把矩阵形式拆开，写为
$\operatorname{Attention}(q, K, V)=\sum_{i} \frac{e^{q \cdot k_{i}}}{\sum_{j} e^{q \cdot k_{j}}} v_{i}$
注意 $q$ 和 $k$ 的维度都是 $d_{k}$ , 而 $v$ 的维度是 $d_{v}$ 。

这里要注意一点，虽然 Transformer 也是采用的 Self Attention，但是这里的 Self Attention 不同于我们在之前的 [Yang, Zichao, et al 2016] 中看到的 Self Attention。之前我们看到的 Self Attention 可以理解为把每一个 query 都作为一个同参数向量来 joint learning 的，而这里采用的 query 向量就是这个词语的词向量（在后面提到的 Multi-head 版本中是词向量的降维形式）。他们的 keys 和 values 都是一致的，均为句子中各个词语的词向量。

这里李宏毅版本的 Transformer 见self-attention那一节，里面的 q,k,v 并不是直接用的词向量，和这里说法不一致，我觉得没有谁对谁错，两种应该都可以。

Multi-Head Attention

单层的 attention 涵盖的信息可能不足以支持多种下游任务, Transformer 在前面 attention 的设计之上继续叠加成为了 Multi-Head Attention。

$\operatorname{MultiHead}(Q, K, V)=\operatorname{Concat}\left(\right.head_{1}, \ldots, head \left._{h}\right) W^{O} \quad$
其中 $head_{i}=\operatorname{Attention}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}\right)$
这里 $W_{i}^{Q} \in \mathbf{R}^{d_{\text {model }} \times d_{k}}, W_{i}^{K} \in \mathbf{R}^{d_{\text {model }} \times d_{k}}, W_{i}^{V} \in \mathbf{R}^{d_{\text {model }} \times d_{v}}, W^{O} \in \mathbf{R}^{h d_{v} \times d_{\text {model }}}$ . 其中 $d_{\text {model }}$ 是模型中q, $\mathrm{k}$ , v向量的维度, 在 Transformer 模型中输入的单条 query, key, value 向量的维度都是一样的, 这里用 $d_{\text {model }}$ 表示。
$h$ 是 Multi-Head 的 Head 数, 即并行输出的 Attention 层的层数, 是一个超参数, 在模型中取 8。
$d_{k}, d_{v}$ 是将高维的 $d_{\text {model }}$ 维度通过相应的 $W$ 矩阵映射后的维度, 在模型中取 $d_{k}=d_{v}=d_{\text {model }} / h=64$ 。这里对原向量进行降维，只是一种架构选择。

下面我们结合上式对计算 MultiHead Attention 的过程进行一个描述。

我们首先对输入的高维向量 $Q, K, V$ 通过 $W$ 矩阵进行降维, 然后进行 Scaled Dot-Product Attention 得到我们的 Attention 输出, 再将输出拼接在一起, 通过 $W^{O}$ 矩阵还原为高维形式。
通过引入 Multi-Head 和相应的降维操作, 我们的计算量实际上和单一层数近似, 同时又获得了更丰富的表征。

总结

attention 机制从解决 Seq2Seq 中信息瓶颈问题而来，用加权和的形式聚合向量，简单而有效。只要我们使用了加权求和，不管你是怎么花式加权，花式求和，只要你是根据了已有信息计算的隐藏状态的加权和求和，那么就是使用了 attention，而所谓的 self-attention 就是仅仅在句子内部做加权求和。而 key-value 其实是对 attention 进行了一个更广泛的定义罢了，我们前面的 attention 都可以套上 q,k,v 的定义，只不过我们很多时候 k = v，做 self-attention 的时候存在 q = k = v 的时候。

当我们在模型中具体运用它时，陶陶君子总结了以下几点可以提供一个设计和思考的方向：

确定场景中的 query 和 values（或者query, key-values）
确定 attention score 计算方法
根据问题考虑是否采用更特殊的 attention 设计
优化 attention 性能

下面针对这几点进行一个更详细的说明。

确定场景中的 query 和 values。例如在 Seq2Seq 中，query 是 Decoder中当前待翻译的词语，values 是 Encoder 中的各个词语的隐向量。在 Self-Attention 中，query 可以用一个待学习的向量代替，也可以用当前词向量（或其映射）做 query ，values 则是整个句子的各个词向量。在 VQA 中，问题文本的一个词是 query，图像的 feature map 是 values，同时图像的一个区域是 query，问题文本的各个词语是 values。其他领域的 query 和 values，以及 query, key-values 也可以类似的确定。
确定 Attention Score计算方法。最常用的点乘(Dot product)和加法(Additive)，以及其他各个变种(如乘法(Multiplicative)，拼接(Concat))。可以从query 和 values(keys) 的维度，计算效率，训练难度，还有问题本身的结构和性质等方面考虑。如果 query 和 values(keys) 维度一样，那么可以直接点乘，不一样的话需要考虑用乘法形式，不一样时也可以用拼接或者加法形式。点乘的计算效率比加法高，但是也要注意数值上的突变问题，考虑像 Transformer 一样加入 scala 缓和该问题。如果问题本身有特殊的结构，相似性度量方法，需要根据具体情况选用相应的形式。
更特殊的 Attention 设计
- multi-head 设计。如果有多个下游任务，或者目标任务需要关注的信息较多，那么可以采取多层 attention 设计。是否需要像 Transformer 一样对各层输入进行降维可以根据计算量和模型结构决定。是否需要像 Lin et al.那样在多维模型 [Lin et al. 2017] 中那样加入惩罚项，可以对 attention 权重进行可视化后，判断是否有效的学习到了多种信息后再决定。
- 层次设计。这个由问题特性决定。例如文章-句子-词语，句子-词语-字等天然具有层次特性。事实上多层次对模型结构本身影响不大，主要是需要避免训练过于困难。
- Co-Attention 设计。这个也由问题特性决定，问题中如果query和values具有对称性可以考虑。
优化Attention性能。在大规模的应用中，常常会遇到性能瓶颈，这时候可以考虑对 Attention 性能进行进一步的优化。
- 确定 attention的范围 local attention 还是 global attention，是固定窗口还是通过学习参数矩阵来预测，窗口的方向是双向还是单向。
- Hard Attention。 Hard Attention带来了一些训练和设计的困难，但是也减少了计算量。
- 因子分解。可以考虑分解成多个因子，保留最关键的计算部分，如在特定 cv 领域可以删掉计算 query 和 values 内容相关性的部分。

参考链接：
自然语言处理中的Attention机制总结 - csdn
Attention机制的前世今生 - 知乎
seq2seq 与attention机制 - 网易云课堂(免费课程)
Sequence to Sequence模型 - 知乎
深度学习中注意力机制(attention)的真实由来 - b站
seq2seq模型详解 - csdn
从自然语言处理说说Attention机制 - 知乎
台大李宏毅21年机器学习课程 self-attention和transformer - b站

你可能感兴趣的:(Deep,Learning,人工智能,深度学习,自然语言处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多