静静的喝酒

深度学习笔记之Seq2seq(二)基于Seq2seq注意力机制的动机

深度学习笔记之Seq2seq——基于Seq2seq注意力机制的动机

引言
- 回顾：基于机器翻译任务的 $\text{Seq2seq}$ 网络结构
- 注意力机制的动机
- - 循环神经网络作为 $\text{Encoder}$ 产生 $\text{Context}$ 向量的缺陷
  - 注意力机制处理上述两种问题
  - 权重系数求解
  - $\text{Score}$ 函数的计算方式

引言

上一节介绍了 $\text{Seq2seq}$ 网络常用的基本结构以及在机器翻译任务中，关于目标函数与预测概率的描述。本节依然以机器翻译任务为例，对 $\text{Seq2seq}$ 中的注意力机制 $(\text{Attention})$ 进行描述。

回顾：基于机器翻译任务的 $\text{Seq2seq}$ 网络结构

关于机器翻译任务的 $\text{Seq2seq}$ 网络结构表示如下：

该结构包含编码器 $(\text{Encoder})$ 与解码器 $\text{Decoder}$ 两部分。并且它们均是循环神经网络的网络结构。已知在编码器中输入的序列数据 $\mathcal X$ 表示如下：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(\mathcal T)})^T$
通过循环神经网络我们可以得到最终 $\mathcal T$ 时刻的序列信息 $\text{Context}$ 向量，记作 $\mathcal C$ 。其中 $\mathcal C$ 记录了序列数据 $\mathcal X$ 所有时刻的序列信息。

在解码器的执行过程中，初始状态下，给定一个初始标识符 $\left\langle\text{Start}\right\rangle$ ，基于 $\text{Encoder}$ 读取的序列信息 $\mathcal C$ ，我们可以求解翻译过程中初始时刻 $y^{(1)}$ 的条件概率结果：
其中‘初始标识符’ $\left\langle\text{Start}\right\rangle$ 本身不包含任何语义信息。这里将其忽略;
$y^{(1)} \Rightarrow \mathcal P(y^{(1)} \mid \mathcal C,\left\langle\text{Start}\right\rangle) = \mathcal P(y^{(1)} \mid \mathcal C)$
在得到概率分布 $\mathcal P(y^{(1)} \mid \mathcal C)$ 的同时，我们同样可以得到解码器初始时刻的序列信息 $h_{\mathcal D;1}$ ：

这里以 $\text{RNN}$ 为例, $\text{LSTM,GRU}$ 同理。只不过 $\text{RNN}$ 的表述能够简单一些。
由于 $\left\langle\text{Start}\right\rangle$ 中不包含语义信息，因而不希望其对应的权重 $\mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}}$ 学习到任何有用的信息，这里将其忽略。
$\begin{aligned} h_{\mathcal D;1} & = \text{Tanh} \left(\mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}} \cdot \mathcal C + \underbrace{\mathcal W_{\text{Start} \Rightarrow h_{\mathcal D;1}} \cdot \left\langle\text{Start}\right\rangle}_{\text{Delete}} + b_{h_{\mathcal D}}\right) \\ & = \text{Tanh}( \mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}} \cdot \mathcal C + b_{h_{\mathcal D}}) \end{aligned}$

同理，根据 $\text{Seq2seq}$ 结构，我们同样可以得到下一时刻 $y^{(2)}$ 的后验概率分布以及对应时刻的序列信息 $h_{\mathcal D;2}$ ：
$\begin{aligned} y^{(2)} & \Rightarrow \mathcal P(y^{(2)} \mid \mathcal C,y^{(1)}) \\ h_{\mathcal D;2} \ & = \text{Tanh} \left(\mathcal W_{h_{\mathcal D;1} \Rightarrow h_{\mathcal D;2}} \cdot h_{\mathcal D;1} + \mathcal W_{y^{(1)} \Rightarrow h_{\mathcal D;2}} \cdot y^{(1)} + b_{h_{\mathcal D}} \right) \end{aligned}$
以此类推。而最终关于生成序列 $\mathcal Y$ 基于 $\text{Context}$ 向量 $\mathcal C$ 条件下的联合概率分布 $\mathcal P(\mathcal Y \mid \mathcal C)$ 可表示为：
$\begin{aligned} \mathcal P(\mathcal Y \mid \mathcal C) & = \mathcal P(y^{(1)},y^{(2)},\cdots,y^{(\mathcal T')} \mid \mathcal C) \\ & = \mathcal P(y^{(1)} \mid \mathcal C) \cdot \prod_{t=2}^{\mathcal T'} \mathcal P(y^{(t)} \mid \mathcal C,y^{(1)},\cdots,y^{(t-1)}) \end{aligned}$

注意力机制的动机

循环神经网络作为 $\text{Encoder}$ 产生 $\text{Context}$ 向量的缺陷

如果将解码器各输出的条件概率看做是一个复杂函数 $f(\cdot)$ ，各条件概率可表示为如下形式：
除了第一项，虽然后续函数中没有体现出 $\mathcal C$ 的参与，但实际上，解码器每一个时刻关于 $y^{(t)}(t=1,2,\cdots,\mathcal T')$ 的生成过程均有 $\mathcal C$ 的参与,因为 $h_{\mathcal D;1},h_{\mathcal D;2},\cdots$ 内均有 $\mathcal C$ 参与运算。
$\begin{aligned} y^{(1)} & \Rightarrow \mathcal P(y^{(1)} \mid \mathcal C) = f(\mathcal C) \\ y^{(2)} & \Rightarrow \mathcal P(y^{(2)} \mid y^{(1)},\mathcal C) = f(y^{(1)},h_{\mathcal D;1}) \Rightarrow f(y^{(1)},\underbrace{\mathcal C}_{\text{from } h_{\mathcal D;1}}) \\ y^{(3)} & \Rightarrow \mathcal P(y^{(3)} \mid y^{(1)},y^{(2)},\mathcal C) = f(y^{(2)},h_{\mathcal D;2}) \Rightarrow f(y^{(2)},\underbrace{y^{(1)},\mathcal C}_{\text{from } h_{\mathcal D;2}})\\ & \quad \quad \quad \quad \quad \vdots \end{aligned}$
因此，有：在生成 $y^{(t)}(t=1,2,\cdots,\mathcal T')$ 的每一个时刻中，都需要对原始的原始的输入数据 $\mathcal X$ 进行读取，并生成 $\text{Context}$ 向量 $\mathcal C$ 。
这里描述的重点是：每生成一个 $y^{(t)}$ ,都要重新从 $\text{Encoder}$ 中生成一遍 $\mathcal C$ ,再对 $y^{(t)}$ 进行翻译。

遗忘问题：但是这个过程的问题在于：由于循环神经网络梯度消失的问题，导致我们从 $\mathcal X$ 学习的 $\mathcal C$ 并不准确。这种不准确主要体现在： $\mathcal C$ 对 $\mathcal X$ 初始时刻信息存在遗忘现象。

由于梯度消失，导致 $\mathcal C$ 仅能有效地描述最后‘若干个’时刻的序列信息，对 $\mathcal X$ 初始时刻的序列信息，它并不能有效地记忆——长距离依赖问题。
我们不否认 $\text{LSTM},\text{GRU}$ 能够缓解这种问题，以 $\text{GRU}$ 为例。以时间、空间复杂度的代价，通过‘路径’量的堆积以及‘更新门、重置门’结构的调节，使其有更多的可能将梯度传递给更深(更初始)的时刻。但是随着序列的增长，每一条路径的‘梯度消失现象’是客观存在的。

基于这种现象，可能导致：翻译出来的句子结果仅与 $\mathcal X$ 后半段信息存在更多关联。

对齐问题：在正常的翻译逻辑中，翻译结果与被翻译句子之间，某些词之间存在映射关系。例如：
中文：早上好。
英文： $\text{Good morning}$ .
很明显，有：
早上 $\Rightarrow \text{morning}$ ;
好 $\Rightarrow \text{good}$ .
但是在 $\text{Context}$ 向量 $\mathcal C$ 作为解码器的输入，并不能很好地描述这个映射关系。换句话说：由于 $\mathcal C$ 仅仅描述的是最终时刻的序列信息，如果 $\mathcal C$ 描述的是早上好这句话的序列信息，无法将早上和好这两个词从 $\mathcal C$ 中挑选出来。
相当于这个‘固定大小的序列向量’ $\text{Context}$ 将每个词在句子中的序列信息‘混在一起’,单个词相关的序列信息无法‘单独拎出来’。

注意力机制处理上述两种问题

我们基于序列数据 $\mathcal X$ 学习到的序列信息，如何避免上述两种情况 $?$
一种直观的想法是：在学习过程中，将每一时刻的序列信息 $h^{(t)}(t=1,2,\cdots,\mathcal T)$ 都存储下来：
$x^{(t)} \rightarrow h^{(t)} \Rightarrow \mathcal X \rightarrow \mathcal H = (h^{(1)},h^{(2)},\cdots,h^{(\mathcal T)})^T$
此时在解码过程中不再使用最终 $\mathcal T$ 时刻序列信息作为 $\text{Context}$ 向量 $\mathcal C$ 了，因为上述两种问题 $\mathcal C$ 无法解决。随之而来的是各时刻序列信息组成的矩阵 $\mathcal H$ ，新的问题随之出现：如何使用 $\mathcal H$ 取描述/确定 $\text{Context}$ 向量 $\mathcal C ?$

例如如下的翻译例子：
中文：我是一名演员。
期望的翻译结果：
英文： $\text{I am an actor}$ .

首先观察 $\text{am}$ 这个词，它在编码前的中文对应的是这个词，也就是说：是这个词对翻译结果 $\text{am}$ 的作用很大。另一个问题：翻译结果为 $\text{am}$ ，对这个翻译结果产生贡献的仅仅只有[是]这一个词吗 $?$

在这里明显不是。 $\text{am}$ 在英语中是 $\text{be}$ 动词的一种，一般用来表示[是]这个意思， $\text{be}$ 动词有好多种( $\text{am,is,are,was,were},\cdots$ )，为什么这里要选择 $\text{am}?$ 因为：输入的序列数据 $\mathcal X$ 中是第一人称——[我]。

假设从重要程度的角度观察，翻译结果 $\text{am}$ 关于输入序列数据 $\mathcal X$ 中各词的重要程度表示如下：
这里的‘重要程度’ $0.3, 0.7$ 是假设的结果。

这仅仅是从句子逻辑的角度考虑的，那换成向量呢 $?$ 由于 $h^{(1)},h^{(2)},\cdots h^{(\mathcal T)} \in \mathcal H$ 中， $h^{(t)}$ 所包含的序列信息也包含前面 $t - 1$ 个时刻的序列信息，只不过因遗忘的因素存在， $t$ 值越来越大，初始时刻保留的信息越来越少而已。将上述信息用向量进行表示，具体的重要程度分布表示如下：
这里比例设置得可能不太平衡，这仅是一个示例。

至此，可以认为：解码器预测的结果是基于编码器各时刻隐状态的共同结果，只不过不同隐状态对应的权重比率不同而已。从而针对这些向量进行加权求和：
$\mathcal C_2 = \mathcal C_{\text{am}} \Rightarrow 0.2 * h^{(1)} + 0.7 * h^{(2)} + 0.05 * h^{(3)} + 0.03 * h^{(4)} + 0.02 * h^{(5)}$
这种基于加权求解解码器输出的方式相比于之前之前所有输出均基于 $\text{Context}$ 向量 $\mathcal C$ 的方式而言，能够得到更有注意力偏向的结果。
这里同样可以例举一个 $\text{an}$ 的例子。 $\text{an}$ 是不定冠词，为什么不选择 $\text{a}$ 而是选择 $\text{an}$ ——很明显，其后面第一个词是 $\text{actor}$ ,开头是元音字母。因此 $\text{an}$ 的生成从句子角度观察与[一名],[演员]两个词都有关联关系，这里就不展开描述了。

两者最明显的区别在于：每一个词均有不同的注意力偏向，即不同的 $\text{Context}$ 向量与其对应 $(\mathcal C_1,\mathcal C_2,\cdots)$ 。从而不再共用同一个 $\text{Context}$ 向量 $\mathcal C$ ：
这里两种方式做一个比对。
$\begin{aligned} \begin{cases} y^{(1)} & = f(\mathcal C) \\ y^{(2)} & = f(y^{(1)},\mathcal C) \\ y^{(3)} & = f(y^{(1)},y^{(2)},\mathcal C) \\ & \vdots \\ \end{cases} \Longleftrightarrow \begin{cases} y^{(1)} & = f(\mathcal C_1) \\ y^{(2)} & = f(y^{(1)},\mathcal C_2) \\ y^{(3)} & = f(y^{(1)},y^{(2)},\mathcal C_3) \\ & \vdots \\ \end{cases} \end{aligned}$

权重系数求解

针对上面描述，我们确定了针对不同的解码输出，从而对编码部分构建不同的注意力偏向。问题在于：这个偏向，也就是各时刻序列信息的权重系数/权重比例如何求解：

依然以上面的我是一名演员。 $\Rightarrow \text{I am an actor .}$ 为例。假设 $t = 2$ 时刻要预测 $\text{am}$ 这个单词，如何给原始各时刻的序列信息 $h^{(1)},h^{(2)},h^{(3)},h^{(4)},h^{(5)}$ 分配权重 $?$

一种朴素的想法：

在解码过程的 $t(t=1,2,\cdots,\mathcal T')$ 时刻，选择该时刻的一个向量 $\mathcal Q_t$ ；
让 $\mathcal Q_t$ 分别与编码器各时刻的序列信息 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行比较，计算它们之间的相似度结果 $\text{Score}(\mathcal Q_t,h^{(i)})$ ，相似度高的 $\text{Score}$ 数值更大;
最终将个 $\text{Score}$ 结果做一个归一化操作即可。

基于这种想法，关于解码器的 $t$ 时刻，此时 $y^{(t)}$ 还没有被预测出来，那么选择哪一个向量作为 $\mathcal Q_t$ 与 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行比较呢 $?$

两种思路：

将解码器中当前 $t$ 时刻的上一时刻( $t - 1$ )的隐状态 $h_{\mathcal D;t-1}$ 作为 $\mathcal Q_t$ ；
将解码器中当前 $t$ 时刻的隐状态 $h_{\mathcal D;t}$ 作为 $\mathcal Q_t$ ；

无论 $\mathcal Q_t$ 使用哪种选择方式，都被称作查询向量 $(\text{Query})$ 。这里首先介绍 $\text{Score}(\mathcal Q_t,h^{(i)})$ 的计算方式。

$\text{Score}$ 函数的计算方式

计算两向量之间的相似度，最先想到的就是余弦相似度 $(\text{Cosine Similarity})$ 。具体做法就是两向量之间做内积：
$\mathcal M^T\mathcal N = (m_1,m_2,\cdots m_k) \begin{pmatrix} n_1 \\ n_2 \\ \vdots \\ n_k \end{pmatrix} = m_1n_1 + m_2n_2 + \cdots + m_kn_k \quad \mathcal M,\mathcal N \in \mathbb R^{k \times 1}$
内积数值越大，意味着两向量的相似性程度越高；我们仅需要将解码器产生的查询向量 $\mathcal Q_t$ (例如： $h_{\mathcal D;t}$ )与编码器中各时刻产生的序列信息 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行内积即可。

但这种操作的问题在于：需要 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的张量格式相同，否则无法执行内积。这里的张量格式具体指什么 $?$ 不可否认的是： $\text{Seq2seq}$ 模型结构中的 $\text{Encoder}$ 和 $\text{Decoder}$ 是两个独立的循环神经网络结构。这里以单层 $\text{GRU}$ 神经网络为例：

已知某 $\text{Batch}$ 的数据格式为： $[100, 10, 8]$ 。其中：

$100$ 表示 $\text{BatchSize}$ 大小；
$10$ 表示文本的序列长度；
$8$ 表示每个词的 $\text{Embedding}$ 维数；

关于 $\text{GRU}$ 的参数描述： $\text{EmbedSize = 8}$ ；就是词语的 $\text{Embedding}$ 维数； $\text{NumHiddens= 16}$ ；(这里随意选择的值)表示神经元个数，但是这个参数和输出的序列长度，或者是 $\text{RNN}$ 的循环次数之间没有任何关系。

在 $\text{Seq2seq}$ 基本介绍中提到过，循环神经网络输入与输出的序列长度相同。这也是它无法直接做机器翻译的弊端。同理， $\text{NumLayers = 2}$ 表示如果是深度循环神经网络，该参数描述神经网络堆叠的层数。观察上述格式数据，进入 $\text{GRU}$ 网络后的输出结果：

import torch
from torch import nn as nn

BatchSize = 100
SeqLength = 10
EmbedSize = 8
NumHiddens = 16
NumLayers = 2

x = torch.randn(BatchSize,SeqLength,EmbedSize).permute(1,0,2)
RNN = nn.GRU(EmbedSize,NumHiddens,NumLayers)
Output,State = RNN(x)
print(x.shape)
print(Output.shape,State.shape)

返回结果如下：

torch.Size([10, 100, 8])
torch.Size([10, 100, 16]) torch.Size([2, 100, 16])

可以看出，关于单个时刻的序列信息 $\text{State}$ ，影响它格式的有 $\text{NumLayers,NumHiddens}$ ，但绝对不会有序列长度相关的信息进行影响。
为什么要强调这个~是因为视频中存在一些偶然情况，导致理解错误。
由于是两个独立的循环结构，不同的网络参数也会影响各自 $\text{State}$ 输出的张量格式，从而导致无法直接求解内积。

这里介绍两种解决方式：

既然 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的张量格式不匹配，通过乘以一个参数矩阵 $\mathcal W_{\mathcal Q_t}$ ，从而使他们的格式匹配，从而进行内积。例如：
为简化起见，仅使用一个样本进行描述。即 $\text{BatchSize=1}$ 并消掉维度;并且 $\text{NumLayers = 1}$ ，主要观察 $\text{NumHiddens}$ 之间的区别。其中 $\mathcal N_{En}$ 表示编码器 $\text{Encoder}$ 的 $\text{NumLayers}$ ; $\mathcal N_{De}$ 表示 $\text{Decoder}$ 的 $\text{NumLayers}$ 。
$\begin{cases} \mathcal Q_t \in \mathbb R^{\mathcal N_{En} \times 1},h^{(i)} \in \mathbb R^{\mathcal N_{De} \times 1} \\ \mathcal W_{\mathcal Q_t} \in \mathbb R^{\mathcal N_{En} \times \mathcal N_{De}}\Rightarrow [\mathcal W_{\mathcal Q_t}]^T \mathcal Q_t \in \mathbb R^{\mathcal N_{De} \times 1} \end{cases}$
在降维中介绍过，这实际上就是一种‘特征转换’：将原始向量(未丢失信息)从当前特征空间映射到高维/低维特征空间。基于映射情况来调整 $\mathcal W_{\mathcal Q_t}$ 内向量间的关系。
最终的内积结果可表示为如下形式：该结果就是编码器 $t$ 时刻的序列信息 $\mathcal Q_t$ 与解码器 $i$ 时刻的生成序列信息 $h^{(i)}$ 的相似度结果。
$\text{Score}(\mathcal Q_t,h^{(i)})= \left[[\mathcal W_{\mathcal Q_t}]^T \mathcal Q_t\right]^T h^{(i)} = [\mathcal Q_t]^T \mathcal W_{\mathcal Q_t} h^{(i)}$
另一种方式就是构建神经网络。将两向量拼接 $(\text{Concatenate})$ 在一起作为神经网络的输入信息；根据神经网络的通用逼近定理 $(\text{Universal Approximation Theorem})$ ，使其结果返回 $\text{Score}$ 作为输出。
需要训练的参数就是神经网络中神经元对应的权重信息。

两种方式的主要区别在于：

内积方法是从余弦相似度的角度出发，虽然中间使用 $\mathcal W$ 执行特征转换，但其结果依然可以表达 $\mathcal Q_t$ 和 $h^{(i)}$ 之间的相关关系；
而神经网络方法则全权交给通用逼近定理了，无法体现出 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的相关关系。

相关参考：
seq2seq与attention机制

url scheme 实现跳转到小程序页面 stand_forever 小程序
获取小程序scheme码，适用于短信、邮件、外部网页等拉起小程序的业务场景。通过该接口，可以选择生成到期失效和永久有效的小程序码参考文档:https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/url-scheme/urlscheme.generate.html/***获取urlscheme接口*/publicfu
2024年10大返利App排行榜，全网佣金超高的返利平台推荐直返APP京东优惠券
在数字化时代，返利平台成为了消费者省钱购物的好帮手。本文为您推荐2024年10大返利App，让您在享受购物乐趣的同时，还能获得丰厚的佣金回报。一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上获取自己感兴趣的商品，购买后可以获得一定比例的返利。直返的返利速度快、金额高，深受用户喜爱。通过直返APP买没有上级赚差价，领券还
2022-07-14 坡山文和君
《今年的夏天》今年的夏天地球的空间热气腾腾火红的太阳光彩夺目似乎要把宇宙万物放进烤炉做成美味可口的料理我这颗燥动不安的小心脏伴随着温度直线飙升的肉体发起烧来张开闭合的嘴巴尽说胡话。
依附自我觉察日记本
为了确保自己不被离弃，我们做出很大的牺牲。我们牺牲了自己。我相信依附的情形早在三岁就开始了，并一直延续到青春期，所以我们可以轻易地了解，这对我们怎么看自己会有很大的影响。想象一下，一个小女孩可能放弃自己的积极和坚决的态度来取悦父亲；放弃自己的性欲以免让父亲感到威胁；放弃自己的智慧，好让自己看起来柔顺没有伤害性，而且必须有比她聪明的人让她依靠；忽视自己的艺术天分，好让父亲知道她很注重实际；改掉自己外
代娇代旭(我的继承者们，都是假的！)全文免费在线阅读_我的继承者们，都是假的！完整版免费在线阅读_代娇代旭《我的继承者们，都是假的！》全本免费在线阅读_(代娇代旭)最新章节在线阅读_代娇代旭《我... 全本全集小说
代娇代旭(我的继承者们，都是假的！)全文免费在线阅读_我的继承者们，都是假的！完整版免费在线阅读_代娇代旭《我的继承者们，都是假的！》全本免费在线阅读_(代娇代旭)最新章节在线阅读_代娇代旭《我的继承者们，都是假的！》全文免费阅读_我的继承者们，都是假的！全集在线阅读主角配角：代娇代旭简介：我又收养了一个女儿只因她一语道破我家那个女儿是假的！带新女儿回家那日，历来温顺的女儿割腕抗议儿子也摔碗以死相
想卖莆田鞋怎么找货源，推荐8个莆田鞋货源放心入手可爱的调皮捣蛋鬼
1.莆田市鞋都商贸城作为福建省莆田市历史悠久的鞋业交易集散地，鞋都商贸城拥有3000家莆田鞋厂家，提供丰富的鞋款、价格和材质等信息。在这里，您可以轻松找到优质的莆田鞋货源。2.莆田市朝阳男鞋批发商贸城朝阳男鞋批发商贸城是莆田市的另一家知名鞋类批发市场，提供各种男女鞋、儿童鞋等款式。官网上的货源信息详细全面，便于您挑选所需产品。3.莆田市鞋都批发市场新兴的鞋都批发市场定位于莆田市鞋业的网上交易，汇聚
2022年3月8日日精进曾经的年华
京心❤️达：樊伟伟2022年3月8日日精进日落地真经严格就是爱，放纵既是害油卡目标：80张、完成20张正能量语录每一颗螺丝都有标准每一颗螺丝都是标准今日体验：做事该斩钉截铁的时候就要当机立断，唯唯诺诺最容易坏事，该狠的时候必须要狠，哪怕不做这件事，也不能拖拖拉拉。
点一盏心灯董晓利腊梅
今天是陪学生们晨读经典第一百一十九天，清代《聊斋志异》的作者蒲松龄的落第之后，并没有因为一次的失败而志气消沉，“有心人，天不负，百二秦关终属楚；有志者，事竟成，三千越甲可吞吴”之后成为了他自勉的对联，告诉自己只要自己坚持下去，总会高中的。我也想把这副对联送给自己和孩子们，希望我们合作共赢，过一个轻松快乐的新年！今天早到即学的同学有：5：21孟家乐，5：25袁怡琳、刘吉祥、张怡菲、宋昌衡，5：28王
Redis事务+Lua脚本一枚老菜鸟～啦啦中间件 #Redis lua redis java
Redis的事务使用multi开启事务，但是redis的事务只是对语法的检查，它的事务是非常弱的事务，无法解决运行时的错误，因此实际使用中不要使用redis的事务（也可以根据自己的实际业务场景选择是否使用事务，当然并不建议使用multi的事务方式）Transactionmulti=jedis.multi();multi.set(RS_TRANS_NS+"test1","a1");multi.set
redis 结合Lua脚本实现秒杀、防止超卖小哇666 #redis redis lua
需求：同1商品单个用户限购1件，库存不会超卖1Lua脚本，因可实现原子性操作，这个文件放到resources目录下localuserId=KEYS[1]--当前秒杀的用户IDlocalgoodsId=KEYS[2]--秒杀的商品ID--订单idlocalorderId=ARGV[1]redis.log(redis.LOG_NOTICE,"秒杀商品ID：‘"..goodsId.."’，当前秒杀用户I
mysql数据库底层逻辑
一、数据加载在MySQL中，数据持久化存储在磁盘上，但为了高效访问，MySQL会智能地将数据加载到内存中。Mysql在内存中构建缓冲池,当查询需要访问数据时，MySQL首先检查缓冲池,若数据不在缓冲池：1.从磁盘读取目标页（16KB单位）2.将页加载到缓冲池的空闲页（FreeList）3.将页添加到LRUList的OldSublist头部(LRU分为两个区域：NewSublist（5/8）：最近频
sentinel授权规则
授权规则可以对调用方的来源做控制，有白名单和黑名单两种方式白名单：来源在白名单内的调用者可以访问黑名单：来源在黑名单的调用者不允许访问例如，我们只允许从网关来的请求访问order-service，那么流控应用就填网关名称sentinel是通过RequestOriginParser这个接口的ParseOrigin来获取请求来源的，我们可以实现这个接口，重写方法，尝试从request中获取一个名为or
方南的余生日记2022-09-08 方南一路向东南西北
今天又加班···加班干啥，加班开会···开什么会，批斗大会。没有胖球比赛和LPL比赛和cba的日子里，我重新开始看起了足球比赛，也是不挑，什么意甲英超德甲，CCTV5转播哪场我就看哪场。比较有趣的事，有时候突然看见一个熟悉球员，会很惊讶：天呐！他尽然还在踢，还没有退役嘛？！但转念一想，伊布都还在踢呢···谁能老的过他啊老当益壮，挺好的。
npm报错npm ERR! A complete log of this run can be found in leese233 1024程序员节
网上有很多解决的办法，有的是删除node＿modules从新npminstall.还有的解决办法是删除npm的缓存，但是这个报错还有一种根本性的原因–node版本太低，如果node的版本太低，而项目需求的版本较高，就有可能报这个错误，而且如果版本太低像删除node＿modules从新npminstall也是没有用的，我遇到的就是这种问题，然后将node卸载从新安装高版本npminstall就不会遇
web前端进阶之Javascript设计模式面向对象篇 jia林
前言：在此说明Javascript设计模式所讲内容和知识点来自双越老师（wangEditor富文本开源作者）的视频，内容通俗易懂，受益匪浅，结合自己的学习心得整理成笔记，与大家分享，愿在前端的道路上越走越远.....从“写好代码”到“设计代码”的过程，不仅是技术的提升，更是编程思维的提升，而这其中最关键的就是设计模式，是否理解并掌握设计模式，也是衡量程序员能力的标准之一。学习前提使用过jquery
搜索技巧_野猫学习笔记野猫行天下
自从进入互联网时代，学霸们就越来越霸不了了，因为现在学富五车的人根本干不过会找车的人，你再怎么学富五车，也干不过人家会网络搜索。因此，为了让大家能继续保持学霸的地位，我今天就来跟大家聊聊怎样找车——如何才能利用网络快、准、狠地解决自己的所有问题。01使用专业化、高效的网站什么叫专业化、高效的网站，以了解兰陵王为例，你可以在以下3个网站上搜索，很快就能全方位地了解他（学识力、颜值力、防御力、摧毁力，
关于jvm参数：-XX:SurvivorRatio的坑
关于jvm参数：-XX:SurvivorRatio的坑坑1：-XX:SurvivorRatio表示新生代Eden区域和Survivor区域（From幸存区或To幸存区）的比例，默认为8，表示Eden区域与其中一个Survivor区域的比例为8：1，即Eden区域与From区域与to区域的比例为8：1：1比如设置-Xmn=100m来指定新生代大小的为100M，Eden区域的大小为100M*8/(8+
爆单了！量化北恒私募实盘大赛周一丰不要信！盈利却因为流水不够无法提现，投票助力选号被骗苦不堪言！天权顾问
量化北恒私募实盘大赛周一丰投票项目安全吗?量化北恒私募实盘大赛周一丰积分投票已经亏损被骗了怎么办？警惕!量化北恒私募实盘大赛周一丰十选五项目合法吗——杀猪盘骗局！被骗提不了款!提不了现!出不来金!不要上当!自古有句话讲得好“人善被欺、马善被骑”，现如今也是被骗子利用到了极致，人善就真该被欺骗吗？狡猾的骗子们就利用到了这点，利用同情心、爱心去进行诈骗，宣传公益捐款、爱心慈善打比赛来骗取资金！正常的投
redis秒杀之lua脚本 stand_forever redis redis lua 数据库
Lua脚本核心原理：1.单线程模型：Redis使用单线程处理命令，所有命令按顺序执行。Lua脚本会被视为一个整体任务，执行期间不会被其他命令中断。2.原子性保证：将库存检查、扣减、订单记录等多个操作放在一个脚本中，会连续执行，中间不会有其他客户端操作插入。保证了脚本的原子性。3.无需锁机制：由于Redis的单线程特性，Lua脚本天然避免了并发冲突，无需额外加锁。实现流程：1.首先库存预热：活动开始
BERT 的“池化策略” AI扶我青云志 bert 人工智能深度学习
为什么在BERT的config.json中会出现池化层（pooling）相关的参数。这个问题其实触及了BERT输出与下游任务之间的桥梁设计，也是你理解BERT在实际应用中如何工作的关键环节。首先明确：BERT的原始Transformer模块没有传统的池化层BERT是基于Transformer构建的，Transformer输出的是：sequence_output:Tensorofshape(batc
游戏分析-《第五人格》 M_Yan_9cdd
《第五人格》是网易首款非对称性对抗竞技手游。荒诞哥特画风，悬疑烧脑剧情。刺激的1V4对抗玩法，都将给玩家带来全新的游戏体验。玩家可以选择扮演监管者或求生者，展开激烈的对抗。游戏类型——可玩性竞技类游戏决定了游戏的玩法存在着对立的2方，基本上是建立在平等的对抗关系，并且存在合作的关系。但是《第五人格》是非对称性的，一方很强势但是孤军作战；一方比较缩小，多人合作，这一不对称的关系使玩家以多取胜或者以一
2024京东618什么时候买最划算最便宜省钱(内行人告诉你) 全网优惠分享
随着电子商务的蓬勃发展，京东618购物节已成为消费者们翘首以待的年度盛事。在这场购物狂欢中，如何把握最佳时机，买到最划算的商品，成为了每位消费者都关心的问题。本文将从内行人的角度，为你揭示2024年京东618购物节的最佳购物时机。首先，划重点！今年的淘宝618红包口令是「红包到手66677」，京东的618红包口令是「红包到手599」记得每天去领，因为领的红包大小和你搜索的什么口令有关哦！这两个口令
《佛畏系统》书评：“心流”：最高级的幸福感 9078ffed29c9
你曾经有没有这样的经历？当你在看一部喜欢的书时，可以连续看六七个小时，中间不觉得饿、不觉得累、也不觉得困，反而越看越着迷，被书里的内容深深地吸引着，当你回过神来的时候，发现已经从起床看到了傍晚。或者，当你看一部电影的时候，有那么一刻完全被剧情所吸引，彻底忘了自己，等回过神来才突然发现电影已演完、而自己其实早就很饿或者很想上厕所了。这种美妙又神奇的感觉，用一个概念解释叫作“心流”。那究竟什么是心流呢
完本小说阅读最强巅峰苏柔赵刚_最强巅峰苏柔赵刚网络热门小说六小升
《最强巅峰》主角：苏柔赵刚，简介：结婚七年了……赵刚一边享受，脑子里一边想着鬼主意。待会自己加把劲，肯定能把苏柔拿下！赵刚正胡思乱想间，突然。他愣了一下，皱眉道：“你怎么了？”他不由得看向苏柔，只见苏柔正瞪大美眸，神色慌张地看着厕所的方向。赵刚也下意识地看去，也吓了一跳。林风不知什么时候已经出来了，正站在洗手间门口，悄无声息地看着两人的表演呢！两人顿时停下了动作，苏柔又羞又急，想要推开赵刚。然而赵
自卑与超越：如何正确认识自卑，如何化自卑为动力，不断超越自己枫桥读书
你好，今天为你推荐的书是《自卑与超越》。相信有很多人和我一样，常年深受到自卑情绪影响，痛苦不堪，而无法自拔。由于自卑的影响，有很多机会，都与自己擦肩而过，没有从事自己真心喜欢并感兴趣的工作，也没有跟最爱的人在一起。但看了这本书之后，我对自卑有了新的认识，自卑既是好的，也是不好的。关键在于我们如何看待自卑，以及如何化自卑为动力、不断超越自己。自卑与超越：如何化自卑为动力、不断超越自己？这本书是现代社
逃避雪夜花开
就象在深夜梦要逃避身体就象临渊要逃避坠落的恐惧就象在高空脚下却是空无一物的空虚我要逃避快点逃避若死亡只是个游戏我也要选择死机若逃避也是一种选择我就选择一个自我救赎的开始
感恩日记第199天20190612 屈玉华
早上起来，有点儿流鼻涕，是要感冒的节奏，感恩身体提醒我要好好照顾自己！今天比较热，下午练队形对每个人都是考验，很多人都戴帽子、口罩，而我什么装备也没有，都说我抗晒，是我不喜欢把自己捂起来，至于晒黑，转换角度：难得有晒太阳的机会，补钙了！练了一个多小时，回单位上班，五点半离开办公室，忽然想朋友了，就给她打了个电话，她在加班，六点半才结束，我们就约见面了，想见就约了，不用刻意准备，一切都是那么自然，又
【一起学唐诗】（二十六）陈陶：《陇西行》夏雪
【原文】誓扫匈奴不顾身，五千貂锦丧胡尘。可怜无定河边骨，犹是春闺梦里人。【注释】貂锦：意指装备精良的精锐之师。无定河：陕西北部黄河中游的一条支流。春闺：指战死者的妻子。匈奴：指西北边境部族。【译文】唐军将士誓死横扫匈奴奋不顾身，五千身穿锦袍的精兵战死在胡尘。真可怜呵那无定河边成堆的白骨，还是少妇们春闺里思念的梦中人。【鉴赏】《陇西行》反映了唐代长期的边塞战争给人民带来的痛苦和灾难。作者虚实相对，用
服务器被攻击IP地址是哪里的？如何预防攻击？
总所周知，现在国内的大进犯大多都来自海外，由于国外的进犯成本比国内会低许多，一旦发起了进犯，并不容易找到进犯的源头。国外的家用带宽能到达千M口，咱们国内的百M口，相当于一只外国肉鸡能顶我们国内好几台肉鸡，那这个量是不得了的，并且国内的网站简直很少有国外用户访问，现在封海外是国内的一大趋势。UDP进犯是什么:UDP进犯全称：UDP吞没进犯（UDPFloodAttack）。UDP吞没进犯是导致主机拒绝
于“浦江经验”中解锁“三子”密钥小代不是小袋
“浦江经验”是20年前习近平同志主导创造、身体力行的实践经验，其要义是“变群众上访为领导下访，深入基层，联系群众，真下真访民情，实心实意办事”，是深化干群关系、加强基层治理的生动实践。广大党员干部要深入学习“浦江经验”，扑下身子、钻进“矛盾窝”“群众堆”，“想法子”“迈步子”“揪辫子”，真正顺乎民情、摸透实情、找准症结、干出实效。恪守为民情怀深入群众“想法子”。从人民大会堂到田间地头，从革命老区到
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

深度学习笔记之Seq2seq(二)基于Seq2seq注意力机制的动机

深度学习笔记之Seq2seq——基于Seq2seq注意力机制的动机

引言

回顾：基于机器翻译任务的 Seq2seq \text{Seq2seq} Seq2seq网络结构

注意力机制的动机

循环神经网络作为 Encoder \text{Encoder} Encoder产生 Context \text{Context} Context向量的缺陷

注意力机制处理上述两种问题

权重系数求解

Score \text{Score} Score函数的计算方式

你可能感兴趣的:(深度学习,深度学习,人工智能,Seq2seq,Attention机制的动机)

回顾：基于机器翻译任务的 $\text{Seq2seq}$ 网络结构

循环神经网络作为 $\text{Encoder}$ 产生 $\text{Context}$ 向量的缺陷

$\text{Score}$ 函数的计算方式