囚生CY

CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）

CS224N WINTER 2022（一）词向量（附Assignment1答案）
CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载，也可从下面网盘中获取：
```
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA
提取码: hpu3
```
本系列博客每个小节的开头也会提供该小结对应课件的下载链接。
课件、作业答案、学习笔记（Updating）：GitHub@cs224n-winter-2022
关于本系列博客内容的说明：
- 笔者根据自己的情况记录较为有用的知识点，并加以少量见解或拓展延申，并非slide内容的完整笔注；
- CS224N WINTER 2022共计五次作业，笔者提供自己完成的参考答案，不担保其正确性；
- 由于CSDN限制博客字数，笔者无法将完整内容发表于一篇博客内，只能分篇发布，可从我的GitHub Repository中获取完整笔记，本系列其他分篇博客发布于（Updating）：
  
  CS224N WINTER 2022（一）词向量（附Assignment1答案）
  
  CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
  
  CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
  
  CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
  
  CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

文章目录

序言
- lecture 5 循环神经网络和语言模型
- - slides
  - notes
  - suggested readings
  - assignment3 参考答案
  - - 1. Machine Learning & Neural Networks
    - 2. Neural Transition-Based Dependency Parsing
- lecture 6 梯度消失与爆炸，变体RNN，seq2seq
- - slides
  - notes
  - suggested readings

lecture 5 循环神经网络和语言模型

slides

[slides]

神经依存分析模型架构：slides p.4

常规的依存分析方法涉及的类别特征是稀疏且不完整的，因此需要耗费大量时间用于特征运算；神经网络方法可以学习得到稠密的特征表示来更好地解决问题。

这里再次提到lecture3的notes部分提到的greedy Greedy Deterministic Transition-Based Parsing的例子，神经网络在给定状态三元组 $(\sigma,\beta,A)$ 的特征表示下，对下一次可能的转移（三种转移策略之一）进行预测。

与Neural transition-based依存解析模型对应，也有Neural graph-based依存解析模型，它要预测的就是图节点（单词）之间的依存关系是否存在，有点类似证明图。

### notes
神经依存分析的评估指标：slides p.5

左边的Gold是依存分析训练集的标注格式，包括词性标注的预测以及依赖关系的预测。

看起来UAS是依赖关系的精确度，LAS是词性标注的精确度。（这么解释是合理的）

正好在看这部分又查阅到另一篇博客，感觉讲得比我清楚。
神经网络参数初始化：slides p.16

这个在lecture3的式 $(3.7)$ 中也有提过一次，这里提到的初始化规则是：
- 截距项初始化为零；
- 权重矩阵的数值在 $\text{Uniform}(-r,r)$ 的分布上采样，尽量确保初始值的方差满足下式：
  $\text{Var}(W_i)=\frac2{n_{\rm in}+n_{\rm out}}\tag{5.1}$
  其中 $n_{\rm in}$ 与 $n_{\rm out}$ 分别表示 $W_i$ 的fan-in与fan-out；
语言模型：slides p.19-22

语言模型旨在给定单词序列的条件下，预测下一个单词是什么（输入法的联想）：
$P(x^{(t+1)}|x^{(t)},...,x^{(1)})\tag{5.2}$
也可以看作是计算一段文本出现的概率（文本校正）：
$\begin{aligned} P(x^{(1)},...,x^{(T)})&=P(x^{(1)})\times P(x^{(2)}|x^{(1)})\times...\times P(x^{(T)}|x^{(T-1)},...,x^{(1)})\\ &=\prod_{t=1}^TP(x^{(t)}|x^{(t-1)},...,x^{(1)}) \end{aligned}\tag{5.3}$
n-gram模型：slides p.23-32

最经典的统计语言模型莫过于n-gram模型，即只考虑长度不超过n的单词序列的转移概率与分布概率，假定：
$\begin{aligned} P(x^{(t+1)}|x^{(t)},...,x^{(1)})&=P(x^{(t+1)}|x^{(t)},...,x^{(t-n+2)})\\ &=\frac{P(x^{(t+1)},x^{(t)},...,x^{(t-n+2)})}{P(x^{(t)},...,x^{(t-n+2)})}\\ &\approx\frac{\text{count}(x^{(t+1)},x^{(t)},...,x^{(t-n+2)})}{\text{count}(x^{(t)},...,x^{(t-n+2)})} \end{aligned}\tag{5.4}$

最终可以使用大规模语料库中的统计结果进行近似。

当然这种假定可能并不总是正确，因为文本中的相互关联的单词可能会间隔很远，并不仅能通过前方少数几个单词就能正确推断下一个单词。

总体来说，n-gram模型的存在如下两个显著的缺陷：
- 稀疏性：可能一段文本根本就从来没有出现过；
- 高内存占用：存储文本中所有的n-gram值耗用非常大，因此一般n的取值都很小。这里笔者可以推荐一个公开的英文2-gram与3-gram数据，以arpa格式的文件存储，具体使用可以参考笔者的博客。
神经语言模型与RNN：slides p.33

这种解决与序列预测相关的学习任务，正是RNN大展身手的时候，损失函数使用交叉熵。

由于大多是RNN的基础内容，没有特别值得记录的内容，提醒一下RNN是串行结构，因此无法并行提速。

这里记录slides中几个小demo的项目地址：
- 使用n-gram模型自动生成文本：language-models
- 利用RNN语言模型生成奥巴马讲话：obama-rnn-machine-generated-political-speeches
- 自动智能写作（模仿哈利波特小说风格）：how-to-write-with-artificial-intelligence
语言模型评估指标：slides p.56
- 标准的语言模型评估指标是混乱度（perplexity）：
  $\text{perplexity}=\prod_{t=1}^T\left(\frac1{P_{\rm LM}(x^{(t+1)}|x^{(t)},...,x^{(1)})}\right)^{1/T}\tag{5.5}$
  其实这是关于交叉熵损失函数的指数值：
  $=\sum_{t=1}^T\left(\frac1{\hat y_{x_{t+1}}^{(t)}}\right)^{1/T}=\exp\left(\frac1T\sum_{t=1}^T-\log\hat y_{x_{t+1}}^{(t)}\right)=\exp(J(\theta))\tag{5.6}$
  显然混乱度越低越好。

notes

[notes (lectures 5 and 6)] 注意这是lecture5与lecture6共用

两种解决梯度消失的技术：notes p.8（这里其实已经涉及lecture6的内容，但是前面没有看到有用的东西，权当预习性质的记录一下）
- 矩阵初始化不使用随机初始化方法，而直接使用单位阵；
- 使用ReLU激活函数；
GRU：notes p.11-12

在此之前，我们先回顾一下标准RNN的传播形式（忽略截距项）：
$\begin{aligned} h_t&=\sigma(W^{(hh)}h_{t-1}+W^{(hx)}x_t)\\ \hat y_t&=\text{softmax}(W^{S}h_t) \end{aligned}\tag{5.7}$
这里输入为一序列的单词 $x_1,...,x_T$ （词向量），输出 $\hat y^{(t)}$ 是预测的序列中的一个结果。

GRU的关键表达式如下所示：
$\begin{aligned} z_t&=\sigma(W^{(z)}x_t+U^{(z)}h_{t-1})&&\text{Update gate}\\ r_t&=\sigma(W^{(r)}x_t+U^{(r)}h_{t-1})&&\text{Reset gate}\\ \tilde h_t&=\tanh(r_t\circ Uh_{t-1}+Wx_t)&&\text{New memory}\\ h_t&=(1-z_t)\circ \tilde h_t+z_t\circ h_{t-1}&&\text{Hidden state} \end{aligned}\tag{5.8}$
这里的 $\circ$ 是一种门控运算，目前理解可能就是有一个阈值，一旦逾越就取零，否则就正常相乘。

GRU门控机制说明：
1. 新记忆生成：新记忆 $\tilde h_t$ 是由 $h_t$ 与 $x_t$ 线性组合构成，但是一旦被重置，应该就只剩下 $tanh(Wx_t)$ ；
2. 重置门：重置信号 $r_t$ 负责判定 $h_{t-1}$ 对新记忆 $\tilde h_t$ 到底有多重要，它可以直接抹去前面的所有记忆；
3. 更新门：更新信号 $z_t$ 负责判定 $h_{t-1}$ 中有多少信息可以被传递到下一个隐层状态 $h_t$ 中，若 $z\approx 1$ ，则 $h_t\approx h_{t-1}$ ；反之， $h_t$ 将基本由新记忆 $\tilde h_t$ 构成。
LSTM：notes p.13-14

关键表达式如下所示：
$\begin{aligned} i_t&=\sigma(W^{(i)}x_t+U^{(i)}h_{t-1})&&\text{Input gate}\\ f_t&=\sigma(W^{(f)}x_t+U^{(f)}h_{t-1})&&\text{Forget gate}\\ o_t&=\sigma(W^{(o)}x_t+U^{(o)}h_{t-1})&&\text{Output/Exposure gate}\\ \tilde c_t&=\tanh(W^{(c)}x_t+U^{(c)}h_{t-1})&&\text{New memory cell}\\ c_t&=f_t\circ c_{t-1}+i_t\circ \tilde c_t&&\text{Final memory cell}\\ h_t&=o_t\circ \tanh(c_t)&&\\ \end{aligned}\tag{5.9}$
同样地，这里的 $\circ$ 运算符是LSTM中特殊的门控运算符，可以先理解为简单相乘。

LSTM门控机制说明：
1. 新记忆生成：这与GRU是类似的，即 $\tilde c$ 是由 $x_t$ 与 $h_{t-1}$ 线性组合得到的，但是这里并不会检验 $h_{t-1}$ 是否需要被遗忘，LSTM中是必然继承 $h_{t-1}$ 信息的；
2. 输入门：使用 $x_t$ 与 $h_{t-1}$ 来判定输入是否值得被保留，即生成信号 $i_t$ 来判定新记忆 $\tilde c_t$ 是否需要保留；
3. 遗忘门：使用 $x_t$ 与 $h_{t-1}$ 来判定过去的记忆是否值得被保留，即生成信号 $f_t$ 来判定 $c_{t-1}$ 是否需要被保留；
4. 输出门：这个相当于就是一个系数，在输入到下一个隐层 $h_t$ 时乘上即可；

assignment3 参考答案

[code] [handout] [latex template]

Assignment3参考答案（written+coding）：囚生CYのGitHub Repository

1. Machine Learning & Neural Networks

$(a)$ 关于 $\text{Adam}$ 优化器（首次提出）， $\text{PyTorch}$ 中的接口如下所示：
```
torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
```
beta参数的两个值的正如第 $(2)$ 问中所示。
- $(1)$ 动量更新法则：保留当前点的信息（因为当前点的信息一定程度包含了之前所有更新迭代的信息，这有点类似LSTM与GRU的思想，但是此处并不会发生遗忘）
  $\begin{aligned} m&\leftarrow \beta_1 m+(1-\beta_1)\nabla_\theta J_{\rm minibatch}(\theta)\\ \theta&\leftarrow \theta-\alpha m \end{aligned}\tag{a3.1.1}$
  注意 $\beta_1$ 的取值默认为 $0.9$ ，这表明会尽可能多地保留当前点的信息。
  
  从另一个角度来说，单纯的梯度下降法容易陷入局部最优，直观上来看，带动量的更新可以使得搜索路径呈现出一个弧形收敛的形状（有点像一个漩涡收敛到台风眼），因为每次更新不会偏离原先的方向太多，这样的策略容易跳出局部最优点，并且将搜索范围控制在一定区域内（漩涡内），容易最终收敛到全局最优。
- $(2)$ 完整的 $\text{Adam}$ 优化器还使用了自适应学习率的技术：
  $\begin{aligned} m&\leftarrow \beta_1 m+(1-\beta_1)\nabla_\theta J_{\rm minibatch}(\theta)\\ v&\leftarrow\beta_2v+(1-\beta_2)(\nabla_\theta J_{\rm minibatch})(\theta)\odot\nabla_\theta J_{\rm minibatch}(\theta))\\ \theta&\leftarrow \theta-\alpha m/\sqrt{v} \end{aligned}\tag{a3.1.2}$
  其中 $\odot$ 与 $/$ 运算符表示点对点的乘法与除法（上面的 $\odot$ 相当于是梯度中所有元素取平方）。
  
  $\beta_2$ 默认值 $0.99$ ，这里相当于做了学习率关于梯度值的自适应调整（每个参数的调整都不一样，注意 $/$ 号是点对点的除法），在非稳态和在线问题上有很有优秀的性能。
  
  一般来说随着优化迭代，梯度值会逐渐变小（理想情况下最终收敛到零），因此 $v$ 的取值应该会趋向于变小，步长则是变大，这个就有点奇怪了，理论上优化应该是前期大步长找到方向，后期小步长做微调。
  
  找到一篇详细总结 $\text{Adam}$ 优化器优点的博客。
$(b)$ $\text{Dropout}$ 技术是在神经网络训练过程中以一定概率 $p_{\rm drop}$ 将隐层 $h$ 中的若干值设为零，然后乘以一个常数 $\gamma$ ，具体而言：
$h_{\rm drop}=\gamma d\odot h\quad d\in\{0,1\}^n,h\in\R^n\tag{a3.1.3}$
这里之所以乘以 $\gamma$ 是为了使得 $h$ 中每个点位的期望值不变，即：
$\mathbb E_{p_{\rm drop}}[h_{\rm drop}]_i=h_i\tag{a3.1.4}$
- $(1)$ 根据期望定义有如下推导：
  $\mathbb E_{p_{\rm drop}}[h_{\rm drop}]_i=p_{\rm drop}\cdot 0+(1-p_{\rm drop})\gamma h_i=h_i\Rightarrow\gamma=\frac1{1-p_{\rm drop}}\tag{a3.1.5}$
- $(2)$ $\text{Dropout}$ 是用来防止模型过拟合，缓解模型运算复杂度，评估的时候显然不能使用 $\text{Dropout}$ ，因为用于评估的模型必须是确定的， $\text{Dropout}$ 是存在不确定性的。

2. Neural Transition-Based Dependency Parsing

本次使用的是 $\text{PyTorch1.7.1}$ $\text{CPU}$ 版本，当然使用 $\text{GPU}$ 版本应该会更好。

本次实现的是基于 $\text{Transition}$ 的依存分析模型，就是在实现[notes]中的Greedy Deterministic Transition-Based Parsing算法。其中SHIFT是将缓存中的第一个移入栈，LEFT-ARC与RIGHT-ARC分别是建立栈顶前两个单词之间的依存关系。

$(a)$ 具体每步迭代结果如下所示（默认ROOT是指向parsed的）：

CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）_第3张图片

Stack	Buffer	New dependency	Transition
[ROOT]	[Today, I, parsed, a, sentence]		Initial Configuration
[ROOT, Today]	[I, parsed, a, sentence]		SHIFT
[ROOT, Today, I]	[parsed, a, sentence]		SHIFT
[ROOT, Today, I, parsed]	[a, sentence]		SHIFT
[ROOT, Today, parsed]	[a, sentence]	parsed $\rightarrow$ I	LEFT-ARC
[ROOT, parsed]	[a, sentence]	parsed $\rightarrow$ Today	LEFT-ARC
[ROOT, parsed, a]	[sentence]		SHIFT
[ROOT, parsed, a, sentence]	[]		SHIFT
[ROOT, parsed, sentence]	[]	sentence $\rightarrow$ a	LEFT-ARC
[ROOT, parsed]	[]	parsed $\rightarrow$ sentence	RIGHT-ARC
[ROOT]	[]	ROOT $\rightarrow$ parsed	RIGHT-ARC

$(b)$ SHIFT共计 $n$ 次，LEFT-ARC与RIGHT-ARC合计 $n$ 次，共计 $2 n$ 次。
$(c)$ 非常简单的状态定义与转移定义代码实现，运行python parser_transitions.py part_c通过测试。
$(d)$ 运行python parser_transitions.py part_d通过测试。

$(e)$ 实现神经依存分析模型，参考的是lecture4推荐阅读的第二篇（A Fast and Accurate Dependency Parser using Neural Networks）。运行python run.py通过测试。

注意这一题要求是自己实现全连接层和嵌入层的逻辑，不允许使用PyTorch内置的层接口，有兴趣的自己去实现吧，我就直接调用接口了。如果是要从头到尾都重写，这个显得就很困难（需要把反向传播和梯度计算的逻辑都要实现），然而本题的模型还是继承了torch.nn.Module的，因此似乎只能继承torch.nn.Module写自定义网络层，这样其实还是比较简单的，这可以参考我的博客2.1节的全连接层重写的代码。

运行结果：

================================================================================
INITIALIZING
================================================================================
Loading data...
took 1.36 seconds
Building parser...
took 0.82 seconds
Loading pretrained embeddings...
took 2.48 seconds
Vectorizing data...
took 1.22 seconds
Preprocessing training data...
took 30.56 seconds
took 0.02 seconds

================================================================================
TRAINING
================================================================================
Epoch 1 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:18<00:00, 23.61it/s]
Average Train Loss: 0.18908768985420465
Evaluating on dev set
1445850it [00:00, 46259788.38it/s]
- dev UAS: 83.75
New best dev UAS! Saving model.

Epoch 2 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:15<00:00, 24.52it/s]
Average Train Loss: 0.1157231591158099
Evaluating on dev set
1445850it [00:00, 92527340.72it/s]
- dev UAS: 86.22
New best dev UAS! Saving model.

Epoch 3 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:14<00:00, 24.86it/s]
Average Train Loss: 0.1010169279418918
Evaluating on dev set
1445850it [00:00, 61690227.55it/s]
- dev UAS: 87.04
New best dev UAS! Saving model.

Epoch 4 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:16<00:00, 24.17it/s]
Average Train Loss: 0.09254590892414381
Evaluating on dev set
1445850it [00:00, 46221356.67it/s]
- dev UAS: 87.43
New best dev UAS! Saving model.

Epoch 5 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:16<00:00, 24.06it/s]
Average Train Loss: 0.08614181549977754
Evaluating on dev set
1445850it [00:00, 46262964.50it/s]
- dev UAS: 87.72
New best dev UAS! Saving model.

Epoch 6 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:19<00:00, 23.20it/s]
Average Train Loss: 0.08176740852599859
Evaluating on dev set
1445850it [00:00, 46264729.20it/s]
- dev UAS: 88.29
New best dev UAS! Saving model.

Epoch 7 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:17<00:00, 23.95it/s]
Average Train Loss: 0.07832196695343047
Evaluating on dev set
1445850it [00:00, 45695793.40it/s]
- dev UAS: 88.17

Epoch 8 out of 10
100%|██████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:15<00:00, 24.40it/s]
Average Train Loss: 0.07501755065982153
Evaluating on dev set
1445850it [00:00, 46264729.20it/s]
- dev UAS: 88.53
New best dev UAS! Saving model.

Epoch 9 out of 10
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:16<00:00, 24.15it/s]
Average Train Loss: 0.07205055564545192
Evaluating on dev set
1445850it [00:00, 45701992.11it/s]
- dev UAS: 88.47

Epoch 10 out of 10
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1848/1848 [01:15<00:00, 24.54it/s]
Average Train Loss: 0.06958463928537258
Evaluating on dev set
1445850it [00:00, 46266141.05it/s]
- dev UAS: 88.76
New best dev UAS! Saving model.

================================================================================
TESTING
================================================================================
Restoring the best model weights found on the dev set
Final evaluation on test set
2919736it [00:00, 92289480.94it/s]
- test UAS: 89.15
Done!

作业中提到训练需要一个小时，使用 $\text{GPU}$ 可以大大加快速度，训练过程中的损失函数值与 $\text{UAS}$ 指数全部达标。（损失函数值应当低于 $0.2$ ， $\text{UAS}$ 超过 $87\%$ ）

$(f)$ 这里提到几种解析错误类型：
1. 介词短语依存错误： $\text{sent into Afghanistan}$ 中正确的依存关系是 $\text{sent}\rightarrow\text{Afghanistan}$
2. 动词短语依存错误： $\text{Leaving the store unattended, I went outside to watch the parade}$ 中正确的依存关系是 $\text{went}$ 指向 $\text{leaving}$
3. 修饰语依存错误： $\text{I am extremely short}$ 中正确的依存关系是 $\text{short}\rightarrow\text{extremely}$
4. 协同依存错误： $\text{Would you like brown rice or garlic naan}$ 中短语 $\text{brown rice}$ 和 $\text{garlic naan}$ 是并列的，因此 $\text{rice}$ 应当指向 $\text{naan}$
下面几小问不是那么确信，将就着看吧。
- $(1)$ 这个感觉是介词短语依存错误，但是 $\text{looks}$ 的确指向 $\text{eyes}$ 和 $\text{mind}$ 了，这是符合上面的说法的。难道是协同依存错误？
- $(2)$ 这个感觉还是介词短语依存错误： $\text{chasing}$ 不该指向 $\text{fur}$ ， $\text{fur}$ 应该是与 $\text{dogs}$ 相互依存。
- $(3)$ 这个很简单是 $\text{unexpectedly}$ 和 $\text{good}$ 之间属于修饰语依存错误，应当由 $\text{good}$ 指向 $\text{unexpectedly}$ ；
- $(4)$ 这个根据排除法（没有介词短语，没有修饰词，也没有并列关系）只能是动词短语依存错误，但是具体是哪儿错了真的看不出来，可能是 $\text{crossing}$ 和 $\text{eating}$ 之间错标成了协同依存关系？

lecture 6 梯度消失与爆炸，变体RNN，seq2seq

slides

[slides]

RNN中的梯度消失问题：slides p.21-30

梯度消失在RNN中是最为常见的，因为RNN中容易包含一个很长很长的传播链。

我们继续用下面这张图来说明梯度消失：

RNN神经网络传播的数学表达式：
$h^{(t)}=\sigma(W_hh^{(t-1)}+W_xx^{(t)}+b_1)\tag{6.1}$
为了便于求导，假定激活函数 $\sigma(x)=x$ ，即不作激活，有如下推导：
$\frac{\partial h^{(t)}}{\partial h^{(t-1)}}=\text{diag}(\sigma'(W_hh^{(t-1)}+W_xx^{(t)}+b_1))W_h=IW_h=W_h\tag{6.2}$
考察第 $i$ 次循环输出的损失 $J^{(i)}(\theta)$ 相对于第 $j$ 个隐层 $h^{(j)}$ 的梯度（令 $l = i - j$ ）：
$\frac{\partial J^{(i)}(\theta)}{\partial h^{(j)}}=\frac{\partial J^{(i)}(\theta)}{\partial h^{(i)}}\prod_{t=i+1}^j\frac{\partial h^{(t)}}{\partial h^{(t-1)}}=\frac{\partial J^{(i)}(\theta)}{\partial h^{(i)}}\prod_{t=i+1}^jW_h=\frac{\partial J^{(i)}(\theta)}{\partial h^{(i)}}W_h^l$
若 $W_h$ 不满秩（如 $W_h$ 是稀疏矩阵），则随着 $W_h$ 的求幂会使得 $W^h$ 的秩越来越小，最后就会变成一个零矩阵，这就是梯度消失。

事实上对于一般的非线性激活函数 $\sigma$ ，梯度消失的问题总是存在，ReLU是为解决梯度消失问题而提出的一种分段激活函数。

对于RNN来说，梯度消失意味着的记忆完全损失，类似GRU中彻底遗忘过去的记忆，对于长文本中间隔较长的上下文单词就很难建立联系。

不过某种意义上，在一些人眼中梯度消失并未必是坏事，这对于大模型来说，梯度消失一定程度上指示了模型优化的方向，即可以移除那些不必要的神经元。
梯度爆炸：slides p.31-32

梯度爆炸带来的直接问题就是梯度下降法中步长过大，从而错过全局最优点。在模型训练中有时候你发现损失函数突然蹦出一个Inf或者NaN，这很有可能是发生了梯度爆炸（你可以从之前的checkpoint中调取模型重新训练）。

梯度爆炸直接的解决方案就是限制梯度的大小，超过一定阈值就对梯度进行放缩。
**解决RNN梯度消失问题（LSTM与GRU）：**slides p.33-41

关于LSTM与GRU的原理公式解析详见lecture5中notes小节的内容。

LSTM与GRU的门控机制使得更容易保留长距离之前的记忆，因而解决了梯度消失可能导致的问题。比如设置遗忘门的信号值为 $1$ ，输入门的信号值为 $0$ ，则过去的信息将会无限制地被保留下来。但是LSTM并不确保一定不会发生梯度消失或梯度爆炸的问题，它只是提供了一种保留长距离依赖的方法，并非彻底解决梯度消失。

LSTM通常是最好的选择，尤其在数据很多且存在长距离依赖的情况；GRU的优势在于运算更快。但是目前的趋势是RNN逐渐被Transformer取代。
残差链接（residual connections）：slides p.42

梯度消失并不只是会在RNN中出现，在任何大模型中都很容易出现，因此需要引入残差连接。

即将距离较长的两个神经元直接相连，以避免梯度消失（ $F (x) + x$ 求导，在 $F (x)$ 导数为零的情况下，依然可以得到 $1$ ，因而避免了梯度消失）。

其他用以解决梯度消失与梯度爆炸问题的方法：

① DenseNet：将每一层都与后面的层相连接；

② HighWay：类似残差连接，但是引入了一个动态的门控机制进行控制：
双向RNN与多层RNN：slides p.44-51

双向RNN非常容易理解，即正着遍历一次输入序列得到一个正向RNN的输出序列，反着再遍历一次序列，得到反向RNN的输出序列，然后将两个输出序列对应节点进行运算（一般是直接拼接即可）输出得到最终的输出序列，下面这个图就讲得非常清楚：

注意双向RNN仅在整个序列可知的情况下才能使用（此时双向RNN将会非常强大，比如BERT模型就是建立在双向RNN上的），比如在语言模型中就不能使用，因为语言模型中只有左侧一边的文本序列。

多层RNN就更容易理解了，即将RNN的输出序列作为输入序列输入到下一个RNN中。实际应用中Massive Exploration of Neural Machine Translation Architecutres指出在神经机器翻译中，2~4层的RNN编码器结构是最优的，4层的RNN解码器是最优的。且一般情况下残差连接与稠密连接（dense connections）对于多层RNN是非常必要的（如8层的RNN）。

基于Transformer的网络（如BERT）的网络深度会更高（通常有12层或24层）。

notes

[notes (lectures 5 and 6)] 注意这是lecture5与lecture6共用

详见lecture5的notes小节内容。

suggested readings

这个就是lecture5推荐阅读的第三篇，即那本写得很好的教材中的RNN章节。（Sequence Modeling: Recurrent and Recursive Neural Nets）
截至本文发布，这篇文献的链接挂掉了，我从百度学术另外找了个Citeseer的下载链接，这篇就更老了，是1994年的老古董，它可能是最早提出梯度消失概念的文献之一。（Learning long-term dependencies with gradient descent is difficult）
2012年上传于ARXIV的一篇关于RNN中梯度消失以及梯度爆炸造成的训练困难问题，以及提出的解决方案，内容比较基础过时。（On the difficulty of training Recurrent Neural Networks）
用以解释梯度消失问题的JupyterNotebook。（Vanishing Gradients Jupyter Notebook）
讲解LSTM模型的一篇博客。（Understanding LSTM Networks）

你可能感兴趣的:(CS224N课程系列,深度学习,python,神经网络,语言模型,人工智能)

008、Python+fastapi，第一个后台管理项目走向第8步：ubutun 20.04下配置远程桌面、安装vscode+python环境配置浪淘沙jkp 学习 fastapi
一、说明白飘了3个月无影云电脑，开始选了个windowsserver非常不好用，后台改为ubuntu想升级到22，没成功，那就20.04吧。今天先安装下开发环境，后续2个月就想把他当做开发服务器，不知道行不行，公网ip是否可以外部链接。本来想装个宝塔面板直接管理，不过那玩意用了一次，决定说方便也不方便，还是放弃，要用也搞个掏钱的，你懂的，免费的不放心啊那我们就一个一个安装好了，大概要安装mysql
大模型记忆灾难优化：分层存储架构与7B参数实战调优 AI咸鱼保护协会架构人工智能 AI gpu算力 gpu
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。大模型在处理长对话时遭遇的“健忘症”并非无解，智能分层存储架构正成为突破上下文限制的工程利刃。近年来，大型语言模型在文本生成、复杂推理等任务上展现出惊人能力，但其固定长度上下文窗口导致的“记忆灾难”日益凸显。当对话轮次或文档长度超出限制，关键信息被无情挤出，模型表现急剧下降——在
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
小架构step系列19：请求和响应秋千码途架构
1概述作为Web程序，通用形式是发起HTTP请求并获取返回的结果，在这个过程中，需要把请求映射到代码的接口上，提供这种接口的类一般称为Controller，也就是需要把请求映射到Controller的接口方法上，把请求的参数映射到接口的参数中，并从接口返回接口处理的结果。在后端渲染页面的场景中，返回的结果需要处理为视图View。而现在更普遍的是前后端分离，返回的结果一般处理为JSON格式的数据，前
@选调生在传承红色基因中汲取奋进力量神奇咩咩咩
《习近平谈治国理政》生动记录了习近平总书记领导党和人民应变局、开新局的伟大实践，集中展现了马克思主义中国化的最新成果，是系统反映习近平新时代中国特色社会主义思想的权威著作。作为选调生，学习跟进、认识跟进、行动跟进，全面系统地读原著学原文、悟原理、知原义，重点关注第四卷提出的一系列原创性的治国理政新理念新思想新战略，对于我们进一步加深对中国之路、中国之治、中国之理的理解，深刻体悟这一思想强大的真理力
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
InPixio Photo Maximizer(图片无损放大软件) v5.3.8625 便携版
InPixioPhotoMaximizer是一款用于放大和增强照片的软件。它提供了一系列功能和特点，使用户能够通过增大分辨率和细节来改善照片的质量和清晰度。软件功能图像放大：通过使用高级算法，可以将照片放大到原始分辨率的4倍，而保持良好的清晰度和细节。细节增强：通过增加图像的细节和锐度，可以改善照片的质量，并使图像更加清晰和逼真。手动调整：用户可以使用软件的手动调整工具，根据自己的需求进行尺寸和细
什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
Docker实战系列：使用Docker部署AI SSH客户端工具IntelliSSH 江湖有缘 Docker部署项目实战合集 docker 人工智能 ssh
Docker实战系列：使用Docker部署AISSH客户端工具IntelliSSH前言一、IntelliSSH介绍1.1IntelliSSH简介1.2IntelliSSH主要特点1.3主要使用场景二、本次实践规划2.1本地环境规划2.2本次实践介绍三、本地环境检查3.1检查Docker服务状态3.2检查Docker版本3.3检查dockercompose版本四、拉取IntelliSSH镜像五、部署
快速入门Robocorp：用Python构建和操作工作流 jaioyfpo python 开发语言
快速入门Robocorp：用Python构建和操作工作流引言在现代开发环境中，自动化是提高效率和降低成本的关键。Robocorp作为一个强大的平台，它帮助您使用Python构建和操作工作流，无论在何地运行都可以保持无缝连接和高扩展性。本文将带领您快速入门Robocorp的基本安装和设置，并展示如何使用ActionServer进行项目的创建和管理。主要内容1.安装和设置要开始使用Robocorp，首
Python关于pandas的基础知识 WeiJingYu. python pandas 开发语言
一.扫盲（一）、pandas是什么pandas是Python的一个第三方数据处理库，它提供了高效、灵活的数据结构（如Series和DataFrame），能方便地对结构化数据进行清洗、转换、分析和处理。（二）、pandas与NumPy的关系NumPy是Python中用于科学计算的基础库，主要用于存储和处理数值型数组。但它有一个局限，就是不能直接存储和处理字符串等非数值类型的数据。而pandas是在N
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python关于numpy的基础知识数组的升维 WeiJingYu. python numpy 开发语言
在Python数据处理中，numpy是常用的科学计算库，数组操作是其核心内容之一。下面通过代码示例，展示如何从Python自带列表构建numpy一维数组，再进一步升维构建二维数组。\importnumpyasnp#一维数组构建：从Python列表到numpy一维数组list1=[1,2,3,4,5]#Python自带的列表数据类型print("Python列表list1:",list1)v=np.
思维导图学习之二阶:实践力第四节纯优妈咪
时间:2021.5.29课程:简快导图之《杨柳》,核心心法:关键词和逻辑。课程收获:首先老师讲了拆解的意义，比如我们在给孩子讲解绘本的时候，我们会把它拆解成大类，中类，小类，小小类。那么拆解有什么意义呢？它可以使我们思路更清晰，把复杂的事情经过层层的分层分级，最终明白和理解的一个过程。这节课还是进行收敛型思维的训练，以《杨柳》为例展开。第一步：通读全文；第二步：通文理解（略）；第三步:逐句找关键词
重学前端007 --- 响应式网页设计 CSS 排版 Sapphire～前端前端
文章目录导入字体总结浏览器给元素添加的默认值text-indent:-8px;1.text-indent属性的作用2.总结其他css导入字体这将导入OpenSans字体系列，字体粗细值为400、700和800。总结浏览器给元素添加的默认值元素默认外边距（Margin）默认内边距（Padding）作用-上下0.5em~1em无标题与内容分隔上下1em无段落间距/上下1em，左右40px无列表缩进上下
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
Shell脚本编程：从入门到精通的实战指南 Monkey的自我迭代 Linux linux ssh
一、Shell与Shell脚本概述Shell是用户与操作系统内核之间的命令解释器，它接收用户输入的命令并转换为系统调用，是Unix/Linux系统的核心交互界面。Shell脚本(ShellScript)则是将一系列Shell命令组织成文本文件，通过解释器批量执行的自动化工具，广泛应用于系统管理、日志分析和软件部署等领域。主流Shell类型：Bash(Bourne-AgainShell)：Linux
python双引号打不出来_在python 3中使用单引号和双引号时出错 - python weixin_39897749 python双引号打不出来
使用os.system（）函数时，我在python中遇到了EOL错误。以下是代码行生成错误：os.system("catsubdomains.txt|cut-d'"'-f1")基本上，我试图使用分号[“]修改输出字符串（双引号）参考方案如果需要在带"的字符串中编写"，则可以将其写为\""catsubdomains.txt|cut-d'\"'-f1"在PythonCloudFunction中使用错误
医疗AI应用中的幻觉缓解：案例与经验 AI天才研究院计算 AI人工智能与大数据 Agentic AI 实战人工智能 ai
医疗AI的“说谎”问题：如何让AI不再“信口开河”？——幻觉缓解的案例与经验关键词：医疗AI、幻觉现象、大语言模型、知识Grounding、多模态验证、临床安全、可解释性摘要：医疗AI（如大语言模型、辅助诊断系统）在提升医疗效率的同时，“幻觉”（生成不符合事实的医疗建议）成为其临床应用的致命隐患——比如告诉糖尿病患者“吃蜂蜜能降血糖”、编造不存在的药物副作用。本文用“小朋友乱说话”的类比拆解幻觉的
python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
Here-Document的`＜＜` 与 `＜＜-` 与 `＜＜＜` 多解说笔记250722 kfepiza #Linux #控制台命令行 Shell bash cmd 等笔记 linux bash
Here-Document的poem.txt静夜思床前明月光疑是地上霜FORMATTED#2.空格敏感的配置catconfig.ymlindentation:level:4#必须4空格SPACE何时用tabs.txt重要制表符:→这里Tab会被保留但行首Tab会被移除TABS#2.空格缩进的环境#（如Python脚本）技术原理图解HereDocumentquery.sqlSELECT*FROM${
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
第二阶段-第二章—8天Python从入门到精通【itheima】-133节（SQL——DQL——基础查询） Patrick_kafka sql python 数据库开发语言学习 android 程序人生
目录133节——DQL：基础查询1.学习目标2.基础数据查询：select3.进行过滤的基础数据查询：where4.代码演练5.小节总结6.关于MySQL和SQL的DDL、DML、DCL、DQL的最底层逻辑MySQL与SQL的底层逻辑：从磁盘到内存的数据流解析一、DDL（数据定义语言）：构建数据大厦的蓝图二、DML（数据操作语言）：数据流动的三重关卡三、DCL（数据控制语言）：权限的多维管控四、D
08.机会判断：点线面体的战略选择--《梁宁产品思维三十讲》阿木魔法学院1865_b324
疫情在家，每天的时间都没有被有效利用，很多时间用来了刷抖音和看小说，每日反思之时，痛心疾首，想起梁宁老师的课程，每每读起来都如金玉良言，让人不忍释卷，利用这段时间，重新复习梁宁老师的课程，相信一定会有所收获。穷人与富人的区别男怕入错行，女怕嫁错郎。举个例子，一对双胞胎，2010年大学毕业，一个加入了报社，一个加入了腾讯7年后，加入腾讯的年薪百万，加入报社的那位，报社已经沉沦，他曾经寄托理想的整个产
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
Python 库手册：xml.etree.ElementTree 处理 XML 数据模块
xml.etree.ElementTree（简称ElementTree）是Python标准库中用于解析、创建和操作XML数据的模块。它提供了一种轻量、易用的方式来读取、修改和写入XML文件，适用于配置文件处理、数据交换、网络通信等应用场景。常见应用场景：（1）读取XML配置文件并提取参数。（2）修改XML数据结构（如节点属性、内容）。（3）创建新的XML文档并保存。（4）从WebAPI获取的XML
[学习] 笛卡尔坐标系的任意移动与旋转详解极客不孤独学习算法信号处理
笛卡尔坐标系的任意移动与旋转详解文章目录笛卡尔坐标系的任意移动与旋转详解**1.笛卡尔坐标系基础****2.坐标变换原理****2.1平移变换****2.2旋转变换****3.组合变换**Python仿真与动态展示**动画说明**：**关键数学原理**：1.笛卡尔坐标系基础笛卡尔坐标系用(x,y)(x,y)(x,y)表示平面内任意点的位置，原点为(0,0)(0,0)(0,0)。几何图形可视为点的集
第二阶段-第二章—8天Python从入门到精通【itheima】-134节（SQL——DQL——分组聚合） Patrick_kafka sql 数据库 mysql 大数据开发语言 python pycharm
目录134节——DQL：分组聚合1.学习目标2.分组聚合3.论MySQL中GROUPBY和WHERE的异同MySQL中GROUPBY和WHERE的异同：一、相同点：都是“筛数据”的工具二、不同点：筛的时机和对象完全不一样1.作用时机不同：先筛行，再分组2.作用对象不同：筛单行vs筛分组3.不能混搭的“规矩”三、一句话总结4.小节总结编辑好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：1
vSphere开发指南1——vSphere Automation API H_00c8
前言VMwarevCenterServer是VMware虚拟化管理平台，广泛的应用于企业私有云内网中。站在渗透测试工具开发的角度，我们需要通过命令行实现vCenterServer同虚拟机的交互。本系列文章将要比较多种不同的API，介绍实现细节，开源代码，实现以下功能：·读取虚拟机的配置·查看虚拟机文件·删除虚拟机文件·向虚拟机上传文件·从虚拟机下载文件·在虚拟机中执行命令简介本文将要介绍以下内容：
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方