TimsonShi

神经翻译笔记2. Log-linear语言模型

文章目录

神经翻译笔记2. Log-linear语言模型

模型简介
Softmax的计算问题
模型示例
学习模型参数

损失函数
使用随机梯度下降（SGD）进行优化
损失函数对参数的偏导数

神经翻译笔记2. Log-linear语言模型

本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分

上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另一种方法。在一些经典的文献中，log-linear语言模型通常被称作为“最大熵语言模型”（maximum entropy language model）

模型简介

Log-linear语言模型的本质是把语言模型的建立看作是一个多元分类问题，核心是从上文中提取特征。形式化地说，假设上文为 $e_{t-n+1}^{t-1}$ ，log-linear语言模型需要一个特征函数 $\phi(e_{t-n+1}^{t-1})$ ，其将上文信息作为输入，输出一个 $N$ 维特征向量（注意这里是feature vector而不是eigenvector） $\boldsymbol{x} \in \mathbb{R}^N$ ，这个 $\boldsymbol{x}$ 就是对上文信息的一个表示（这里的 $N$ 不是N元语法里面的那个N，不表示上文单词数量！）

最简单的提取特征的方法是将上文中的每个单词都做一个独热编码（one-hot encoding）。例如，假设语言模型的词汇表为 $V$ ，大小记为 $∣ V ∣$ ，词汇表中每个单词都会被分配一个ID，记作 $i$ 且有 $\le i \le |V|$ ，那么对某个ID为 $i$ 的单词，其独热编码以后的结果就是一个 $V$ 维的向量，这个向量在第 $i$ 个维度上的值为1，其余都是0。如果用类似二元语法的思想（即只用目标单词的前一个单词做预测）来做log-linear语言模型，这样就够了。但是如果想在上文里包含更多的单词，就需要进行扩展。一种常见的思路是将每个单词的独热向量拼接起来，这样，如果上文中包含了 $M$ 个单词，得到的特征向量的长度 $N$ 就是 $M ∣ V ∣$ 。当然，除了对上文单词做独热编码，log-linear语言模型还允许灵活加入其它特征，这也是该模型的一大长处。常见的特征还包括

上文的语义类别。可以使用聚类方法将相似单词聚类，这样，上文每个单词的独热编码不再是单词表长度，而是聚类得到的类别个数
上文单词的其它语义信息，例如词性标注（POS-Tag）信息
词袋特征。此时，不止考虑前面少数几个单词，而是考虑前面所有单词，统计它们出现的个数。注意在这种情况下会失去单词的位置信息，不过可以捕捉到单词的共现信息

下文中所使用的特征仍然是前面少数几个单词的独热编码

得到特征以后，模型会使用参数 $\theta$ 计算出一个得分向量 $\boldsymbol{s} \in \mathbb{R}^{|V|}$ ，对应于词汇表中的所有单词。这里参数 $\theta$ 具体包含两个参数：权重矩阵 $\boldsymbol{W} \in \mathbb{R}^{|V| \times N}$ 和偏置向量 $\boldsymbol{b} \in \mathbb{R}^{|V|}$ ，都是训练得出。得到 $\boldsymbol{W}$ 和 $\boldsymbol{b}$ 以后，对给定的 $\boldsymbol{x}$ ，就可以计算得到一个得分向量 $\boldsymbol{s}$ ，其中
$\boldsymbol{s} = \boldsymbol{Wx} + \boldsymbol{b}$
由于真正应用中词汇表的大小通常都比较大，特征数也比较多，因此权重矩阵 $\boldsymbol{W}$ 通常会很大（如果只使用前面提到的独热编码的上文信息做特征，假设上文单词数为2，词汇表大小为20000，则权重矩阵的大小就是 $20000 \times 40000$ 。同时， $\boldsymbol{x}$ 本身也是一个比较大的向量，两者相乘比较耗时。由于 $\boldsymbol{x}$ 通常是若干独热编码向量的组合，因此它会特别稀疏，只有少许维度非0（而且可能只取值为1）。所以，可以使用如下操作避免矩阵乘法带来的性能问题：
$\boldsymbol{s} = \sum_{j: x_j \not= 0}\boldsymbol{W}_{., j}x_j + \boldsymbol{b}$
其中 $\boldsymbol{W}_{., j}$ 代表矩阵 $\boldsymbol{W}$ 的第 $j$ 列。上一个式子的直接翻译是“对特征向量 $\boldsymbol{x}$ ，找出其所有不为零的维度，然后找出权重矩阵 $\boldsymbol{W}$ 对应的列，将这一列向量乘以特征向量对应维度的值，再把所有这样处理得到的向量相加，最后加上偏置向量”

这样得到的得分向量每个维度的值都可能是任意的一个实数。为了得到一个更好的，有概率意义的结果，可以做一个softmax计算以达到归一化的效果
$\boldsymbol{p} = {\rm softmax}(\boldsymbol{s})$
具体计算方法为，对 $\boldsymbol{s}$ 的每个分量 $s_j$ ，其对应的 $p_j$ 为
$p_j = \frac{\exp(s_j)}{\sum_i\exp(s_i)}$

Softmax的计算问题

本节来自于花书DLBook第4.1节

然而，真实计算softmax函数的值时，既可能出现上溢的情况，又可能出现下溢的情况。假设最后得到的 $\boldsymbol{s} = \left[\begin{matrix}1000 \\ 1003\end{matrix}\right]$ ，一般计算 $e^{1000}$ 的时候都会上溢，例如使用python计算

>>> import math
>>> math.exp(1000)
Traceback (most recent call last):
  File "", line 1, in <module>
OverflowError: math range error
>>> import numpy as np
>>> np.exp(1000)
__main__:1: RuntimeWarning: overflow encountered in exp
inf

而如果最后得到的 $\boldsymbol{s} = \left[\begin{matrix}-1000 \\ -1003\end{matrix}\right]$ ，一般计算 $e^{-1000}$ 的时候又都会下溢，例如

>>> import math
>>> math.exp(-1000)
0.0
>>> import numpy as np
>>> np.exp(-1000)
0.0

此时softmax的分母会被认为是0，进而抛出异常

因此，真正计算时，通常会将原始要计算的向量 $\boldsymbol{s}$ 做一个处理得到向量 $\boldsymbol{z}$ ，即对 $\boldsymbol{s}$ 的每个分量 $s_i$ 都减去 $\boldsymbol{s}$ 最大的那个分量。即
$\boldsymbol{z} = \boldsymbol{s} - \max_i s_i$
记 $max_i s_i = c$ ，同时 $\rm{softmax}(\boldsymbol{z}) = \boldsymbol{q},\ \rm{softmax}(\boldsymbol{s}) = \boldsymbol{p}$ ，下面证明有 $\boldsymbol{q} = \boldsymbol{p}$ 。假设 $\boldsymbol{c}$ 是维度与 $\boldsymbol{z}$ 和 $\boldsymbol{s}$ 的维度均相等的向量，其每个分量 $c_i = \max_i s_i = c$ ，即 $\forall i, j, 1 \le i, j \le {\rm dim}\ \boldsymbol{c} \Rightarrow c_i = c_j = c$ ，
$\begin{aligned} &&\boldsymbol{q} = {\rm softmax}(\boldsymbol{z}) &= {\rm softmax}(\boldsymbol{s} - \boldsymbol{c}) \\ &&\Rightarrow q_i&= \frac{\exp(s_i - c)}{\sum_j \exp(s_j - c)} \\ &&&= \frac{\exp(s_i)}{\exp(c)\sum_j\left(\exp(s_j) / \exp(c)\right)} \\ &&& = \frac{\exp(s_i)}{\exp(c) / \exp(c)\sum_j\exp(s_j)} = \frac{\exp(s_i)}{\sum_j\exp(s_j)} = p_i \\ && \Rightarrow \boldsymbol{q} &= \boldsymbol{p}\ \blacksquare \end{aligned}$
因此，计算 $\rm{softmax}\left(\left[\begin{matrix}1000 \\ 1003\end{matrix}\right]\right)$ 等价于计算 $\rm{softmax}\left(\left[\begin{matrix}-3 \\ 0\end{matrix}\right]\right)$ ，以此类推。这样的处理方法保证所有 $\exp$ 函数的参数的最大值为0，因此避免了上溢的可能。同时，所有softmax函数的分母里都会有至少一个为1的项，也就避免了分母下溢，被0除的可能。但是，分子仍然存在下溢的可能，因此在计算 $\log \rm{softmax}$ 的值时仍然需要特别小心

模型示例

我们举个例子。假设词汇表的大小只有2，包括A、B两个词。现在已知最后出现的两个词为B和A，log-linear语言模型的作用就是训练一个权重矩阵 $\boldsymbol{W}$ 和偏置向量 $\boldsymbol{b}$ ，进而推断此时接下来两个词出现的概率。假设 $\boldsymbol{W}$ 和 $\boldsymbol{b}$ 已经训练好，有
$\boldsymbol{W} = \left[\begin{matrix}1.2 & -1.2 & 8.5 & 4.5 \\ -0.6 & 1.3 & -3.5 & -2.7 \\ \end{matrix}\right], \boldsymbol{b} = \left[\begin{matrix}0.1 \\ -0.3\end{matrix}\right]$
那么特征向量 $\boldsymbol{x}$ 按照前面介绍的独热编码应该为
$\boldsymbol{x} = \left[\begin{matrix}0 \\ 1 \\ 1 \\ 0\end{matrix}\right]$
则
$\boldsymbol{s} = \left[\begin{matrix}-1.2 \\ 1.3 \end{matrix}\right] + \left[\begin{matrix}8.5 \\ -3.5 \end{matrix}\right] + \left[\begin{matrix}0.1 \\ -0.3 \end{matrix}\right] = \left[\begin{matrix}7.4 \\ -2.5 \end{matrix}\right]$
经过softmax计算，有 $\boldsymbol{p} = \left[\begin{matrix}0.99995 \\ 0.00005\end{matrix}\right]$ ，说明接下来很可能会出现A

可以看出，权重矩阵的每一列都有一定的意义。如果特征向量由若干个独热编码组成，那么 $\boldsymbol{W}$ 的第 $j$ 列实际上表明了第 $j$ 个特征激活时，各个词出现的可能性。这个列向量的分量越大，说明对应的词出现的可能性越大，反之说明越小。例如， $\left[\begin{matrix}8.5 \\ -3.5\end{matrix}\right]$ 这一列是前一个词为A时，接下来出现A和B的可能性。这意味着此时出现A的可能性远大于出现B的可能性

学习模型参数

损失函数

第一节讲述了在有权重矩阵和偏置向量的情况下，如何使用建立好的模型根据给定的上文预测即将出现的词。那么接下来的问题是如何得到（学习）这些模型参数 $\theta$ 。为此，需要先定义一个合适的损失函数 $\ell$ 。所谓损失函数，其直观意义可以看做是在给定当前模型参数 $\theta$ 的情况下，模型的预测值 $\hat{y}$ 与真实值 $y$ 之间差了多远，也就是现在这个模型有多差。因此，训练模型参数的过程，就是要调整参数 $\theta$ 使得损失函数 $\ell$ 尽量小的过程。通常情况下，损失函数等于似然的负对数
$\ell (\mathcal{E}_{\rm train},\boldsymbol{\theta}) = -\log P(\mathcal{E}_{\rm train}|\boldsymbol{\theta}) = -\sum_{E \in \mathcal{E}_{\rm train}}\log P(E|\boldsymbol{\theta})$
这个想法和最大似然的思想是等价的，因为最大似然等价于最小化负似然，而加入对数函数不影响目标函数的单调性。假设这样的损失函数在微观上（每个词的级别上）也适用，则有
$\ell (e^t_{t-n+1}, \boldsymbol{\theta}) = \log P(e_t|e_{t-n+1}^{t-1})$

使用随机梯度下降（SGD）进行优化

熟悉logistic回归和其它统计学习方法的读者应该可以马上意识到，log-linear语言模型实际上可以看作是logistic回归变种在NLP领域上的一个应用，而logistic回归通常使用梯度下降法做优化。当样本量太大时，通常使用随机梯度下降。不过这里本文还是准备对随机梯度下降做一个具体的介绍

本部分内容参考了花书4.3小节

大部分机器学习问题的最终形式都是一个优化问题，即给定一个参数为 $\theta$ 的函数 $f(\theta)$ ，找到一个合适的 $\theta$ ，使得 $f$ 能取得最小值。用数学的语言描述，就是求出 $\theta^\ast = \mathop{\rm arg\min}_{\theta}f(\theta)$ ——当然，有些时候需要找到能使 $f$ 取得最大值的 $\theta$ ，在这种情况下，同样的 $\theta$ 也会使 $-f(\theta)$ 取得最小值，所以两者是等价的。这里的这个 $f$ 也就是前面提到的损失函数 $\ell$

这样一来，问题就被抽象为求最值的问题。在比较简单的，一元函数的情况下，对函数求导并令导数为0，就可以求出最优的 $\theta$ 。但是，考虑到有些情况下上述方法无法得到解析解，因此还需要使用一种迭代的方法来完成同样的任务。对于给定的函数 $f$ ，其一阶导数的一个重要性质是，如果其在某个点 $x$ 的一阶导数 $f^{'} (x) > 0$ ，则函数单调递增；如果一阶导数 $f^{'} (x) < 0$ ，则函数单调下降。在最简单的情况下，假设已知函数是凹函数且处处连续、处处可导，那么当 $x$ 在某个点 $x_0$ 的一阶导数大于0时，由于函数递增，那么为了向极值点（这里是极小值点）靠近， $x$ 应该向左移动，慢慢变小；当当 $x$ 在某个点 $x_0$ 的一阶导数小于0时，由于函数递减，那么为了向极值点靠近， $x$ 应该向右移动，慢慢变大。综合这两种情况，对足够小的 $\epsilon$ ，总有
$f(x-\epsilon\cdot {\rm sign}(f'(x))) < f(x)$
也就是说，无论如何，总可以把 $x$ 往导数的反方向移动一小步来减小 $f (x)$ 。经过足够多步的迭代，在 $\epsilon$ 设置适当的情况下， $x$ 最后总能到达极小值点。此时 $f^{'} (x) = 0$ 。不过需要注意的是，极值点在很多情况下不是最值点，有可能只是一个局部最优解

上述过程就是梯度下降在一元函数情况下的介绍，相对比较容易理解。当函数的输入时多维的向量时，要稍微复杂一些。前面在讲述一元函数一阶导数的时候有一点没有提到，一元函数 $f (x)$ 在 $x_0$ 点的导数的另一个意义是变量在该点做微小移动时，函数值的变化率。这个意义可以扩展到多元函数的领域里：假设函数 $f(\boldsymbol{x})$ 的参数 $\boldsymbol{x} \in \mathbb{R}^n$ ，那么当 $\boldsymbol{x}$ 的 $n - 1$ 个维度上的分量都不变，仅对第 $i$ 个维度上的分量做微小移动时，函数值的变化率就是这个函数在 $x_i$ 轴上的偏导数，记为 $\frac{\partial }{\partial x_i}f(\boldsymbol{x})$ 。换句话说，函数 $f$ 的偏导数是函数沿着某个坐标轴的变化率。在此之上，可以定义梯度为
$\nabla_{\boldsymbol{x}}f(\boldsymbol{x}) = \left[\begin{array}{c}\frac{\partial f}{\partial x_1} & \cdots & \frac{\partial f}{\partial x_i} & \cdots &\frac{\partial f}{\partial x_n}\end{array}\right]^\mathsf{T}$
有了这些概念，接着就可以看什么是方向导数。直观地讲，可以想象在三维空间里想象一个图像形状为碗型的二元函数，自变量由x轴和y轴确定，z轴为因变量。在碗壁上的任何一个点，都可以向360度不同的方向滑动，另一方面，自变量的微小移动使得函数在360度的方向上都会有不同的变化率，在单位向量 $\boldsymbol{u}$ 方向上的变换率就是 $f$ 在 $\boldsymbol{u}$ 方向上的方向导数，其定义为 $\boldsymbol{u}^\mathsf{T}\nabla_{\boldsymbol{x}}f(\boldsymbol{x})$ 。其中，使得方向导数最小的方向，是函数变化量最大的方向，因此
$\begin{aligned} &\min_{\boldsymbol{u}, \boldsymbol{u}^\mathsf{T}\boldsymbol{u} = 1} \boldsymbol{u}^\mathsf{T}\nabla_{\boldsymbol{x}}f(\boldsymbol{x}) \\ = &\min_{\boldsymbol{u}, \boldsymbol{u}^\mathsf{T}\boldsymbol{u} = 1} \|\boldsymbol{u}\|_2\|\nabla_\boldsymbol{x}f(\boldsymbol{x})\|_2\cos\theta \end{aligned}$
其中 $\theta$ 是梯度方向与单位向量之间的夹角。由于 $\boldsymbol{u}$ 是单位向量，因此 $\|\boldsymbol{u}\|_2 = 1$ ，且梯度的模长与 $\boldsymbol{u}$ 无关，因此上式等价于最小化 $\cos \theta$ ，这个值在 $\theta = \pi$ 时取得，此时 $\boldsymbol{u}$ 指向梯度方向的反方向。因此在输入为向量的情况下，梯度下降的更新公式为
$\boldsymbol{x}^{t+1} = \boldsymbol{x}^{t} - \epsilon \nabla_{\boldsymbol{x}}f(\boldsymbol{x}^t)$
(本部分的叙述顺序基本参考了花书的顺序，但是这样使得某些概念的引出顺序与因果顺序相反。例如，梯度的几何意义就是函数下降最快方向的反方向，但是这里梯度的定义先于方向导数的定义给出。在这点上，国内的讲述方法可能更符合因果，但是理解起来难度会大一些。此外，这些概念结合图看可能更好理解，可以参考知乎讨论如何直观形象的理解方向导数与梯度以及它们之间的关系？和可汗学院的讲授视频梯度与方向导数)

将这个公式套用到前面“损失函数”一节中的定义，可以知道log-linear语言模型的参数更新方式为
$\boldsymbol{\theta}^{t+1} = \boldsymbol{\theta}^t - \epsilon \frac{\partial\ell(e_{t-n+1}^t, \boldsymbol{\theta})}{\partial\boldsymbol{\theta}}$
其中 $\epsilon$ 更通常情况下被写为 $\eta$ ，称作学习率。直观地看， $\eta$ 的大小决定了梯度下降每次向前走的步长大小，它的选取应该慎重：如果 $\eta$ 太大，则算法会出现震荡（步子迈得太大，直接越过了极值点，如此反复），难以收敛；如果 $\eta$ 太小，算法收敛得会太慢，或者陷入不好的局部最优解。通常的做法是随着训练的持续慢慢调小学习率。其它比较好的工程实践还包括提前停止（保留一部分数据做验证集，算法在验证集上效果变差时终止迭代）和随机打乱原始数据顺序等（避免连续看到同一类型的数据，影响模型效果）

此外，上面给出的更新方式是每看到一个样本更新一次，这种做法通常也称为在线学习法（online learning）。另外一种方法是将所有数据的梯度都计算出来，然后求均值，这种方法称为全批量（full-batch）梯度下降。在线学习的问题是一个样本的梯度方向可能不是最优方向（不过在样本量足够大，迭代次数足够多的情况下也能收敛到比较好的极值点）；而全批量梯度下降的问题是深度学习使用的数据集通常比较大，计算起来耗费资源太多。因此真正广泛应用的是小批量（mini-batch）随机梯度下降法，即随机选取若干样本，计算梯度的均值

在SGD之上，还有一些衍生的优化算法，例如动量（momentum）法、AdaGrad和Adam等等。这些算法将在之后的文章中做总结

损失函数对参数的偏导数

通过上面的讲述，可知更新模型参数的关键是要求出损失函数对参数的偏导数。将上面的式子整理可得
$\begin{aligned} \boldsymbol{s} &= \sum_{j: x_j \not= 0}\boldsymbol{W}_{., j}x_j + \boldsymbol{b} \\ \boldsymbol{p} &= {\rm softmax}(\boldsymbol{s}) \\ \ell &= -\log p_{e_t} \end{aligned}$
因此有
$\begin{aligned} \frac{\partial \ell}{\partial \boldsymbol{W}_{.,j}} &= \frac{\partial \ell}{\partial p_{e_t}} \cdot \frac{\partial p_{e_t}}{\partial \boldsymbol{s}} \cdot \frac{\partial \boldsymbol{s}}{\partial \boldsymbol{W}_{.,j}} \\ \frac{\partial \ell}{\partial \boldsymbol{b}} &= \frac{\partial \ell}{\partial p_{e_t}} \cdot \frac{\partial p_{e_t}}{\partial \boldsymbol{s}} \cdot \frac{\partial \boldsymbol{s}}{\partial \boldsymbol{b}} \end{aligned}$
可以看出两者都需要求 $\frac{\partial \ell}{\partial p_{e_t}} \cdot \frac{\partial p_{e_t}}{\partial \boldsymbol{s}} = \frac{\partial \ell}{\partial \boldsymbol{s}}$ 。由于有
$p_{e_t} = \frac{e^{s_t}}{\sum_ue^{s_u}}$
因此
$\ell = -\log p_{e_t} = -\log \frac{e^{s_t}}{\sum_ue^{s_u}} = -s_t + \log\sum_ue^{s_u}$
由标量对向量的求导法则，得出一个同样维度的向量，其中每个分量是标量对原向量中该分量的导数（详细可见Towser大神整理的文章机器学习中的矩阵、向量求导），即假设 $a$ 为标量， $\boldsymbol{x}$ 为向量，且 $\boldsymbol{x} = \left[\begin{array}{ccc}x_1 & \cdots & x_n\end{array}\right]^\mathsf{T}$ ，则有
$\frac{\partial a}{\partial \boldsymbol{x}} = \left[\begin{array}{c}\frac{\partial a}{\partial x_1} \\ \cdots \\ \frac{\partial a}{\partial x_n} \end{array}\right]^\mathsf{T}$
而且有
$\frac{\partial \ell}{\partial s_v} = \begin{cases}-1 + \frac{e^{s_v}}{\sum_ue^{s_u}} & {\rm if\ }v = t \\ \frac{e^{s_v}}{\sum_ue^{s_u}} & {\rm elsewhere}\end{cases}$
进一步简化，可知
$\frac{\partial \ell}{\partial \boldsymbol{s}} = \boldsymbol{p} - {\rm onehot}(e_t)$
因此，
$\begin{aligned} \frac{\partial \ell}{\partial \boldsymbol{W}_{.,j}} &= x_j (\boldsymbol{p} - {\rm onehot}(e_t))\\ \frac{\partial \ell}{\partial \boldsymbol{b}} &= \boldsymbol{p} - {\rm onehot}(e_t) \end{aligned}$
另外补充一下，分类问题更常用的是交叉熵损失函数。假设真实类标签分布向量为 $\boldsymbol{q}$ ，分类器预测出来的分布向量为 $\boldsymbol{p}$ ，则交叉熵损失函数的值 $\ell_{\rm CE}$ 为
$\ell_{\rm CE} = -\sum_i^C q_i\log p_i$
其中 $C$ 是类别标签的个数。如果把语言模型问题看作是 $∣ V ∣$ 元分类问题，那么交叉熵损失函数也适用，其中 $\boldsymbol{q}$ 是一个独热编码向量。不难看出此时 $\ell_{\rm CE}$ 和前面提到的损失函数 $\ell$ 是等价的

你可能感兴趣的:(神经翻译笔记)

神经翻译笔记5. 序列到序列模型与注意力机制 TimsonShi 神经翻译笔记机器翻译注意力机制序列到序列模型
文章目录神经翻译笔记5.序列到序列模型与注意力机制机器翻译概论编码器-解码器结构集束搜索注意力机制结语其它参考文献备注神经翻译笔记5.序列到序列模型与注意力机制本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经
神经翻译笔记5扩展d. PyTorch学习笔记 TimsonShi 神经翻译笔记 pytorch
文章目录神经翻译笔记5扩展d.PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2.“冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础 TimsonShi 神经翻译笔记矩阵微分
文章目录神经翻译笔记3扩展a.深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a.深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍
神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用 TimsonShi 神经翻译笔记卷积神经网络机器翻译
文章目录神经翻译笔记6.卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节轻量与动态CNN轻量卷积带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6.卷积神经网络及其在机器翻译中的应
神经翻译笔记2. Log-linear语言模型 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2.Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降（SGD）进行优化损失函数对参数的偏导数神经翻译笔记2.Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另
神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展e第1部分.Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型（CBOW）上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神经翻
神经翻译笔记3扩展d. 神经网络的泛化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展d.神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d.神经网络的泛化机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出
神经翻译笔记3扩展b. 自动微分 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展b.自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forwardmode）二元数后向模式（Backwardmode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b.自动微分本文无
神经翻译笔记3扩展c. 神经网络的初始化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展c.神经网络的初始化基本初始化方法LeCun初始化Xavier初始化（Glorot初始化）何恺明初始化（He初始化）前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c.神经网络的初始化深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短
神经翻译笔记2扩展a. 损失函数 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2扩展a.损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huberloss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数（hingeloss）均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a.损失函数从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量
神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型 TimsonShi 神经翻译笔记
神经翻译笔记4扩展d.迁移学习概述与前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）辅助任务为什么多任务学习能够有效顺序迁移学习终生学习（Lifelonglearning）领域适配基于表示的方法领域相似度数据加权和数据选择自标注技术前BERT时代的两种经典RNN预训练模型ULMFiTELMo讨论：微调还是不调，这是一个问题参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展 TimsonShi 神经翻译笔记
文章目录神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展QuasiRNNFS-RNNSkipRNN高秩RNN语言模型MoSIndRNNON-LSTMMogrifierLSTM参考文献神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日
神经翻译笔记4扩展b. RNN的正则化方法 TimsonShi 神经翻译笔记正则化 rnn
文章目录神经翻译笔记4扩展b.RNN的正则化方法层归一化对dropout的扩展集大成的方法：AWD-LSTM正则化方法不同形式的dropout变长的反向传播嵌入共享嵌入维度与隐藏层维度分离激活单元正则化与时序激活单元正则化优化方法其它技术与实验参考文献神经翻译笔记4扩展b.RNN的正则化方法本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法层
神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`RNN
神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第一部分.RNN在TF1.x中的实现方法略览RNNcell的实现`keras.layers.Layer``layers.Layer``nn.rnn_cell.RNNCell``LayerRNNCell``BasicRNNCell``GRUCell``BasicLSTMCell``LSTMCell``MultiRNNCell`RNN的实现静态机制动态机制参考文献本文主要讨论TF1
神经翻译笔记4. 循环神经网络（RNN） TimsonShi 神经翻译笔记
神经翻译笔记4.循环神经网络（RNN）普通RNN(VanillaRNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络(LSTM)门控循环单元(GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源，结构遵从此文)[Koehn2017]13.4.4、13.4.5、13.4.6三小节
神经翻译笔记3扩展e第2部分. Subword TimsonShi 神经翻译笔记
文章目录NMTTutorial3扩展e第2部分.Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题：前向算法求解解码问题：维特比算法求解学习问题：前向-后向算法（B
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {