TimsonShi

神经翻译笔记2扩展a. 损失函数

文章目录

神经翻译笔记2扩展a. 损失函数

针对回归问题的损失函数

均方误差函数
平均绝对值误差函数
Huber loss
关于回归问题的损失函数小结

针对分类问题的损失函数

交叉熵损失函数

概述
Softmax交叉熵损失函数
Sigmoid交叉熵损失函数

铰链损失函数（hinge loss）
均方误差函数
关于分类问题的损失函数小结

神经翻译笔记2扩展a. 损失函数

从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量模型预测值与真实值之间的差距，然后通过某种给定的优化方法来调整模型参数，使模型效果提升的过程。在这个过程中，选择正确的损失函数是问题求解的基础，而对于某些特定的问题，设计一个有针对性的，新的损失函数则可以看作是胜负手

常见的损失函数通常都适用于有监督学习问题，其中根据问题的不同类型，损失函数也可以划分为两类：针对回归问题的损失函数和针对分类问题的损失函数。在本节后面的阐述中，除非特别说明，记 $\boldsymbol{y}$ 为真实值， $\hat{\boldsymbol{y}}$ 为预测值， $N$ 为样本个数

针对回归问题的损失函数

均方误差函数

求解回归问题时，最常见的损失函数无疑是均方误差函数（均方误差：mean squared error, MSE），也称为 $\ell_2$ 误差函数。具体形式为
${\rm MSE}(\boldsymbol{y}, \hat{\boldsymbol{y}}) = \frac{1}{N}\sum_{i=1}^N\left(y_i - \hat{y}_i\right)^2$
由上式可知，如果使用均方误差函数做损失函数，模型做出的预测与实际值差得越多，则受到的惩罚越大。因此，如果数据集中有离群点，则会很大程度上影响最终学到的模型。但是，从另一方面讲，如果不希望模型的预测值与某个真实值相差太远，均方误差函数则是一个很好的选择

平均绝对值误差函数

均方误差函数如果写成向量形式，则为
${\rm MSE}(\boldsymbol{y}, \hat{\boldsymbol{y}}) = \frac{1}{N}\|\boldsymbol{y}-\hat{\boldsymbol{y}}\|^2_2$

也就是说，均方误差函数的核心是预测值与真实值这两个向量差的 $\ell_2$ 范数。考虑到正则化里有 $\ell_2$ 正则化和 $\ell_1$ 正则化，那么对于损失函数，求预测值与真实值这两个向量差的 $\ell_1$ 范数是不是一个好的选择？的确如此，这种损失函数更多被称为平均绝对值误差函数（平均绝对值误差：mean absolute error, MAE）。具体形式为
${\rm MAE}(\boldsymbol{y}, \hat{\boldsymbol{y}}) = \frac{1}{N}\sum_{i=1}^N\left|y_i - \hat{y}_i\right|$
MAE的最大问题是损失函数在 $y_i = \hat{y}_i$ 处不可导，因此在计算梯度时可能会造成问题

对于这两个比较常见的损失函数，一个自然而然的问题就是，实际问题中究竟应该选择哪个？对于这个自然而然的问题，有一个自然而然的答案，就是具体问题具体分析。然而，有一些基本的事实是不能忽视的。首先，MSE处处可导，易于优化。其次，需要考虑：如果对于两个样本，模型给出的预测值与第一个样本差了 $\delta$ ，与第二个样本差了 $2\delta$ ，那么模型在第二个样本上的表现的拙劣程度，是不是在第一个样本上表现的拙劣程度的两倍？更广泛地说，模型预测值与真实值的差距，是否与人们对这个模型的失望程度呈线性关系？如果的确是线性关系，那么MAE可以使用；如果模型预测值的离谱程度会放大人们的失望程度，那么还是应该使用MSE（事实上，MSE也的确使用更广，而离群点的问题可以通过其它手段来克服）。此外还需注意的一点是，MSE对参数的梯度会随着损失值的减小而变小，因此即使学习率不变也容易收敛；而MAE对参数的梯度不随损失值的变化而变化，是一个常量，因此需要即时调整学习率

根据维基百科，MSE可以看作是误差的算术平均值无偏估计，而MAE则是误差的中位数无偏估计。关于这两种损失函数比较的进一步阅读，可以参考 Chai, Tianfeng, and Roland R. Draxler. “Root mean square error (RMSE) or mean absolute error (MAE)?–Arguments against avoiding RMSE in the literature.” Geoscientific model development 7.3 (2014): 1247-1250.

Huber loss

针对MSE对离群点鲁棒性不太强的弱点，Huber提出了一种新的损失函数来进行弥补，称为huber loss。其定义为
${\rm huber}(y_i, \hat{y}_i) = \begin{cases}\frac{1}{2}(y_i - \hat{y}_i)^2 & {\rm if\ }|y_i - \hat{y}_i| \le \delta \\ \delta|y_i - \hat{y}_i| - \frac{1}{2}\delta^2 & {\rm elsewhere}\end{cases}$
其核心思想是，假设预测值和真实值之间差值的绝对值在给定的参数 $\delta$ 内，则认为原始数据点是正常点，使用平方误差来求损失值；否则认为原始数据点可能是离群点，使用绝对值误差并减去一个与 $\delta$ 有关的量来求损失值。在sklearn关于huber回归的文档中，建议将 $\delta$ 设置为1.35以达到95%的统计有效性

上图来自维基百科，给出了 $\delta=1$ 时的huber loss与平方误差之间的关系。原图中并没有标记坐标轴的意义，参考ESL一书可知横轴为预测值与真实值之间的差，而纵轴为损失函数值。可以看出随着预测值与真实值之间差距的拉大，huber损失函数值只是呈线性缓慢增长，与绝对值误差函数相似

上图来自于sklearn官方文档，给出了在有若干明显离群点的数据集上分别使用huber回归（各模型使用的 $\delta$ 不同）和岭回归的对比图。可以看出在设置了合适的 $\delta$ 时huber回归的效果要明显好很多

关于回归问题的损失函数小结

上述三种损失函数的关系大致如下图所示

其与TensorFlow提供的损失函数有如下对应关系

MAE，对应于tf.losses.absolute_difference
MSE，对应于tf.losses.mean_squared_error
huber loss，对应于tf.losses.huber_loss

TensorFlow还提供了tf.losses.mean_pairwise_squared_error来逐对计算平方误差。这种损失函数比较繁琐而且用得不多，这里就不介绍了（另外，根据stackoverflow的一个回答，在TF1.6之前的版本里这个损失函数的实现甚至是有bug的）

针对分类问题的损失函数

交叉熵损失函数

概述

对于分类问题，最常使用的损失函数是交叉熵损失函数（cross entropy loss function）。接下来的讲述来自于花书的5.5节（不过对逻辑做了一些修改）

对于给定的若干样本，假设它们的标签符合某种真实的分布 $p_{\rm data}({\bf x})$ （对于最常见的二分类问题，这个分布是某个伯努利分布），但是这个真实分布无从得知，能够观察到的也仅是训练集上的经验分布 $\hat{p}_{\rm data}$ 。设计模型的目标就是要使得由模型参数 $\boldsymbol{\theta}$ 确定的分布 $p_{\rm model}(\boldsymbol{\theta},{\bf x})$ 能够逼近真实分布，即对任意的 $\boldsymbol{x}$ 使 $p_{\rm model}(\boldsymbol{\theta},\boldsymbol{x})$ 逼近于 $p_{\rm data}(\boldsymbol{x})$ 。在解决两个概率分布近似程度度量的问题时，通常使用KL散度，即
$D_{\rm KL}(\hat{p}_{\rm data} \| p_{\rm model}) = \mathbb{E}_{ {\bf x}\sim \hat{p}_{\rm data}}\left[\log \hat{p}_{\rm data}(\boldsymbol{x}) - \log p_{\rm model}(\boldsymbol{x})\right]$
这个值越小，说明两个分布越接近。因此，模型的目标就是最小化上面的 $D_{\rm KL}$ 。去掉与模型无关的项，最小化KL散度等价于最小化
$-\mathbb{E}_{ {\bf x}\sim \hat{p}_{\rm data}}\left[ \log p_{\rm model}(\boldsymbol{x})\right]$
也就是真实分布与模型预测分布之间的交叉熵（从信息论的角度讲，交叉熵的意义也可以理解为，使用预测分布表示真实分布所需的平均编码长度）。当两个概率分布都是离散分布时，上式等价于
$-\frac{1}{m}\sum_{i=1}^m \hat{p}_{\rm data}(\boldsymbol{x}_i)\log p_{\rm model}(\boldsymbol{x}_i)$
如果记 ${\bf y}_i$ 为第 $i$ 个样本的真实的标签向量（当分类问题时多分类问题时，真实的标签向量通常是一个独热编码向量。例如对某个5-分类问题，如果样本的真实标签是3，那么对应的向量是[0, 0, 0, 1, 0]）， $\hat{\bf y}_i$ 为模型给出样本属于各真实标签的概率组成的向量，那么最小化上式又等价于最小化
$-\frac{1}{m}\sum_{i=1}^m{\bf y}_i\cdot \log{\hat{\bf y}}_i$
最小化交叉熵损失函数也等价于使用最大似然法求解最优的 $\boldsymbol{\theta}_{\rm ML}$ ，因为
$\begin{aligned} \boldsymbol{\theta}_{\rm ML} &= \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}}p_{\rm model}\left(\mathbb{X};\boldsymbol{\theta}\right) \\ &= \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} \prod_{i=1}^m p_{\rm model}(\boldsymbol{x}^{(i)};\boldsymbol{\theta}) \\ &= \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} \sum_{i=1}^m \log p_{\rm model}(\boldsymbol{x}^{(i)};\boldsymbol{\theta}) \\ &= \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} \frac{1}{m}\sum_{i=1}^m \log p_{\rm model}(\boldsymbol{x}^{(i)};\boldsymbol{\theta}) \\ &= \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} \mathbb{E}_{ {\bf x}\sim \hat{p}_{\rm data}}\log p_{\rm model}(\boldsymbol{x};\boldsymbol{\theta}) \\ &= \mathop{ {\rm arg}\min}_{\boldsymbol{\theta}} -\mathbb{E}_{ {\bf x}\sim \hat{p}_{\rm data}}\log p_{\rm model}(\boldsymbol{x};\boldsymbol{\theta}) \end{aligned}$

Softmax交叉熵损失函数

对多元分类问题，一般情况下我们认为对任意给定的数据，其只应该被标记为一个确定的且唯一的标签。对于这样的问题，通常的方法是计算样本对各类别的得分，然后对得分做一个softmax归一化，这样得到的结果可以解释为样本被模型判断属于各类别的概率。对于这种问题，在TensorFlow中，使用tf.losses.softmax_cross_entropy来计算预测值与真实值之间的交叉熵。但是需要注意的是，TensorFlow中用来计算交叉熵的预测值是原始得分。该损失函数，如函数名称所示，会对原始得分做一个softmax，将softmax得分分别求负对数，然后将负对数的结果与真实值做内积。由于真实值通常是一个独热编码，因此实际上等价于找出负对数向量中的第 $i$ 个分量，这里 $i$ 是样本所属的真实标签序号。例如

import tensorflow as tf


sess = tf.InteractiveSession()
y_pred = tf.placeholder(dtype=tf.float32, shape=(None, None))
y_true = tf.placeholder(dtype=tf.int32, shape=(None, None))
softmax_celoss = tf.losses.softmax_cross_entropy(y_true, y_pred)
print(sess.run(softmax_celoss, 
               y_pred=[[1, 2, 3, 4], [1, 2, 3, 4]],
               y_true=[[0, 0, 0, 1], [0, 0, 1, 0]]
))

>>> 0.9401897

在上述示例中，两条数据都可能属于4个类别0、1、2、3中的一个，真实数据标签分别为3和2。假设模型对两条数据给出分属各个类别的得分都是[1, 2, 3, 4]，那么得分被softmax归一化以后为[0.0320586 , 0.08714432, 0.23688282, 0.64391426]可以看作是模型对数据属于各类别的概率做出的预测。将该数组中各元素取负对数得到[3.4401897, 2.4401897, 1.4401897, 0.4401897]。第一条数据预测值与真实值的交叉熵为0.44，第二条数据为1.44，两者相加再求平均即可得到0.94

使用tf.losses.softmax_cross_entropy时，要求每条数据传入的真实标签是一个独热编码后的向量。如果希望只传入类别的id，那么可以使用tf.losses.sparse_softmax_cross_entropy。接续上面的代码片段

sparse_softmax_celoss = tf.losses.sparse_softmax_cross_entropy(y_true, y_pred)
print(sess.run(softmax_celoss, 
               y_pred=[[1, 2, 3, 4], [1, 2, 3, 4]],
               y_true=[[3], [2]]
))

>>> 0.9401897

可以看到两者相同

Sigmoid交叉熵损失函数

前面提到，softmax交叉熵损失函数隐含认为每个样本所属的类别是唯一的。但是在某些情况下，并不要求给定样本的类别标签两两互斥，在这种情况下，softmax交叉熵损失函数就不是一个好的选择（这也再次说明，需要具体问题具体分析，针对问题挑选合适的损失函数！）。作为替代品，TensorFlow提供了tf.losses.sigmoid_cross_entropy损失函数来解决这个问题，此时模型给出的得分不再统一做归一化，而是对每个分量分别施加sigmoid函数。这样，分数的每个分量仍然可以被解释为模型认为该样本属于对应类别的概率，但此时分量之间是独立的。举个例子，假设对于一个二分类问题，对于某条数据，模型给出的原始分数是[100, 100]，那么使用softmax交叉熵函数隐含认为该数据属于两个类的概率各为50%，而使用sigmoid交叉熵函数认为该模型属于两个类的概率都接近100%。使用前面给出的示例数据

import tensorflow as tf


sess = tf.InteractiveSession()
y_pred = tf.placeholder(dtype=tf.float32, shape=(None, None))
y_true = tf.placeholder(dtype=tf.int32, shape=(None, None))
sigmoid_celoss = tf.losses.sigmoid_cross_entropy(y_true, y_pred)
print(sess.run(sigmoid_celoss, 
               y_pred=[[1, 2, 3, 4], [1, 2, 3, 4]],
               y_true=[[0, 0, 0, 1], [0, 0, 1, 0]]
))

>>> 1.7517316

sigmoid交叉熵函数的计算略微复杂一点，这里以上面代码例子中第一条数据为例。

首先，将所有得分分别求sigmoid，这样[1, 2, 3, 4]被转化成[0.73105858, 0.88079708, 0.95257413, 0.98201379]
然后，用1减去上面得到的sigmoid得分，同时也用1减去真实标签，得到[0.26894142, 0.11920292, 0.04742587, 0.01798621]和[1, 1, 1, 0]
对两个与sigmoid有关的向量分别求负对数，得[0.31326169, 0.12692801, 0.04858735, 0.01814993]和[1.31326169, 2.12692801, 3.04858735, 4.01814993]
将负对数向量与各自的标签向量分别求交叉熵，得到0.01814993和1.31326169 + 2.12692801 + 3.04858735 = 6.48877705
两者求和并除以类别数：(6.48877705 + 0.01814993) / 4 = 1.626731745

通过同样的方法可以得到第二条样本的sigmoid交叉熵为1.876731745。因此样本的总体交叉熵为两条样本交叉熵的均值，为1.751731745

（与代码框中直接计算的结果有些许不同，但是感觉可以忽略）

记样本个数为 $m$ ，类别数量为 $k$ ，上述过程可以形式化地写为
$\begin{aligned} {\rm sigmoid\_CE} &= \frac{1}{m}\frac{1}{k}\sum_{i=1}^m\left( -{\bf y}_i\log \hat{\bf y}_i - ({\bf 1} - {\bf y}_i)\log({\bf 1}-\hat{\bf y}_i) \right) \\ \hat{\bf y}_i &= \sigma({\rm score}_i) \\ \sigma(x) &= \frac{1}{1+e^{-x}} \end{aligned}$
从上面两个例子中可以观察到一个现象：对于上述例子中给定的数据和真实标签，使用sigmoid交叉熵函数得到的损失值比使用softmax交叉熵函数得到的损失值要大一些。究其原因是，模型对四个类别给出的原始得分都是正数，经过sigmoid变换以后，考虑sigmoid交叉熵函数要解决的问题，损失函数会以为模型觉得原始样本属于第1、2、3个类别的概率都很大。但是核对真实标签，发现数据只应属于第2/3个类别，因此损失函数会认为模型做出了错误的判断。通过这个例子，可以更清楚地看到正确选择损失函数的重要性

上面的形式化表示与Logistic回归的损失函数形式上非常像，的确如此，如果将类别个数限定为2，sigmoid交叉熵函数与Logistic回归的损失函数是相同的。事实上，如果要传给损失函数的是已经被sigmoid的值，那么将该预测值和真实值送入TensorFlow提供的tf.losses.log_loss函数，与将原始分数和真实值送入tf.losses.sigmoid_cross_entropy函数得到的结果是相等的

铰链损失函数（hinge loss）

Hinge loss是一种与交叉熵损失函数思路不同的损失函数，它没有使用负对数做最大似然估计，衡量的也不是两个分布之间的差别。对某条数据，假设模型给出的预测值 $\hat{y} \in \mathbb{R}$ ，真实值 $\in \{-1, 1\}$ ，则hinge loss的形式为
${\rm HingeLoss}(y, \hat{y}) = \max(0, 1-y\cdot \hat{y})$
这里 $\hat{y}$ 不是最后的标签，而是模型输出的原始得分。对该损失函数，可以将输入分为三种情况来考虑

真实标签与预测值同号，且预测值分数（的绝对值）很高：此时 $\cdot \hat{y}$ 是一个远大于1的数，因此 $1-y\cdot \hat{y} < 0$ ，样本对损失函数没有贡献
真实标签与预测值同号，但预测值分数（的绝对值）比较小：此时 $\cdot \hat{y} < 1$ ，样本对损失函数有贡献，但是不大， $\ell < 1$
真实标签与预测值异号，此时损失函数值必然大于1。即模型会对这样的数据施加很大的惩罚，而且预测值绝对值越大，说明错得越离谱，惩罚也越大

综上所述，使用hinge loss会主要根据错分样本调整模型参数，次要地根据正确分类但是信心不强的样本调整参数，但是正确分类且信心很强的样本对模型没有影响。这样得到的（线性）模型可以达到最大间隔分离超平面的效果——这种模型也正是传统统计学习中很受重视的支持向量机SVM。事实上，对如下常见的SVM问题的形式化描述
$\begin{aligned} \min_{b, {\bf w}}\hspace{2ex}&\frac{1}{2}\left\|{\bf w}\right\|_2^2 + C\cdot \sum_{n=1}^N \xi_n\\ {\rm s.t.} \hspace{2ex} &y_n({\bf w^\mathsf{T}z}_n + b) \ge 1 -\xi_n,\ \xi_n \ge 0 \forall n \end{aligned}$
记 ${\bf w^\mathsf{T}z}_n + b$ 为 $\hat{y}_n$ ，则对限制条件，有
$y_n \cdot \hat{y}_n \ge 1 - \xi_n \Rightarrow \xi_n \ge 1-y_n\cdot \hat{y}_n$
又 $\xi_n \ge 0$ ，因此优化条件可以写为
$\begin{aligned} \min_{b, {\bf w}} \frac{1}{2}\left\|{\bf w}\right\|^2_2 + C\cdot \sum_{n=1}^N {\rm HingeLoss}(y_n, \hat{y}_n) \end{aligned}$
这意味着SVM可以看作是对hinge loss的优化再加一个 $\ell_2$ 正则项

Hinge loss的好处是在没有离群点的情况下其对未知数据分类的准确度比较高，因为直观地讲，使用hingle loss训练得到的分类器的目标是尽可能把两类数据分得很开，这样就降低了新数据落在分类器另一边的可能（图例可见之前林轩田老师课程笔记）。但是，hinge loss也会比较严重地受到离群点的影响

以SVM为代表的使用hinge loss为损失函数的模型还有一个比较重要的短板，就是它不能提供一个很好的概率解释（这也是使用sklearn的SGDClassifier做分类器时的一个大坑。因为这个分类器默认的损失函数就是hinge loss，这样得到的模型调用概率预测函数predict_proba时会报错，所以要让该分类器给出概率估计，必须在构造分类器时手动传'log'作为loss这一参数的值）。从原理上讲，MLE和减小KL散度的目的都是经验风险最小化，而hinge loss的目的是结构风险最小化

此外，hinge loss这一函数在 $y\cdot \hat{y} = 1$ 时不可导，因此使用基于梯度的优化方法时需要一些额外工作。但是，SVM问题本身是一个凸优化问题，所以求解该问题时通常直接使用二次规划的方法解决

均方误差函数

将MSE纳入本章纯粹是为了顾及内容的完备性。从理论上讲，用MSE来解决分类问题也是可行的，因为MSE也是真实0-1误差的上界（可以参考林轩田老师课程笔记）。但是真正使用MSE来做分类问题的损失函数是有问题的。理论上讲，MSE假设误差遵循高斯分布，而分类问题的误差一般都是二项分布，两者分布不同。从实际上讲，前面提到过，MSE倾向于惩罚离群点，而对于分类问题中的数据，在MSE看来的“离群点”反而可能是那些离真实边界最远的点。如果使用MSE训练分类器，训练出的分界线会向这些“离群点”靠近，因此反而会错分那些离真实边界比较近的点。参考下图（来自于PRML）

因此，分类问题一般不使用针对回归问题的损失函数

关于分类问题的损失函数小结

上述各损失函数的关系大致如下图所示（这里没有包括均方误差函数）

神经翻译领域，大部分情况下都是使用softmax_cross_entropy作为损失函数

你可能感兴趣的:(神经翻译笔记)

神经翻译笔记5. 序列到序列模型与注意力机制 TimsonShi 神经翻译笔记机器翻译注意力机制序列到序列模型
文章目录神经翻译笔记5.序列到序列模型与注意力机制机器翻译概论编码器-解码器结构集束搜索注意力机制结语其它参考文献备注神经翻译笔记5.序列到序列模型与注意力机制本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经
神经翻译笔记5扩展d. PyTorch学习笔记 TimsonShi 神经翻译笔记 pytorch
文章目录神经翻译笔记5扩展d.PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2.“冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础 TimsonShi 神经翻译笔记矩阵微分
文章目录神经翻译笔记3扩展a.深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a.深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍
神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用 TimsonShi 神经翻译笔记卷积神经网络机器翻译
文章目录神经翻译笔记6.卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节轻量与动态CNN轻量卷积带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6.卷积神经网络及其在机器翻译中的应
神经翻译笔记2. Log-linear语言模型 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2.Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降（SGD）进行优化损失函数对参数的偏导数神经翻译笔记2.Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另
神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展e第1部分.Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型（CBOW）上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神经翻
神经翻译笔记3扩展d. 神经网络的泛化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展d.神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d.神经网络的泛化机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出
神经翻译笔记3扩展b. 自动微分 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展b.自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forwardmode）二元数后向模式（Backwardmode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b.自动微分本文无
神经翻译笔记3扩展c. 神经网络的初始化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展c.神经网络的初始化基本初始化方法LeCun初始化Xavier初始化（Glorot初始化）何恺明初始化（He初始化）前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c.神经网络的初始化深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短
神经翻译笔记2扩展a. 损失函数 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2扩展a.损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huberloss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数（hingeloss）均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a.损失函数从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量
神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型 TimsonShi 神经翻译笔记
神经翻译笔记4扩展d.迁移学习概述与前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）辅助任务为什么多任务学习能够有效顺序迁移学习终生学习（Lifelonglearning）领域适配基于表示的方法领域相似度数据加权和数据选择自标注技术前BERT时代的两种经典RNN预训练模型ULMFiTELMo讨论：微调还是不调，这是一个问题参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展 TimsonShi 神经翻译笔记
文章目录神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展QuasiRNNFS-RNNSkipRNN高秩RNN语言模型MoSIndRNNON-LSTMMogrifierLSTM参考文献神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日
神经翻译笔记4扩展b. RNN的正则化方法 TimsonShi 神经翻译笔记正则化 rnn
文章目录神经翻译笔记4扩展b.RNN的正则化方法层归一化对dropout的扩展集大成的方法：AWD-LSTM正则化方法不同形式的dropout变长的反向传播嵌入共享嵌入维度与隐藏层维度分离激活单元正则化与时序激活单元正则化优化方法其它技术与实验参考文献神经翻译笔记4扩展b.RNN的正则化方法本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法层
神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`RNN
神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第一部分.RNN在TF1.x中的实现方法略览RNNcell的实现`keras.layers.Layer``layers.Layer``nn.rnn_cell.RNNCell``LayerRNNCell``BasicRNNCell``GRUCell``BasicLSTMCell``LSTMCell``MultiRNNCell`RNN的实现静态机制动态机制参考文献本文主要讨论TF1
神经翻译笔记4. 循环神经网络（RNN） TimsonShi 神经翻译笔记
神经翻译笔记4.循环神经网络（RNN）普通RNN(VanillaRNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络(LSTM)门控循环单元(GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源，结构遵从此文)[Koehn2017]13.4.4、13.4.5、13.4.6三小节
神经翻译笔记3扩展e第2部分. Subword TimsonShi 神经翻译笔记
文章目录NMTTutorial3扩展e第2部分.Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题：前向算法求解解码问题：维特比算法求解学习问题：前向-后向算法（B
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache