TimsonShi

神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

文章目录

神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

QuasiRNN
FS-RNN
Skip RNN
高秩RNN语言模型MoS
IndRNN
ON-LSTM
Mogrifier LSTM
参考文献

神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日黄花，在其基础上衍生的各种变体，例如RoBERTa、ALBERT、BART等等长江后浪推前浪，使得基于RNN的语言模型更不再是语言模型领域的焦点。但是为了系列文章结构的完备性，本文以及下一篇文章仍然会介绍一些这方面的“新”工作和一些里程碑式的工作。本文将介绍2017至2019三年间，RNN体系结构及基于RNN的语言模型的一些新进展。

QuasiRNN

本文实际上发表于2016年，而且采用了CNN的思想，因此先不在本文介绍。在这里先立个flag，等本系列笔记进行到6时，再概述此工作。采取同样思想的亦有SRU，准备也到时再介绍

FS-RNN

FS-RNN (Fast-Slow RNN) [Mujika2017] 受两类RNN的启发

多（时间）尺度RNN：对于堆叠RNN中更高层的若干层，其被更新的次数越少（更不频繁），以此来获得信息的分层表示。由于高层参数更新变慢，因此计算起来更高效，梯度更新路径越短，越能捕捉长距离依赖
深度变换RNN (deep transition RNN)，其相邻两个隐藏状态之间引入了新的顺序连接层，以此来增加两个时间步之间变换函数的深度，进而学习更复杂的非线性变换

FS-RNN将两类网络结合起来，最简单的方式是

对底层RNN，引入深度变换（若干顺序连接层），称为“快层”
对高层RNN，降低更新频率，称为“慢层”

更形式化地讲，底层在两个时间步之间插入 $k$ 个顺序连接的RNN神经元 $F_1, \ldots, F_k$ ，高层只使用一个神经元 $S$ 。 $F_1$ 接收第 $t$ 时间步的输入 $x_t$ ，将输出传给 $S$ 作为输入， $S$ 处理后将状态传给 $F_2$ ，然后从 $F_2$ 开始输出逐级传播下去，前一个 $F_{i-1}$ 的输出作为后一个 $F_i$ 的输入，到 $F_k$ 输出概率分布 $y_t$ ，如下图所示

记每个RNN神经元 $Q$ 为一个可微函数 $f^Q(h,x)$ ，其将上一步的隐藏状态 $h$ 和输入 $x$ 一起映射为一个新的隐藏状态，则

$\begin{aligned} h_t^{F_1} &= f^{F_1}(h_{t-1}^{F_k}, x_t) \\ h_t^{S} &= f^{S}(h_{t-1}^{S}, h_t^{F_1}) \\ h_t^{F_2} &= f^{F_2}(h_{t}^{F_1}, h_t^S) \\ h_t^{F_i} &= f^{F_i}\left(h_t^{F_{i-1}}\right)\ \ {\rm for\ }3\le i \le k \\ y_t &= {\rm softmax}\left(Wh_t^{F_k}+b\right) \end{aligned}$

文章使用LSTM作为基础的RNN神经元，在Penn Treebank和enwik8上均取得了不错的效果

Skip RNN

传统RNN和普通的带门控的RNN（例如LSTM）对长句表现都不好。[Campos2017]的思路是让网络学习输入序列中哪些样本可以解决目标问题，因此可以在训练时跳过一些状态的更新，可以减少对序列的操作

记RNN接受的输入序列 $\boldsymbol{x} = (x_1, \ldots, x_T)$ ，每步向下传递的状态为 $\boldsymbol{s}=(s_1, \ldots, s_T)$ ，有

$s_t = {\rm RNN}(s_{t-1}, x_t)$

本文引入了一个额外的状态更新门 $u_t \in \{0,1\}$ ，该门是完全二值的，只输出0或1，不像LSTM或GRU那样输出一个0到1的浮点数。当 $u_t = 1$ 时，该时刻状态更新；当 $u_t = 0$ 时，该时刻从前一时刻直接拷贝状态。 $u_t$ 的结果由上一步产生的概率 $\tilde{u}_{t} \in [0,1]$ 决定，具体地

$\begin{aligned} u_t &= f_{\rm binarize}(\tilde{u}_t) \\ s_t &= u_t \cdot {\rm RNN}(s_{t-1}, x_t) + (1-u_t)\cdot s_{t-1} \\ \Delta \tilde{u}_t &= \sigma(\boldsymbol{W}_ps_t + \boldsymbol{b}_p) \\ \tilde{u}_{t+1} &= u_t \cdot \Delta\tilde{u}_t + (1-u_t)\cdot (\tilde{u}_t + \min(\Delta\tilde{u}_t, 1-\tilde{u}_t)) \end{aligned}$

其中 $\boldsymbol{W}_p$ 是权重， $\boldsymbol{b}_p$ 是偏置项， $\sigma$ 是sigmoid函数， $f_{\rm binarize}:[0,1] \rightarrow \{0,1\}$ 是将输入映射为0或1的函数，本文使用了四舍五入法（round），也可以从伯努利分布随机采样。模型隐含了一个信息：如果连续跳过的状态越多，那么下一个状态就更可能被更新：

如果当前状态被跳过，那么下一个时间步的“预激活值” $\tilde{u}_{t+1}$ 会增加 $\Delta \tilde{u}_t$
如果当前状态被更新，那么累积的“预激活值”清零，重置为 $\Delta \tilde{u}_t$

如果在某些场合下，可以为减少计算量额外牺牲精度，即为了让模型更倾向于少更新状态，则可以引入一个额外的损失项

$L_{\rm budget} = \lambda \cdot \sum_{t=1}^T u_t$

有趣的是，本工作的三项实验均未在NLP任务上进行

高秩RNN语言模型MoS

[YangZhilin2017]将语言模型看作是一个矩阵分解问题。文章将自然语言 $\mathcal{L}$ 定义为一个有限集合，集合中每个元素是一个有序对，由上下文和给定上下文后下一个标识符的分布两者组成，即

$\mathcal{L} = \{(c_1, P^\ast(X|c_1)), \ldots, (c_N, P^\ast(X|c_N))\}$

其中 $N$ 是所有可能的上下文的数目。令 $\mathcal{L}$ 中所有可能的标识符集合为 $\{x_1, x_2, \ldots, x_M\}$ ，大小为 $M$ ，则语言模型的目标是学习一个参数为 $\theta$ 的模型分布 $P_\theta(X|C)$ 以逼近真实分布 $P^\ast(X|C)$ 。本文主要研究该模型的表示能力，即对给定的 $\mathcal{L}$ 是否存在参数 $\theta$ ，使得对 $\mathcal{L}$ 中的所有 $c$ 有 $P_\theta(X|c) = P^\ast(X|c)$

对于RNN语言模型， $P_\theta(x|c)$ 由RNN的上下文向量（隐藏状态） $\boldsymbol{h}_c$ 和词向量 $\boldsymbol{w}_x$ 决定，即

$P_\theta (x|c) = \frac{\exp\{\boldsymbol{h}_c^\mathsf{T}\boldsymbol{w}_{x}\}}{\sum_{x'}\exp\{\boldsymbol{h}_c^\mathsf{T}\boldsymbol{w}_{x'}\}}$

称 $\boldsymbol{h}_c^\mathsf{T}\boldsymbol{w}_{x}$ 为分对数logit。定义如下三个矩阵
$\boldsymbol{H}_\theta = \left[\begin{matrix}\boldsymbol{h}_{c_1}^\mathsf{T} \\ \boldsymbol{h}_{c_2}^\mathsf{T} \\ \cdots \\ \boldsymbol{h}_{c_N}^\mathsf{T} \end{matrix}\right] \in \mathbb{R}^{N \times d}; \boldsymbol{W}_\theta = \left[\begin{matrix}\boldsymbol{w}_{x_1}^\mathsf{T} \\ \boldsymbol{w}_{x_2}^\mathsf{T} \\ \cdots \\ \boldsymbol{w}_{x_M}^\mathsf{T} \end{matrix}\right] \in \mathbb{R}^{M\times d} \\ \\ \boldsymbol{A}=\left[\begin{matrix}\log P^\ast (x_1|c_1) & \log P^\ast (x_2|c_1) & \cdots & \log P^\ast (x_M|c_1) \\ \log P^\ast (x_1|c_2) & \log P^\ast (x_2|c_2) & \cdots & \log P^\ast (x_M|c_2) \\ \vdots & \vdots & \ddots & \vdots \\ \log P^\ast (x_1|c_N) & \log P^\ast (x_2|c_N) & \cdots & \log P^\ast (x_M|c_N)\end{matrix}\right] \in \mathbb{R}^{N \times M}$

其中 $\boldsymbol{H}_\theta$ 、 $\boldsymbol{W}_\theta$ 和 $\boldsymbol{A}$ 的每一行分别是上下文向量、词向量和真实分布中概率的对数值。对不同的参数 $\theta$ ， $\boldsymbol{H}_\theta$ 和 $\boldsymbol{W}_\theta$ 也会不同

定义矩阵集合 $F(\boldsymbol{A})$ 为 $\boldsymbol{A}$ 每行各自加一增量得到的矩阵的集合。形式化表示为

$F(\boldsymbol{A}) = \{\boldsymbol{A} + \boldsymbol{\Lambda J}_{N,M} | \boldsymbol{\Lambda} \in \mathbb{R}^{N \times N}\}$

其中 $\boldsymbol{\Lambda}$ 为对角矩阵。 $F(\boldsymbol{A})$ 就是让 $\boldsymbol{A}$ 第 $i$ 行每个元素都增加一个增量 $\boldsymbol{\Lambda}_{ii}$

文章根据 $F(\boldsymbol{A})$ 的两个性质和一条引理（具体内容略）将问题转化为：是否存在一个参数 $\theta$ 和矩阵 $\boldsymbol{A}' \in F(\boldsymbol{A})$ ，使得
$\boldsymbol{H}_\theta \boldsymbol{W}_\theta^\mathsf{T} = \boldsymbol{A}'$

这实际上是一个矩阵分解问题。如果存在一个合法的矩阵分解，则 $\boldsymbol{H}_\theta \boldsymbol{W}_\theta^\mathsf{T}$ 的秩不应该比 $\boldsymbol{A}'$ 的秩小，而 $\boldsymbol{H}_\theta \boldsymbol{W}_\theta^\mathsf{T}$ 秩的上界为 $d$ 。文章再次推导并形式化提出了“Softmax瓶颈”问题，即

如果 ${\rm rank}(\boldsymbol{A}' )- 1$ ，则对任意函数族 $\mathcal{U}$ 和任意模型参数 $\theta$ ， $\mathcal{L}$ 中都有一个上下文 $c$ 使得 $P_\theta(X|c) \not= P^\ast(X|c)$

更白话的解释是，当 $d$ 太小时，softmax没有足够能力表示真实的数据分布。然而，根据一些直觉和经验观察，对任何自然语言 $\mathcal{L}$ 来说， $\boldsymbol{A}$ 可能都是高秩的，即在目前的实践中都有 $\ll {\rm rank}(\boldsymbol{A})$ 。一种对策是使用非参数模型，例如Ngram语言模型，不过这种模型表示能力太高会损失泛化能力

本文提出的方法是在模型里计算 $K$ 个softmax分布，然后将他们的结果加权输出，即

$\begin{aligned} P_\theta (x|c) &= \sum_{k=1}^K \pi_{c,k} \frac{\exp\{\boldsymbol{h}_{c,k}^\mathsf{T}\boldsymbol{w}_{x}\}}{\sum_{x'}\exp\{\boldsymbol{h}_{c,k}^\mathsf{T}\boldsymbol{w}_{x'}\}} \\ \pi_{c_t, k} &= \frac{\exp\{\boldsymbol{w}_{\pi,k}^\mathsf{T}\boldsymbol{g}_{t}\}}{\sum_{k'=1}^K\exp\{\boldsymbol{w}_{\pi,k'}^\mathsf{T}\boldsymbol{g}_{t}\}} \\ \boldsymbol{h}_{c_t, k} &= \tanh(\boldsymbol{W}_{h,k}\boldsymbol{g}_t) \end{aligned}$

其中 $\boldsymbol{g}_t$ 是由加在输入 $\boldsymbol{X}$ 上的RNN得到的隐藏状态（感觉相当于本节最开始引入的 $\boldsymbol{h}$ ）， $\boldsymbol{w}_{\pi,k}$ 和 $\boldsymbol{W}_{h,k}$ 都是模型参数。本文称这种方法为“softmax混合模型”（Mixture of Softmaxes，缩写MoS）

本工作的直接后继是Mixtape [YangZhilin2019]，不过模型更加复杂，这里就不介绍了

IndRNN

由于RNN中各时间步内部共享一个权重矩阵 $\boldsymbol{U}$ （正文中的 $\boldsymbol{W}$ ），因此会很容易带来梯度消失或梯度爆炸问题，而且很难解释和理解单个神经元所扮演的角色。此外，每个时间步展开时所进行的矩阵乘法也不好并行化，使得网络对长序列的处理非常耗时。[LiShuai2018] 提出将这个 $\boldsymbol{U}$ 替换成一个 $d$ 维向量 $\boldsymbol{u}$ （ $d$ 为每层神经元的个数），即第 $t$ 时刻隐藏状态为

$\boldsymbol{h}^{(t)} = {\rm activation}\left(\boldsymbol{Wx}^{(t)}+\boldsymbol{u}\odot \boldsymbol{h}^{(t-1)} + \boldsymbol{b}\right)$

这使得每一层的各个神经元都相互独立，都只从前一个时刻自身的隐藏状态接收信息，不被其他神经元影响，如下图所示。因此网络被称为“独立循环神经网络”（Independent RNN, IndRNN）。IndRNN常用ReLU作为激活函数

对第 $n$ 个神经元，隐藏状态为

$h_n^{(t)} = {\rm activation}\left(\boldsymbol{w}_n\boldsymbol{x}^{(t)} + u_nh_n^{(t-1)} + b_n\right)$

假设对时刻 $T$ 的目标函数是 $J_n$ ，则其反向传播到时刻 $t$ 的梯度为

$\begin{aligned} \frac{\partial J_n}{\partial h_n^{(t)}} &= \frac{\partial J_n}{\partial h_n^{(T)}} \frac{\partial h^{(T)}_n}{\partial h_n^{(t)}} = \frac{\partial J_n}{\partial h_n^{(T)}} \prod_{k=t}^{T-1} \frac{\partial h^{(k+1)}_n}{\partial h_n^{(k)}} \\ &= \frac{\partial J_n}{\partial h_n^{(T)}} \prod_{k=t}^{T-1} {\rm activation}_n^{'(k+1)} u_n = \frac{\partial J_n}{\partial h_n^{(T)}}u_n^{T-t} \prod_{k=t}^{T-1} {\rm activation}_n^{'(k+1)} \end{aligned}$

这里只依赖两项：标量 $u_n$ 的指数项（正则化更容易）和激活函数的逐元素导数（一般都有界）。由于标量 $u_n$ 在训练过程中只根据学习率被微调，而不是像矩阵一样其乘积由特征值决定（而特征值很容易剧烈变化），因此IndRNN的训练过程更鲁棒。为了避免梯度消失，只需要让 $u_n| > 0$ 即可。而且由于各个 $u_n$ 相对独立，因此很难出现所有 $u_n$ 都为0的情况，不用刻意限制，只需要让 $|u_n| \le \sqrt[(T-t)]{\gamma}$ 来防止梯度爆炸即可（ $\gamma$ 是不让爆炸发生的最大梯度）。如果只是要做文本分类，只需要长期记忆，则需要提高 $u_n|$ 的下界使得梯度在 $T - t$ 个时间步后仍然有效。记最小的有效梯度为 $\epsilon$ ，则此时需要将权重初始化在区间 $[\sqrt[(T-t)]{\epsilon}, \sqrt[(T-t)]{\gamma}]$ 内。（注意，这里对关键结论有所省略，仅讨论激活函数为ReLU的情况）

将基本IndRNN单元和批归一化BN相结合作为一个原子单元，并将若干原子单元堆叠，可以组成更深的IndRNN网络。进一步，可以在纵向各层之间引入残差连接，进一步增强深层网络的稳定性。记第 $l$ 层第 $t$ 步的残差连接为 $\mathcal{F}_l^{(t)}$ ，第 $l$ 层第 $t$ 步的输出特征为 $x_l^{(t)}$ ，有
$x_l^{(t)} = x_{l-1}^{(t)} + \mathcal{F}_l^{(t)}\left(x_{l-1}^{(t)}\right)$
或者可以将残差连接（相加操作）改成连接操作 $\mathcal{C}$ ，此时可以看做是将前面各层的特征都组合起来，即
$x_l^{(t)} = \mathcal{C}\left(x_{l-1}^{(t)}, \mathcal{F}_l^{(t)}\left(x_{l-1}^{(t)}\right)\right)$
称为稠密连接IndRNN（densely connected IndRNN）。三种体系结构如下图所示

IndRNN各时间步可独立计算 $\boldsymbol{Wx}^{(t)}$ ，而 $\boldsymbol{u}\odot \boldsymbol{h}^{(t-1)}$ 计算量较小，因此并行化得到了提高。实验表明IndRNN在序列极长（上千步）时仍然能快速收敛，且能叠加多层（12层）

ON-LSTM

尽管语言读写时展现出线性的表象，但是其底层结构并非线性，而是树形、分层的。将树形结构引入深度神经网络，可以获得一个分层的表示结果，而且可以对语言本身的组合现象建模，处理长期依赖问题。在统计自然语言处理中，使用有监督的句法分析器产生句法树，已经是一个经典方向，而且一些思想也被引入到了深度学习中。但是很多语言没有大量有标注的数据，一些领域里语言结构也不规则（例如推特），而且随着时间的变化语言结构也会缓慢改变。另一方面，让模型从语料中自动归纳语法仍然是一个开放性问题。[ShenYikang2018]提出了一种称为“有序神经元”（ordered neurons）的方法，通过无监督语法分析让高层神经元学习长期信息，而底层神经元学习短期信息。高层神经元和底层神经元通过控制神经元的更新频率来做区分：高层神经元更新更少，而底层更新更多。使用这种神经元构成的网络，称为ON-LSTM。ON-LSTM与语法树的关系大致如下图所示，图中最顶层节点只在第一步更新，代表了整个句子的信息；第二层节点在第1、2步更新，而第三层节点由于对应单词词性（语法树叶子节点），需要每步都被更新。节点的更新顺序是预先定义的，作为模型结构的一部分

然而，经典LSTM各个节点的门控单元都是独立的，很难体现分层信息，因此需要修改来引入这种依赖关系。本文提出了一种新的激活函数 $\rm cumax$ ，定义为

$\hat{\boldsymbol{g}} = {\rm cumax}(\ldots) = {\rm cumsum}({\rm softmax}(\ldots))$

其中 $\rm cumsum$ 为累加函数。该激活函数使得向量 $\hat{\boldsymbol{g}}$ 表现出一种二元门 $\ldots , 0 ,1,\ldots, 1)$ 的形态，其可以将RNN神经元的状态分成两段，进而对两段使用不同的更新方法。记随机变量 $d$ 为 $\hat{\boldsymbol{g}}$ 两段的分隔点（第一次出现1的位置）。实际上， $d$ 就是 ${\rm softmax}(\ldots)$ 结果中最大分量所在的索引位置

就此，文章引入两个新的门，主遗忘门 $\tilde{\boldsymbol{f}}^{(t)}$ 和主更新门 $\tilde{\boldsymbol{i}}^{(t)}$ ：（这里仍然是用 $\boldsymbol{h}$ 表示隐藏向量）

$\begin{aligned} \tilde{\boldsymbol{f}}^{(t)} &= {\rm cumax}\left(\boldsymbol{W}_{\tilde{f}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{\tilde{f}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{\tilde{f}}\right) \\ \tilde{\boldsymbol{i}}^{(t)} &= 1 - {\rm cumax}\left(\boldsymbol{W}_{\tilde{i}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{\tilde{i}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{\tilde{i}}\right) \end{aligned}$

其中主遗忘门是递增的（在某个位置之前的元素都是0，之后的元素都是1），而主更新门是递减的。整个ON-LSTM的更新规则为

$\begin{aligned} \boldsymbol{f}^{(t)} &= \sigma\left(\boldsymbol{W}_{ {f}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{ {f}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{ {f}}\right) \\ \boldsymbol{i}^{(t)} &= \sigma\left(\boldsymbol{W}_{ {i}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{ {i}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{ {i}}\right) \\ \boldsymbol{o}^{(t)} &= \sigma\left(\boldsymbol{W}_{ {o}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{ {o}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{ {o}}\right) \\ \hat{\boldsymbol{c}}^{(t)} &= \tanh\left(\boldsymbol{W}_{ {c}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{ {c}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{ {c}}\right) \\ \tilde{\boldsymbol{f}}^{(t)} &= {\rm cumax}\left(\boldsymbol{W}_{\tilde{f}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{\tilde{f}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{\tilde{f}}\right) \\ \tilde{\boldsymbol{i}}^{(t)} &= 1 - {\rm cumax}\left(\boldsymbol{W}_{\tilde{i}}\boldsymbol{x}^{(t)} + \boldsymbol{U}_{\tilde{i}}\boldsymbol{h}^{(t-1)} + \boldsymbol{b}_{\tilde{i}}\right) \\ \boldsymbol{\omega}^{(t)} &= \tilde{\boldsymbol{f}}^{(t)} \circ \tilde{\boldsymbol{i}}^{(t)} \\ \hat{\boldsymbol{f}}^{(t)} &= {\boldsymbol{f}}^{(t)} \circ {\boldsymbol{\omega}}^{(t)} + \left(\tilde{\boldsymbol{f}}^{(t)} - {\boldsymbol{\omega}}^{(t)}\right) = \tilde{\boldsymbol{f}}^{(t)} \circ \left({\boldsymbol{f}}^{(t)} \circ \tilde{\boldsymbol{i}}^{(t)} + 1 - \tilde{\boldsymbol{i}}^{(t)}\right) \\ \hat{\boldsymbol{i}}^{(t)} &= {\boldsymbol{i}}^{(t)} \circ {\boldsymbol{\omega}}^{(t)} + \left(\tilde{\boldsymbol{i}}^{(t)} - {\boldsymbol{\omega}}^{(t)}\right) = \tilde{\boldsymbol{i}}^{(t)} \circ \left({\boldsymbol{i}}^{(t)} \circ \tilde{\boldsymbol{f}}^{(t)} + 1 - \tilde{\boldsymbol{f}}^{(t)}\right) \\ \boldsymbol{c}^{(t)} &= \hat{\boldsymbol{f}}^{(t)} \circ {\boldsymbol{c}}^{(t-1)} + \hat{\boldsymbol{i}}^{(t)} \circ \hat{\boldsymbol{c}}^{(t)} \\ \boldsymbol{h}^{(t)} &= \boldsymbol{o}^{(t)} \circ \tanh \left(\boldsymbol{c}^{(t)} \right) \end{aligned}$

其背后的直觉如下（假设所有主门每个元素都是0或1）

主遗忘门 $\tilde{\boldsymbol{f}}^{(t)}$ 控制模型的擦除行为。假设其分隔点为 $d_f^{(t)}$ ，根据 $\hat{\boldsymbol{f}}^{(t)}$ 和 $\boldsymbol{c}^{(t)}$ 的更新公式，前一个单元传来的状态 $\boldsymbol{c}^{(t-1)}$ 的前 $d_f^{(t)}$ 个神经元都被擦除。在语法树中，这意味着前一个成分已经被处理完毕
主输入门 $\tilde{\boldsymbol{i}}^{(t)}$ 控制模型的写入行为。假设其分隔点为 $d_i^{(t)}$ ，该值若大则说明当前输入包含长期信息，需要保存若干个时间步
两个主门的逐元素乘积 $\boldsymbol{\omega}^{(t)}$ 表示它们交叠的部分。当交叠存在时，这一段里的神经元编码的成分是不完全的，通过标准LSTM来更新

（所以文章两个主门的作用是预测每一步的分隔点，通过分隔点控制信息的更新。分隔点的位置决定了两个0-1向量，但是0-1向量是离散的，不好求导，所以通过softmax来近似——这也是文章在4.1节后面文字所想表达的内涵？看了下面引用的苏剑林的博客，自己的一点概括，不一定准确）

由于主门只做大粒度的控制，因此可以让其维度小一点。设隐藏状态的维度为 $D$ ，这里所有主门的维度都是 $D / C$ 的，其中 $C$ 是一个超参数。在与LSTM遗忘门和输入门逐元素相乘时，将主门的每个分量重复 $C$ 次，即每 $C$ 个神经元由一个主门控制

实验表明，ON-LSTM不仅提高了语言模型的效果，还能无监督地学到句子的语法结构

ON-LSTM是ICLR 2019的最佳论文之一。本节仅是对原文做的一个简单记录，更详细的分析可以参考苏剑林：ON-LSTM用有序神经元表达层次结构

Mogrifier LSTM

Mogrifier LSTM[Melis2019]期望通过引入额外的门控机制，使得模型对当前输入的信息能够结合上文进行缩放，进而得到一个受上文影响的输入表示。对于原始的LSTM，输入门 ${\boldsymbol{i}}^{(t)}$ 可以看做是对 $\tilde{\boldsymbol{c}}^{(t)}$ 的每行都做了一个放缩（不看非线性操作 $\tanh$ ）（因为 $\boldsymbol{c}^{(t)}$ 的更新里有一项是 $\tilde{\boldsymbol{c}}^{(t)} \odot {\boldsymbol{i}}^{(t)}$ ）。Mogrifier LSTM更进一步，使得LSTM的所有权重矩阵 $\boldsymbol{W}$ 和 $\boldsymbol{U}$ 的每一列都被缩放一个因子，且缩放程度和上下文相关。具体地，在计算各个门之前，Mogrifier LSTM让输入 $\boldsymbol{x}^{(t)}$ （简记为 $\boldsymbol{x}$ ）和上一步隐藏状态 $\boldsymbol{h}^{(t-1)}$ （记为 $\boldsymbol{h}_{\rm prev}$ ）交互影响，即
$\begin{aligned} {\rm Mogrify}(\boldsymbol{x}, \boldsymbol{c}_{\rm prev}, \boldsymbol{h}_{\rm prev}) &= {\rm LSTM}(\boldsymbol{x}^{\uparrow}, \boldsymbol{c}_{\rm prev}, \boldsymbol{h}_{\rm prev}^{\uparrow}) \\ \boldsymbol{x}^{\uparrow}和\boldsymbol{h}_{\rm prev}^{\uparrow}是如下&迭代过程最终一步的结果 \\ \boldsymbol{x}^i &= 2\sigma\left(\boldsymbol{Q}^i\boldsymbol{h}_{\rm prev}^{i-1}\right) \odot \boldsymbol{x}^{i-2} \ \ \ \ {\rm for\ odd\ }i \in [1\ldots r] \\ \boldsymbol{h}^i_{\rm prev} &= 2\sigma\left(\boldsymbol{R}^i\boldsymbol{x}^{i-1}\right) \odot \boldsymbol{h}^{i-2}_{\rm prev} \ \ \ \ {\rm for\ even\ }i \in [1\ldots r] \\ \boldsymbol{x}^{-1} &= \boldsymbol{x},\ \boldsymbol{h}_{\rm prev}^0 = \boldsymbol{h}_{\rm prev} \end{aligned}$

$r\in \mathbb{N}$ 是模型的超参数，定义迭代过程的轮数。当 $r = 0$ 时，Mogrifier LSTM退化为标准LSTM。为了减少模型参数，通常将 $\boldsymbol{Q}^i$ 和 $\boldsymbol{R}^i$ 分解成两个低秩矩阵的乘积。实践表明， $r$ 为5或6，低秩矩阵的秩在40到90之间时，效果最好。文章尝试了两种变体，分别为

$\boldsymbol{Q}^i$ 和 $\boldsymbol{R}^i$ 使用满秩矩阵
$\boldsymbol{x}^i$ 更新时不再依赖前一次迭代的 $\boldsymbol{h}_{\rm prev}^{i-1}$ ，而是都依赖初始的 $\boldsymbol{h}_{\rm prev}$ 。 $\boldsymbol{h}_{\rm prev}^{i}$ 同理

两种变体效果都不太好

本文在PTB和MWC两个语言模型任务上进行了实验，都取得了不错的效果。此外，文章通过“逆序拷贝”任务（读入一个字符串，遇到某个特殊字符时，倒序输出所有接收到的输入），验证模型的确可以根据上下文放大输入表示中有用的信息，减少无用的信息，从而降低输入嵌入矩阵的维度

最后，文章认为以下几项假说不能解释mogrifier的有效性，包括

“Mogrifier LSTM受益于对 $\boldsymbol{x}$ 和 $\boldsymbol{h}_{\rm prev}$ 进行缩放”：否。对LSTM做缩放，且使缩放因子可学习，并没有提升LSTM的效果
“Mogrifier LSTM受益于让优化过程更容易”：否。没有观察到
“常见的语言模型正则化手段之一是让输入输出共享词嵌入矩阵，这个限制太大，而mogrifier放松了这样的限制”：否。分开学习输入输出嵌入矩阵，mogrifier仍然有效
“Mogrifier LSTM受益于低秩矩阵分解”：否。使用满秩矩阵虽然降低了效果，但是仍然比普通LSTM好
“Mogrifier LSTM在罕见词上表现更佳”：否。逆序拷贝任务不存在罕见词问题，mogrifier LSTM效果仍然更好
“Mogrifier LSTM只在英语上效果好”：否。MWC（多语Wiki数据集）的效果推翻了这种说法
“Mogrifier LSTM更能处理长距离依赖”：否。在句子级语言模型上mogrifier LSTM效果也很好

参考文献

[Mujika2017] Mujika, A., Meier, F., & Steger, A. (2017). Fast-slow recurrent neural networks. In Advances in Neural Information Processing Systems (NeurIPS 2017) (pp. 5915-5924).
[Campos2017] Campos, V., Jou, B., Giró-i-Nieto, X., Torres, J., & Chang, S. F. (2017). Skip rnn: Learning to skip state updates in recurrent neural networks. arXiv preprint arXiv:1708.06834. (Published in ICLR 2018).
[YangZhilin2017] Yang, Z., Dai, Z., Salakhutdinov, R., & Cohen, W. W. (2017). Breaking the softmax bottleneck: A high-rank RNN language model. arXiv preprint arXiv:1711.03953. (Published in ICLR 2018).
[YangZhilin2019] Yang, Z., Luong, T., Salakhutdinov, R. R., & Le, Q. V. (2019). Mixtape: Breaking the Softmax Bottleneck Efficiently. In Advances in Neural Information Processing Systems (NeurIPS 2019) (pp. 15922-15930).
[LiShuai2018] Li, S., Li, W., Cook, C., Zhu, C., & Gao, Y. (2018). Independently recurrent neural network (indrnn): Building a longer and deeper rnn. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR2018) (pp. 5457-5466).
[ShenYikang2018] Shen, Y., Tan, S., Sordoni, A., & Courville, A. (2018). Ordered neurons: Integrating tree structures into recurrent neural networks. arXiv preprint arXiv:1810.09536.
[Melis2019] Melis, G., Kočiský, T., & Blunsom, P. (2019). Mogrifier lstm. arXiv preprint arXiv:1909.01792. (Pulished in ICLR 2020)

你可能感兴趣的:(神经翻译笔记)

神经翻译笔记5. 序列到序列模型与注意力机制 TimsonShi 神经翻译笔记机器翻译注意力机制序列到序列模型
文章目录神经翻译笔记5.序列到序列模型与注意力机制机器翻译概论编码器-解码器结构集束搜索注意力机制结语其它参考文献备注神经翻译笔记5.序列到序列模型与注意力机制本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经
神经翻译笔记5扩展d. PyTorch学习笔记 TimsonShi 神经翻译笔记 pytorch
文章目录神经翻译笔记5扩展d.PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2.“冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础 TimsonShi 神经翻译笔记矩阵微分
文章目录神经翻译笔记3扩展a.深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a.深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍
神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用 TimsonShi 神经翻译笔记卷积神经网络机器翻译
文章目录神经翻译笔记6.卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节轻量与动态CNN轻量卷积带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6.卷积神经网络及其在机器翻译中的应
神经翻译笔记2. Log-linear语言模型 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2.Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降（SGD）进行优化损失函数对参数的偏导数神经翻译笔记2.Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另
神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展e第1部分.Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型（CBOW）上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神经翻
神经翻译笔记3扩展d. 神经网络的泛化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展d.神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d.神经网络的泛化机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出
神经翻译笔记3扩展b. 自动微分 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展b.自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forwardmode）二元数后向模式（Backwardmode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b.自动微分本文无
神经翻译笔记3扩展c. 神经网络的初始化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展c.神经网络的初始化基本初始化方法LeCun初始化Xavier初始化（Glorot初始化）何恺明初始化（He初始化）前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c.神经网络的初始化深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短
神经翻译笔记2扩展a. 损失函数 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2扩展a.损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huberloss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数（hingeloss）均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a.损失函数从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量
神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型 TimsonShi 神经翻译笔记
神经翻译笔记4扩展d.迁移学习概述与前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）辅助任务为什么多任务学习能够有效顺序迁移学习终生学习（Lifelonglearning）领域适配基于表示的方法领域相似度数据加权和数据选择自标注技术前BERT时代的两种经典RNN预训练模型ULMFiTELMo讨论：微调还是不调，这是一个问题参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展 TimsonShi 神经翻译笔记
文章目录神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展QuasiRNNFS-RNNSkipRNN高秩RNN语言模型MoSIndRNNON-LSTMMogrifierLSTM参考文献神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日
神经翻译笔记4扩展b. RNN的正则化方法 TimsonShi 神经翻译笔记正则化 rnn
文章目录神经翻译笔记4扩展b.RNN的正则化方法层归一化对dropout的扩展集大成的方法：AWD-LSTM正则化方法不同形式的dropout变长的反向传播嵌入共享嵌入维度与隐藏层维度分离激活单元正则化与时序激活单元正则化优化方法其它技术与实验参考文献神经翻译笔记4扩展b.RNN的正则化方法本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法层
神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`RNN
神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第一部分.RNN在TF1.x中的实现方法略览RNNcell的实现`keras.layers.Layer``layers.Layer``nn.rnn_cell.RNNCell``LayerRNNCell``BasicRNNCell``GRUCell``BasicLSTMCell``LSTMCell``MultiRNNCell`RNN的实现静态机制动态机制参考文献本文主要讨论TF1
神经翻译笔记4. 循环神经网络（RNN） TimsonShi 神经翻译笔记
神经翻译笔记4.循环神经网络（RNN）普通RNN(VanillaRNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络(LSTM)门控循环单元(GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源，结构遵从此文)[Koehn2017]13.4.4、13.4.5、13.4.6三小节
神经翻译笔记3扩展e第2部分. Subword TimsonShi 神经翻译笔记
文章目录NMTTutorial3扩展e第2部分.Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题：前向算法求解解码问题：维特比算法求解学习问题：前向-后向算法（B
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n