TimsonShi

神经翻译笔记4扩展b. RNN的正则化方法

文章目录

神经翻译笔记4扩展b. RNN的正则化方法

层归一化
对dropout的扩展
集大成的方法：AWD-LSTM

正则化方法

不同形式的dropout
变长的反向传播
嵌入共享
嵌入维度与隐藏层维度分离
激活单元正则化与时序激活单元正则化

优化方法
其它技术与实验

参考文献

神经翻译笔记4扩展b. RNN的正则化方法

本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法

层归一化

[Ba2016]认为批归一化（BN）虽然原理简洁能有效提升收敛速度，但是很难适用于RNN上。因为RNN的输入是变长的，因此需要对不同的时间步保存不同的统计量。但是对序列到序列任务，很难保证测试时句子会有多长，因此分时间步保存统计量不是一个好的选择。此外，实验证明当每个小批量样本的数据量太小时，BN的效果不好，而训练RNN时基本都是使用小批量样本（这段存疑）。基于以上考量，该文章提出了层归一化的方法，核心思想是在统计量里不使用跟每批样本个数相关的信息，只考虑隐藏单元的个数。具体说，对神经网络的第 $l$ 层，假设该层共有 $H$ 个隐藏节点，输入是 $\boldsymbol{h}^l$ ，激活前经线性变换 $\boldsymbol{W}^l$ 得到的向量是 $\boldsymbol{a}^l$ ，该层第 $i$ 个隐藏节点的的输入权重是 $\boldsymbol{w}_i^l$ （因此 $a_i^l = {\boldsymbol{w}_i^l}^\mathsf{T}\boldsymbol{h}^l$ ），则层归一化使用的统计量为
$\begin{aligned} \mu^l &= \frac{1}{H}\sum_{i=1}^H a_i^l \\ \sigma^l &= \sqrt{\frac{1}{H}\sum_{i=1}^H\left(a_i^l - \mu^l\right)^2} \end{aligned}$
可见各统计量与样本个数完全无关，因此对每次只处理一条样本的情况（例如在线学习）也适用。使用层归一化后RNN隐藏单元的计算如下所示
$\begin{aligned} \boldsymbol{a}^{(t)} &= \boldsymbol{U}\boldsymbol{x}^{(t)} + \boldsymbol{W}\boldsymbol{h}^{(t-1)} \\ \mu^{(t)} &= \frac{1}{H}\sum_{i=1}^H a_i^{(t)} \\ \sigma^{(t)} &= \sqrt{\frac{1}{H}\sum_{i=1}^H\left(a_i^{(t)} - \mu^{(t)}\right)^2} \\ \boldsymbol{h}^{(t)} &= \tanh\left[\frac{\boldsymbol{\gamma}}{\sigma^t}\odot\left(\boldsymbol{a}^{(t)}-\mu^{(t)}\right)+\boldsymbol{\beta}\right] \\ \end{aligned}$

下图比较直观地解释了批归一化与层归一化的区别。图自（Weight Normalization and Layer Normalization Explained (Normalization in Deep Learning Part 2)）

层归一化被提出背后的直觉是，由于RNN通常使用ReLU做激活函数，而ReLU的取值范围为 $+\infty)$ ，因此前一层的某个神经元可能产生特别大的值。为了避免这种情况产生的共变量偏移（covariance shift，批归一化首先提出来的概念），可以对神经元的结果做归一化，避免很大值的出现，进而稳定训练过程。原文还说明了层归一化同时具有权重不变性（整个权重矩阵乘以某个系数再偏移以后，对结果没有影响——这个证明过程我没太看懂），以及数据不变性（输入乘以某个系数再偏移，对结果没有影响）。根据stats stackexchange的回答，这使得网络可以1. 对权重的初始化不敏感，2. 对异常的数据不敏感

在批归一化被NeurIPS2018的两篇文章重新分析以后，时隔一年，层归一化也被[XuJingjing2019]做了进一步讨论。文章通过实验提出了如下观点

层归一化中的系数 $\boldsymbol{\gamma}$ 和偏置项 $\boldsymbol{\beta}$ 作用不大，在各benchmark任务上，扔掉这两项对结果影响不大，在英语-越南语翻译上甚至有正面影响。文章认为带上这两个参数甚至会提高模型过拟合的风险，因为“这些统计数据从训练集得来，忽略了测试集的输入分布”（但是这个结论本文持保留意见）
在上一步的基础上，文章将各维度（神经元）的期望和方差从可学习的参数修改为一个变量，使正向传播逻辑不变，但是反向传播不携带这两者的梯度（这样的归一化称为DetachNorm）。实验表明DetachNorm的效果比原始层归一化（实际上是不带系数和偏置的层归一化）要差。这说明LN起作用的不是前向归一化，而是统计量的导数：均值的导数将反向传播的梯度的期望重新置为0，而方差的导数则缩小了梯度的方差，即这两项对梯度也有归一化的作用。前向计算的归一化和反向传播梯度的归一化一起使得层归一化更加有效

对dropout的扩展

在RNN出现的早期，人们使用的结构通常都比较小，因为实践中发现大的RNN比较容易过拟合。Dropout问世以后不久，[Zaremba2014]对其进行了修改并加在了RNN上，取得了不错的效果。该工作认为，如果将dropout加在RNN的状态传递（从上一个时间步传到下一个时间步的连接），会影响网络的记忆力，因此只将dropout加在了RNN各层的输入-输出上

之后，[Gal2015]指出[Zaremba2014]的做法并不能从根本上解决过拟合问题，并使用变分推断提出了一种新的dropout方法——变分dropout（variational dropout）。该方法的核心思路包括如下两点

对RNN，输入、输出和状态传递在各个时间步使用相同的dropout
如果输入是离散的（例如单词），则对词向量也做dropout，这使得模型不会依赖于某个单词。例如"the dog and the cat"如果dropout “the”对应的词向量，实际上就变成了"__ dog and __ cat"

更具体地，以LSTM为例，使用之前神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览中各个门计算方式紧凑形式的记法，并略去偏置项和激活函数，原始计算方式为

$\left[\begin{matrix}\boldsymbol{i}^{(t)} & \tilde{\boldsymbol{c}}^{(t)} & \boldsymbol{f}^{(t)} & \boldsymbol{o}^{(t)}\end{matrix}\right] = \sigma\left(\left[\begin{matrix}\boldsymbol{x}^{(t)} & \boldsymbol{h}^{(t-1)}\end{matrix}\right] \cdot \left[\begin{matrix}\boldsymbol{U}_i & \boldsymbol{U}_c & \boldsymbol{U}_f & \boldsymbol{U}_o \\ \boldsymbol{W}_i & \boldsymbol{W}_c & \boldsymbol{W}_f & \boldsymbol{W}_o \end{matrix}\right] \right)$

引入变分dropout则变为
$\left[\begin{matrix}\boldsymbol{i}^{(t)} & \tilde{\boldsymbol{c}}^{(t)} & \boldsymbol{f}^{(t)} & \boldsymbol{o}^{(t)}\end{matrix}\right] = \sigma\left(\left[\begin{matrix}\boldsymbol{x}^{(t)} \circ \boldsymbol{z}_x & \boldsymbol{h}^{(t-1)} \circ \boldsymbol{z}_h \end{matrix}\right] \cdot \left[\begin{matrix}\boldsymbol{U}_i & \boldsymbol{U}_c & \boldsymbol{U}_f & \boldsymbol{U}_o \\ \boldsymbol{W}_i & \boldsymbol{W}_c & \boldsymbol{W}_f & \boldsymbol{W}_o \end{matrix}\right] \right)$

其中 $\boldsymbol{z}_x$ 和 $\boldsymbol{z}_h$ 是两个dropout mask矩阵，不随时间步的变化而变化

目前，大部分框架都使用了变分dropout来作为RNN dropout的实现

（变分dropout的理论推导比较复杂，这里就不记录了）

[Krueger2016]提出了另一种dropout的变种zoneout。与dropout随机丢弃神经元不同，zoneout是随机将某个神经元的激活值替换为其前一个时间步神经元的激活值（ $h_t = h_{t-1}$ ）。这种方案可以保留前面时间步的状态，因此更适合于RNN。对于LSTM，注意其向下一个时间步传递的是两个值 $c_t$ 和 $h_t$ ，对应地，zoneout通常对两者分别使用不同的mask

集大成的方法：AWD-LSTM

正则WD-LSTM[Merity2017]自提出以后在Penn Treebank和WikiText-2这两个数据集上长期处于"霸榜"的状态（直到GPT-2出现之前）。其主要贡献是为基于LSTM的RNN提供了一套组合的z化方法，以及一种新的优化方法

正则化方法

不同形式的dropout

对RNN做正则化的一个常见方向是在其循环连接上做文章。前人的工作通常是针对传递进来的隐藏状态 $\boldsymbol{h}_{t-1}$ ，例如在时间步之间加入dropout，或者对更新 $\boldsymbol{c}_t$ 的操作做dropout。这种做法破坏了RNN的黑盒性，可能导致底层做的一些针对硬件的优化无效。文章采取了一种DropConnect方法，在隐层和隐层之间传递的权重矩阵 $[\boldsymbol{W}_c, \boldsymbol{W}_i, \boldsymbol{W}_f, \boldsymbol{W}_o]$ 上加dropout。由于多个时间步共享这四个权重，因此在整个正向和反向传播过程中被丢弃掉的权重都相同，结果就有点像变分dropout了。当然DropConnect也可以用在 $[\boldsymbol{U}_i, \boldsymbol{U}_f, \boldsymbol{U}_o]$ 上，但是本文的目的还是防止循环连接用的参数过拟合

对其它权重矩阵，文章使用了变分dropout来做正则化，以保证每个矩阵在不同时间步被掩盖掉的部分都相同。不过这里没有把一个dropout掩码矩阵从头用到尾，而是每一小批数据使用相同的掩码。此外，对嵌入矩阵，文章也加入了dropout，丢弃概率为 $p_e$ ，因此剩下的词向量值要乘 $\frac{1}{1-p_e}$ 倍。词嵌入端加入dropout，如前所述，相当于在这一次正向和反向传播中这个词所有本该出现的地方都被抹去了，也就等价于在独热嵌入和embedding lookup之间的连接加变分dropout

变长的反向传播

当RNN的时间步比较多时，BPTT需要很大的计算量。因此对于比较长的文本序列，通常方法是将其截断成若干节，把每一节看作是单独的一批数据。正向传播时，每节最后一个数据产生的隐藏状态会传给下一节数据，作为下一节数据的初始状态；但是反向传播时，每一节最后一个时间步的节点不会收到后面数据传来的梯度更新。这种做法称作"被截断的反向传播" (Truncated BPTT)，是训练语言模型常用的手段之一

这种做法存在的最大问题是总有一部分元素不会收到隐藏层后续节点传进来的梯度更新。假设BPTT的窗口长度为 $n$ ，那么有 $\frac{1}{n}$ 的元素不会被后续节点更新，对于语言模型问题，其只能收到输出层传回的梯度。另外 $\frac{n-2}{n}$ 的元素只能收到 $\cdots, n-2$ 个元素的梯度，效率比较低

文章的对策是随机选取BPTT的序列长度，采用如下策略：首先设计一个"基序列长度"，记为 $\rm bptt$ ，以概率 $p$ 将其设计为 $\rm seq$ ，以概率 $1 - p$ 设计为 $\frac{\rm seq}{2}$ ，其中 $p$ 是一个接近1的值。然后，每个batch都根据正态分布 $\mathcal{N}({\rm bptt}, s)$ 采样一个实际使用的BPTT窗口长度 $\rm len$ (这里 $s$ 是一个超参数，默认为5)。对应地，每个batch也会根据 $\rm len$ 的值动态调整学习率
$\gamma' = \gamma \cdot \frac{\rm len}{\rm seq}$
这是因为对于短序列来说，损失值在每个时间步上分摊的值更大。如果将每个时间步对应的标记符看做是一个样本（当然这样可能不是很科学），那么根据[Goyal2017]，对大批量的数据，训练时需要增大学习率。也就是对长序列学习率应该更大。(对此的一个解释可参考如何评价Facebook Training ImageNet in 1 Hour这篇论文? - 廉相如的回答 - 知乎)

嵌入共享

嵌入共享 (原文weight typing) 是将输入词嵌入矩阵和softmax层矩阵共享的技术。这种方案可以降低模型参数数量，而且[Inan2016]证明这种方法可以提高模型效果

嵌入维度与隐藏层维度分离

本文使用的另一个方案是减小词向量维度，同时不再将隐藏层维度与词向量维度绑定，而是单独设置

激活单元正则化与时序激活单元正则化

L2正则化除了可以用来约束权重，也可以用在每个独立的激活单元上，或者用在RNN不同时间步的输出之间的差值上。这两种策略分别称为"激活单元的正则化" (activation regularization, AR)和"时序激活单元的正则化" (temporal activation regularization, TAR)

AR对那些显著大于0的激活值施加惩罚，以此达到正则化网络的目的。具体定义为
$\alpha \ell_2(m \odot \boldsymbol{h}_t)$
其中 $m$ 是dropout掩码， $\ell_2(\cdot) = \|\cdot\|_2$ ， $\boldsymbol{h}_t$ 是RNN在时刻 $t$ 的输出， $\alpha$ 是缩放因子

TAR则是惩罚模型让其不要在隐藏状态发生突变。使用上面相似的记号，TAR定义为
$\beta \ell_2(\boldsymbol{h}_t - \boldsymbol{h}_{t+1})$
AR和TAR都只对RNN最后一层的输出使用

优化方法

深度网络的优化问题可以抽象为
$\min_{\boldsymbol{W}}\frac{1}{N}\sum_{i=1}^Nf_i(\boldsymbol{W})$
其中 $f_i$ 是第 $i$ 个数据点的损失函数， $\boldsymbol{W}$ 是网络权重，最小化的目标函数实际上就是损失值在整个数据集上的期望。常见的优化方法是SGD，形式为
$\boldsymbol{W}_{k+1} = \boldsymbol{W}_k - \gamma_k \nabla f(\boldsymbol{W}_k)$
理论证明其可以有线性收敛性，可避开鞍点，而且有更好的泛化性能。对神经语言模型来说，无动量的SGD比其它优化方法效果都要好。对SGD的一种改进策略是使用平均SGD (Averaged SGD, ASGD) 的方法，即对最后 $K - T + 1$ 个迭代得到的参数求平均，返回 $\frac{1}{K-T+1}\sum_{i=T}^K \boldsymbol{W}_i$ 。这种方法尽管有一些很好的理论性质 (例如收敛过程近似于使用二阶导数的收敛过程)，但是在实际应用中却用得比较少，究其原因是人们还不太清楚该如何调优 $\gamma_k$ 和触发计算平均值的时刻 $T$ ：太早求均值会影响算法效果，太晚的话又需要很多步额外的迭代来收敛

本文的策略是使用了一种ASGD的变体，称为"非单调触发的ASGD" (Non-monotonically Triggered variant of ASGD, NT-ASGD)，免去了调优 $T$ 的过程，而且使用的是常量学习率，也不涉及学习率的动态调整

上图给出了NT-ASGD的实现思路。论文采用的策略是将 $L$ 设为每个epoch迭代的次数， $n = 5$ 。因此在这样的参数设置下，NT-ASGD的思想为：每个epoch结束以后计算一次验证集上的困惑度ppl，记为 $v$ 。如果已经训练了超过5个epoch，且此时 $v$ 不是最好的验证集ppl，那么就从这一时刻开始对之后迭代得到的所有参数求平均

从经验上看，NT-ASGD需要比较大的batch size

其它技术与实验

NT-ASGD还尝试了使用神经缓存模型来改善语言模型的预测效果。实验表明使用连续缓存指针后模型对罕见词的预测效果有明显提升，但是对常见词的预测效果降低很多

文章还通过对比实验的方法试图找出引用进来的所有技术哪一种起的作用比较关键。实验表明移除隐藏层之间传递的权重矩阵上DropConnect对模型效果影响最大。将嵌入矩阵的维度与隐藏层维度对齐不仅增大了参数数量，同时也降低了模型的效果 (增大约8个ppl点)。去掉嵌入层dropout、AR/TAR和权重递减会增大约2-6个ppl点，如果使用定长的反向传播也会增大约1个ppl点

参考文献

[Ba2016] Lei Ba, J., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.
[XuJingjing2019] Xu, J., Sun, X., Zhang, Z., Zhao, G., & Lin, J. (2019). Understanding and Improving Layer Normalization. In Advances in Neural Information Processing Systems, (NeurIPS 2019) (pp. 4383-4393).
[Zaremba2014] Zaremba, W., Sutskever, I., & Vinyals, O. (2014). Recurrent neural network regularization. arXiv preprint arXiv:1409.2329.
[Gal2015] Gal, Y., & Ghahramani, Z. (2016). A theoretically grounded application of dropout in recurrent neural networks. In Advances in neural information processing systems (NeurIPS 2016) (pp. 1019-1027).
[Krueger2016] Krueger, D., Maharaj, T., Kramár, J., Pezeshki, M., Ballas, N., Ke, N. R., Goyal, A., Bengio, Y., Courville, A. & Pal, C. (2016). Zoneout: Regularizing rnns by randomly preserving hidden activations. arXiv preprint arXiv:1606.01305 (Accepted by ICLR 2017).
[Merity2017] Merity, S., Keskar, N. S., & Socher, R. (2017). Regularizing and optimizing LSTM language models. In Proceedings of the Sixth International Conference on Learning Representations, ICLR 2018.

[Wan2013] Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013, February). Regularization of neural networks using dropconnect. In International conference on machine learning, ICML 2013 (pp. 1058-1066).

[Goyal2017] Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., … & He, K. (2017). Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677.

[Inan2016] Inan, H., Khosravi, K., & Socher, R. (2016). Tying word vectors and word classifiers: A loss framework for language modeling. In Proceedings of the Fifth International Conference on Learning Representations, ICLR 2017.

推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
uniapp 获取各种小程序code 灵魂清零 uniapp 小程序
各种小程序在进入小程序是都需要去获取code才能拿到基础信息，自己记录一下用uniapp开发小程序是获取微信小程序、百度小程序、头条小程序、支付宝小程序的codeVue.prototype.$global={appLogin(){returnnewPromise((resole,reject)=>{varthat=this;varwxLoginUrl=app.globalData.url+"/lo
‌seq_len 不等于 hidden_size 难道不会报错吗，他们是一会事情吗 zhangfeng1133 python 人工智能开发语言 pytorch
seq_len与hidden_size在RNN中代表不同概念，不等不会报错‌。‌seq_len‌：序列长度，表示在处理数据时，每个批次（batch）中序列的长度。RNN网络会按照seq_len指定的长度进行循环计算‌1。‌hidden_size‌：隐藏层中隐藏神经元的个数，也是输出向量的长度。它决定了RNN网络中隐藏层的状态向量的维度‌12。在RNN的训练过程中，seq_len和hidden_si
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
ajax 获取一步数据,ajax异步获取数据可可子姐姐教英语 ajax 获取一步数据
functioncreateXHR(){if(typeofXMLHttpRequest!="undefined"){returnnewXMLHttpRequest();}elseif(typeofActiveXObject!="undefined"){varversion=["MSXML2.XMLHttp.6.0","MSXML2.XMLHttp.3.0","MSXML2.XMLHttp"];fo
JS 获取时间买买买买菜
/**针对Ext的工具类*/exportvarMrYangUtil=function(){/****获得当前时间*/this.getCurrentDate=function(){returnnewDate();};/****获得本周起止时间*/this.getCurrentWeek=function(){//起止日期数组varstartStop=newArray();//获取当前时间varcurr
python数组的基本操作迟遇3 python 开发语言
一.创建数组arr:list[int]=[0]*8num1:list[int]=[1,5,9,8,6]二.访问元素1.指定访问（通过索引（下标））defrandom_a(nums:list[int])->int:returnnums[2]print(random_a(arr))2.随机访问(会访问不同的元素)defrandom_access(nums:list[int])->int:"""随机访问
antd of vue treeSelect——异步加载 who_become_gods
onLoadData(treeNode){varthat=thisreturnnewPromise((resolve)=>{if(treeNode.
探索深度学习的奥秘：从理论到实践的奇幻之旅小周不想卷深度学习
目录引言：穿越智能的迷雾一、深度学习的奇幻起源：从感知机到神经网络1.1感知机的启蒙1.2神经网络的诞生与演进1.3深度学习的崛起二、深度学习的核心魔法：神经网络架构2.1前馈神经网络（FeedforwardNeuralNetwork,FNN）2.2卷积神经网络（CNN）2.3循环神经网络（RNN）及其变体（LSTM,GRU）2.4生成对抗网络（GAN）三、深度学习的魔法秘籍：算法与训练3.1损失
python用递归方式实现最大公约数_Python - 最大公约数算法 weixin_39765325
#Python3.6#最大公约数，最大公因子#GreatestCommonDivisor#辗转相除法defgcd(num1:object,num2:object)->object:print('num1={},num2={},r={}'.format(num1,num2,num1%num2))ifnum1%num2==0:returnnum2returngcd(num2,num1%num2)#更相
nodejs清空文件内容不cong明的亚子前端小技巧 javascript 前端 node.js
话不多说，直接上代码constfs=require("fs");constpath=require("path");functionclearFile(filename){//写入文件是异步过程，需要使用promise保证文件操作完成returnnewPromise(resolve=>{letstr=path.join(__dirname,`./${filename}`);fs.writeFile
【04】深度学习——训练的常见问题 | 过拟合欠拟合应对策略 | 过拟合欠拟合示例 | 正则化 | Dropout方法 | Dropout的代码实现 | 梯度消失和爆炸 | 模型文件的读写花落指尖❀ #深度学习深度学习人工智能目标检测神经网络 cnn
深度学习1.常见的分类问题1.1模型架构设计1.2万能近似定理1.3宽度or深度1.4过拟合问题1.5欠拟合问题1.6相互关系2.过拟合欠拟合应对策略2.1问题的本源2.2数据集大小的选择2.3数据增广2.4使用验证集2.5模型选择2.6K折交叉验证2.7提前终止3.过拟合欠拟合示例3.1导入库3.2数据生成3.3数据划分3.4模型定义3.5辅助函数3.6可视化4.正则化4.1深度学习中的正则化4
将input type=file 获取到的图片展示到页面上不会做饭的程序员 JS js
我们创建一个函数，用于接收拿到的files[0]，并将生成的base64地址返回出去getBase64(file){returnnewPromise(function(resolve,reject){letreader=newFileReader();letimgResult="";reader.readAsDataURL(file);reader.onload=function(){imgRes
使用LSTM（长短期记忆网络）模型预测股票价格的实例分析 eeee~~ 深度学习 lstm 人工智能 rnn 金融 python 神经网络
一：LSTM与RNN的区别LSTM（LongShort-TermMemory）是一种特殊的循环神经网络（RNN）架构。LSTM是为了解决传统RNN在处理长序列数据时遇到的梯度消失或梯度爆炸问题而设计的。在传统的RNN中，信息通过隐藏状态在时间步之间传递，但由于权重的重复应用，随着时间的推移，梯度可能会迅速减小或增大，导致网络难以学习长期依赖关系。LSTM通过引入了一种称为“门”（gates）的机制
《自然语言处理 Transformer 模型详解》黑色叉腰丶大魔王自然语言处理 transformer 人工智能
一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。本文将深入讲解Transformer模型的原理、结构和应用。二、Transformer模型的背景在Transformer出现之前，RNN及其变体（如LSTM和GRU）是自然语言
【Python机器学习】循环神经网络（RNN）——传递数据并训练 zhangbin_237 Python机器学习机器学习 python rnn 人工智能开发语言深度学习神经网络
与其他Keras模型一样，我们需要向.fit()方法传递数据，并告诉它我们希望训练多少个训练周期（epoch）：model.fit(X_train,y_train,batch_size=batch_size,epochs=epochs,validation_data=(X_test,y_test))因为个人小电脑内存不足，所以吧maxlen参数改成了100重新运行。保存模型：model_struc
李沐55_循环神经网络RNN简洁实现——自学笔记 Rrrrrr900 rnn 深度学习神经网络 pytorch 循环神经网络 python 李沐
读取《时间机器》数据集!pipinstalld2l!pipinstall--upgraded2l==0.17.5#d2l需要更新importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab=d2l.load_da
【Python机器学习】循环神经网络（RNN）——对RNN进行预测 zhangbin_237 Python机器学习机器学习 python rnn 深度学习人工智能自然语言处理
目录有状态性双向RNN编码向量如果有一个经过训练的模型，接下来就可以对其进行预测：sample_1="""Ihatethatthedismalweatherhadmedownforsolong,whenwillitbreak!Ugh,whendoeshappinessreturn?Thesunisblindingandthepuffycloudsaretoothin.Ican'twaitforth
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
hutool获取大数据量的excel内容及sheet名称问题 liu_qixiang excel
读取大数据量的excel时代码如下privatestaticRowHandlercreateRowHandler(){returnnewRowHandler(){@Overridepublicvoidhandle(inti,longl,Listlist){System.out.println(i+""+l+""+list);}};}publicstaticvoidmain(String[]args
代码随想录算法训练营 Day5 | Hot100 | 53.最大子数组和 56.合并区间 189.轮转数组 238.除自身以外数组的乘积火烧沙发土豆代码随想录算法训练营算法 leetcode 数据结构
Day5休息，看看hot100类DP或者前缀和问题53.MaximumSubarrayclassSolution{public:intmaxSubArray(vector&nums){if(nums.size()==1)returnnums[0];intcurrSum=0;intans=nums[0];for(inti=0;i&v1,vector&v2){returnv1[0]>merged;ve
【关于如何调用java的private成员变量】 haozihua java
packagepg2;classStudent{privateStringname;//设置私有成员变量，只能在本类使用privateintage;publicvoidSetname(Stringname){//set方法不需要返回值，只需要存在栈内存中this.name=name;}publicStringGetname(){//get方法需要返回值，用于其他类调用私有成员变量returnnam
代码随想录Day39：198.打家劫舍、213.打家劫舍II、337.打家劫舍III 小蜗牛爬啊爬代码随想录算法训练营41期 leetcode 算法数据结构动态规划
198.打家劫舍题目链接：LeetCode198.打家劫舍文档讲解：代码随想录LeetCode198.打家劫舍题解dp[i]偷或不偷，取决于dp[i-1]和dp[i-2]是否偷classSolution{public:introb(vector&nums){if(nums.size()==1)returnnums[0];vectordp(nums.size());dp[0]=nums[0];dp[
基于深度学习的动态场景理解 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的动态场景理解是一种通过计算机视觉技术自动分析和解释动态环境中物体、事件和交互的能力。该技术在自动驾驶、智能监控、机器人导航、增强现实等领域有着广泛应用，通过深度学习模型，特别是卷积神经网络（CNNs）、递归神经网络（RNNs）、图神经网络（GNNs）等，对复杂动态场景进行实时解读。1.动态场景理解的核心技术1.1卷积神经网络（CNNs）**卷积神经网络（CNNs）**擅长处理图像数据
6. 深度学习中的正则化技术：防止过拟合 Network_Engineer 机器学习深度学习人工智能
引言过拟合是深度学习模型在训练过程中常遇到的挑战。过拟合会导致模型在训练数据上表现良好，但在新数据上表现不佳。为了防止过拟合，研究者们提出了多种正则化技术，如L1/L2正则化、Dropout、数据增强等。这些技术通过约束模型的复杂度或增加数据的多样性，有效提高了模型的泛化能力。本篇博文将深入探讨这些正则化技术的原理、应用及其在实际深度学习任务中的效果。1.过拟合的原因与影响过拟合通常发生在模型的复
机器学习-神经网络：循环神经网络（RNN）详解刷刷刷粉刷匠机器学习机器学习神经网络 rnn
引言在当今人工智能（AI）和深度学习（DL）领域，循环神经网络（RNN）作为一种专门处理序列数据的模型，具有不可忽视的重要性。RNN的设计目标是模拟和处理序列中的时间依赖关系，使其成为许多应用场景的理想选择，如自然语言处理（NLP）、时间序列预测和语音识别等。它不仅能处理固定长度的数据输入，还能应对输入长度不一的序列，从而为各种复杂的时序数据任务提供了强有力的支持。1.RNN的起源与发展循环神经网
uniapp小程序下载缓存服务器上的图片牛奶皮子 uni-app 小程序
1.使用uni.downloadFile,但是注意下载图片的地址里的域名，需要在微信公众平台里面的downloadFile合法域名进行配置。exportdefaultfunctiondownloadAndCacheImage(imageUrl,name){returnnewPromise((resolve,reject)=>{console.log("imageUrl",imageUrl,name
经典数据结构题目解析 xace007 数据结构算法
链表1.删除单链表的重复节点遍历法classSolution{public:ListNode*removeDuplicateNodes(ListNode*head){//先检查头节点是否为空，快速判断if(head==NULL){returnNULL;}ListNode*current=head;//循环遍历检查每一个元素，如果有相同元素则去掉while(current){ListNode*p=c
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

神经翻译笔记4扩展b. RNN的正则化方法

文章目录

神经翻译笔记4扩展b. RNN的正则化方法

层归一化

对dropout的扩展

集大成的方法：AWD-LSTM

正则化方法

不同形式的dropout

变长的反向传播

嵌入共享

嵌入维度与隐藏层维度分离

激活单元正则化与时序激活单元正则化

优化方法

其它技术与实验

参考文献

你可能感兴趣的:(神经翻译笔记,正则化,rnn)