Jayden yang

深度学习笔记（十）---RNN时间序列详解

1.摘要（Abstract）：

2.网络结构(Method)

2.1 RNN

2.2 RNN的变体

2.2.1 双向RNN

2.2.2 深层双向RNN

2.3 LSTM

2.3.1 LSTM内部结构详解

2.4 GRU

3.实验分析以及代码实现(Experiments)

4.结论(Coclusion)

5. 参考文献

1.摘要（Abstract）：

RNN的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

2.网络结构(Method)

2.1 RNN

中文分词、词性标注、命名实体识别、机器翻译、语音识别都属于序列挖掘的范畴。序列挖掘的特点就是某一步的输出不仅依赖于这一步的输入，还依赖于其他步的输入或输出。在序列挖掘领域传统的机器学习方法有HMM（Hidden Markov Model，隐马尔可夫模型）和CRF（Conditional Random Field，条件随机场），近年来又开始流行深度学习算法RNN（Recurrent Neural Networks，循环神经网络）。

比如一个句子中有5个词，要给这5个词标注词性，那相应的RNN就是个5层的神经网络，每一层的输入是一个词，每一层的输出是这个词的词性。

xtxt是第t层的输入，它可以是一个词的one-hot向量，也可以是Distributed Representation向量。
stst是第t层的隐藏状态，它负责整个神经网络的记忆功能。stst由上一层的隐藏状态和本层的输入共同决定，st=f(Uxt+Wst−1)st=f(Uxt+Wst−1)，ff通常是个非线性的激活函数，比如tanh或ReLU。由于每一层的stst都会向后一直传递，所以理论上stst能够捕获到前面每一层发生的事情（但实际中太长的依赖很难训练）。
otot是第t层的输出，比如我们预测下一个词是什么时，otot就是一个长度为VV的向量，VV是所有词的总数，ot[i]ot[i]表示下一个词是wiwi的概率。我们用softmax函数对这些概率进行归一化。ot=softmax(Vst)ot=softmax(Vst)。
值得一提的是，每一层的参数U,W,VU,W,V都是共享的，这样极大地缩小了参数空间。
每一层并不一定都得有输入和输出，隐藏单元才是RNN的必备武器。比如对句子进行情感分析时只需要最后一层给一个输出即可。

RNN采用传统的backpropagation+梯度下降法对参数进行学习，第tt层的误差函数跟第otot直接相关，而otot依赖于前面每一层的xixi和sisi，i≤ti≤t，这就是所谓的Backpropagation Through Time (BPTT)。在《神经网络调优》中我已讲到过这种深层神经网络容易出现梯度消失或梯度爆炸的问题，为了避免网络太“深”，有些人对RNN进行改造，避免太长的依赖，即otot只依赖于{xi,si}{xi,si}，其中t−n≤i≤tt−n≤i≤t。LSTM也属于一种改良的RNN，但它不是强行把依赖链截断，而是采用了一种更巧妙的设计来绕开了梯度消失或梯度爆炸的问题，下文会详细讲解LSTM。

2.2 RNN的变体

2.2.1 双向RNN

双向RNN认为otot不仅依赖于序列之前的元素，也跟tt之后的元素有关，这在序列挖掘中也是很常见的事实。

2.2.2 深层双向RNN

在双向RNN的基础上，每一步由原来的一个隐藏层变成了多个隐藏层。

2.3 LSTM

前文提到，由于梯度消失/梯度爆炸的问题传统RNN在实际中很难处理长期依赖，而LSTM（Long Short Term Memory）则绕开了这些问题依然可以从语料中学习到长期依赖关系。比如“I grew up in France... I speak fluent (French)”要预测()中应该填哪个词时，跟很久之前的"France"有密切关系。

传统RNN每一步的隐藏单元只是执行一个简单的tanh或ReLU操作。

传统RNN每个模块内只是一个简单的tanh层

LSTM每个循环的模块内又有4层结构:3个sigmoid层，1个tanh层

LSTM每个模块的4层结构后文会详细说明，先来解释一下基本的图标。

粉色的圆圈表示一个二目运算。两个箭头汇合成一个箭头表示2个向量首尾相连拼接在一起。一个箭头分叉成2个箭头表示一个数据被复制成2份，分发到不同的地方去。

2.3.1 LSTM内部结构详解

LSTM的关键是细胞状态CC，一条水平线贯穿于图形的上方，这条线上只有些少量的线性操作，信息在上面流传很容易保持。

细胞状态的传送带

第一层是个忘记层，决定细胞状态中丢弃什么信息。把ht−1ht−1和xtxt拼接起来，传给一个sigmoid函数，该函数输出0到1之间的值，这个值乘到细胞状态Ct−1Ct−1上去。sigmoid函数的输出值直接决定了状态信息保留多少。比如当我们要预测下一个词是什么时，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语。

图8 细胞状态忘记一部分，保留一部分

上一步的细胞状态Ct−1Ct−1已经被忘记了一部分，接下来本步应该把哪些信息新加到细胞状态中呢？这里又包含2层：一个tanh层用来产生更新值的候选项C~tC~t，tanh的输出在[-1,1]上，说明细胞状态在某些维度上需要加强，在某些维度上需要减弱；还有一个sigmoid层（输入门层），它的输出值要乘到tanh层的输出上，起到一个缩放的作用，极端情况下sigmoid输出0说明相应维度上的细胞状态不需要更新。在那个预测下一个词的例子中，我们希望增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。

图9 更新细胞状态

现在可以让旧的细胞状态Ct−1Ct−1与ftft（f是forget忘记门的意思）相乘来丢弃一部分信息，然后再加个需要更新的部分it∗C~tit∗C~t（i是input输入门的意思），这就生成了新的细胞状态CtCt。

图10 生成新的细胞状态

最后该决定输出什么了。输出值跟细胞状态有关，把CtCt输给一个tanh函数得到输出值的候选项。候选项中的哪些部分最终会被输出由一个sigmoid层来决定。在那个预测下一个词的例子中，如果细胞状态告诉我们当前代词是第三人称，那我们就可以预测下一词可能是一个第三人称的动词。

2.4 GRU

GRU（Gated Recurrent Unit）是LSTM最流行的一个变体，比LSTM模型要简单。

3.实验分析以及代码实现(Experiments)

下面就通过pytorch框架对飞机月流量的时间序列的分析，

"""

对于最简单的 RNN，我们可以使用下面两种方式去调用，分别是 
torch.nn.RNNCell() 和 torch.nn.RNN()，
这两种方式的区别在于 RNNCell() 只能接受序列中单步的输入，
且必须传入隐藏状态，而 RNN() 可以接受一个序列的输入，
默认会传入全 0 的隐藏状态，也可以自己申明隐藏状态传入。
RNN() 里面的参数有:
input_size 表示输入  ??xt  的特征维度
hidden_size 表示输出的特征维度
num_layers 表示网络的层数
nonlinearity 表示选用的非线性激活函数，默认是 'tanh'
bias 表示是否使用偏置，默认使用
batch_first 表示输入数据的形式，默认是 False，就是这样形式，(seq, batch, feature)，也就是将序列长度放在第一位，batch 放在第二位
dropout 表示是否在输出层应用 dropout
bidirectional 表示是否使用双向的 rnn，默认是 False
对于 RNNCell()，里面的参数就少很多，只有 input_size，hidden_size，bias 以及 nonlinearity

LSTM 和基本的 RNN 是一样的，他的参数也是相同的，
同时他也有 nn.LSTMCell() 和 nn.LSTM() 两种形式

"""

下面是各部分代码实现，每一步尽量做了详尽的注释。

#数据包的导入
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
import csv
import torch
from torch import nn
from torch.autograd import Variable


# 读取csv文件
data_csv = pd.read_csv(u'chapter5_RNN\data.csv' , encoding='utf-8',usecols=[1])
plt.plot(data_csv)
plt.show()

在读取csv文件是常会出现一些报错，可以参考：报错解决方案

我们进行数据集的创建，我们想通过前面几个月的流量来预测当月的流量，比如我们希望通过前两个月的流量来预测当月的流量，我们可以将前两个月的流量当做输入，当月的流量当做输出。同时我们需要将我们的数据集分为训练集和测试集，通过测试集的效果来测试模型的性能，这里我们简单的将前面几年的数据作为训练集，后面两年的数据作为测试集。

# 数据预处理
data_csv = data_csv.dropna()  # 滤除缺失数据
dataset = data_csv.values   # 获得csv的值
dataset = dataset.astype('float32')
max_value = np.max(dataset)  # 获得最大值
min_value = np.min(dataset)  # 获得最小值
scalar = max_value - min_value  # 获得间隔数量
dataset = list(map(lambda x: x / scalar, dataset)) # 归一化


"""
设置X,Y数据集。以look_back=2为准，取第一个和第二个为数组，形成data_X,
取第三个作为预测值，形成data_Y，完成训练集的提取。
将一列变成两列，第一列是 t 月的乘客数，第二列是 t+1 列的乘客数。 
look_back 就是预测下一步所需要的 time steps：

timesteps 就是 LSTM 认为每个输入数据与前多少个陆续输入的数据有联系。
例如具有这样用段序列数据 “…ABCDBCEDF…”，当 timesteps 为 3 时，
在模型预测中如果输入数据为“D”，
那么之前接收的数据如果为“B”和“C”则此时的预测输出为 B 的概率更大，
之前接收的数据如果为“C”和“E”，则此时的预测输出为 F 的概率更大。
"""
def create_dataset(dataset, look_back=2):
    dataX, dataY = [], []
    for i in range(len(dataset) - look_back):
        a = dataset[i:(i + look_back)]
        dataX.append(a)
        dataY.append(dataset[i + look_back])
    return np.array(dataX), np.array(dataY)

# 创建好输入输出
data_X, data_Y = create_dataset(dataset)

下面将处理完的数据集进行划分并规范为输入网络所需的维度：

# 划分训练集和测试集，70% 作为训练集
train_size = int(len(data_X) * 0.7)
test_size = len(data_X) - train_size
train_X = data_X[:train_size]
train_Y = data_Y[:train_size]
test_X = data_X[train_size:]
test_Y = data_Y[train_size:]

'''
最后，我们需要将数据改变一下形状，因为 RNN 读入的数据维度是 
(seq, batch, feature)，所以要重新改变一下数据的维度，这里只有一个序列，
所以 batch 是 1，而输入的 feature 就是我们希望依据的几个月份，这里我们
定的是两个月份，所以 feature 就是 2.
''' 
train_X = train_X.reshape(-1, 1, 2)
train_Y = train_Y.reshape(-1, 1, 1)
test_X = test_X.reshape(-1, 1, 2)

train_x = torch.from_numpy(train_X)
train_y = torch.from_numpy(train_Y)
test_x = torch.from_numpy(test_X)

下面定义模型：

# 定义模型
class lstm_reg(nn.Module):
    def __init__(self, input_size, hidden_size, output_size=1, num_layers=2):
        super(lstm_reg, self).__init__()
        
        self.rnn = nn.LSTM(input_size, hidden_size, num_layers) # rnn
        self.reg = nn.Linear(hidden_size, output_size) # 回归
        
    def forward(self, x):
        x, _ = self.rnn(x) # (seq, batch, hidden)
        s, b, h = x.shape
        x = x.view(s*b, h) # 转换成线性层的输入格式
        x = self.reg(x)
        x = x.view(s, b, -1)
        return x
#定义好网络结构，输入的维度是 2，因为我们使用两个月的流量作为输入，
#隐藏层的维度可以任意指定，这里我们选的 4
net = lstm_reg(2, 4)

优化器以及loss函数的选择：

criterion = nn.MSELoss()
optimizer = torch.optim.Adam(net.parameters(), lr=1e-2)

现在开始训练模型：

# 开始训练
for e in range(1000):
    var_x = Variable(train_x)
    var_y = Variable(train_y)
    # 前向传播
    out = net(var_x)
    loss = criterion(out, var_y)
    # 反向传播
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    if (e + 1) % 100 == 0: # 每 100 次输出结果
        print('Epoch: {}, Loss: {:.5f}'.format(e + 1, loss.item()))

利用划分的测试集进行测试，测试钱依然需要将测试集的形状重塑。

net = net.eval() # 转换成测试模式

data_X = data_X.reshape(-1, 1, 2)
data_X = torch.from_numpy(data_X)
var_data = Variable(data_X)
pred_test = net(var_data) # 测试集的预测结果

# 改变输出的格式
pred_test = pred_test.view(-1).data.numpy()

# 画出实际结果和预测的结果
plt.plot(pred_test, 'r', label='prediction')
plt.plot(dataset, 'b', label='real')
plt.legend(loc='best')
plt.show()

4.结论(Coclusion)

模型最后运行结果，从图可以看到使用 lstm 能够得到比较相近的结果，预测的趋势也与真实的数据集是相同的，因为其能够记忆之前的信息，而单纯的使用线性回归并不能得到较好的结果，从这个例子也说明了 RNN 对于序列有着非常好的性能。

我们还可以改变输入月份，改变look_back参数的大小，进行实验看是否会得到更好的效果。注意模型输入的数据的重塑tensor的大小需要注意，否者会报错。可以尝试用jupyter notebook将数据的shape打印出，看看每一步到底进行怎样的数据变换。这点非常重要，当我们拿到一些data时，如何利用这些杂乱的data，是我们需要学习并掌握的。

5. 参考文献

吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
【深度学习笔记】6_4 循环神经网络的从零开始实现 RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.4循环神经网络的从零开始实现在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：importtimeimportmathimportnumpyasnpimporttorchfromtorchimport
【深度学习笔记】6_10 双向循环神经网络bi-rnn RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.10双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更
深度学习笔记１：神经网络端到端学习笔记撒哈拉土狼深度学习
许多重要问题都可以抽象为变长序列学习问题（sequencetosequencelearning），如语音识别、机器翻译、字符识别。这类问题的特点是，1)输入和输出都是序列（如连续值语音信号/特征、离散值的字符），2)序列长度都不固定，3)并且输入输出序列长度没有对应关系。因此，传统的神经网络模型（DNN，CNN，RNN）不能直接以端到端的方式解决这类问题的建模和学习问题。解决变长序列的端到端学习，
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
fast.ai 深度学习笔记（三）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第6课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-6-de70d626976c译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第6课[##2017年深度学习优
深度学习笔记 stoAir 深度学习笔记人工智能
DeepLearningBasic神经网络：algorithm1input1outputinput2input3input4algorithm2监督学习：1个x对应1个y；Sigmoid:激活函数sigmoid=11+e−xsigmoid=\frac{1}{1+e^{-x}}sigmoid=1+e−x1ReLU:线性整流函数；##LogisticRegression-->binaryclassif
fast.ai 深度学习笔记（六）绝不原创的飞龙人工智能人工智能 python 深度学习
深度学习2：第2部分第12课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-2-lesson-12-215dfbf04a94译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。生成对抗网络（GANs）视频
fast.ai 深度学习笔记（一）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第1课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第一课开始[0:00]：为了训练
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
Tensorflow实战深度学习笔记一独立开发者Lau
人类直观能力----人工智能（自然语言理解、图像识别、语音识别等）。经验----机器学习。训练----特征相关度。特征提取深度学习---自动地将简单的特征组合成更加复杂的特征，并使用这些复杂特征解决问题。深度学习--------不等于模仿人类大脑。
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
深度学习笔记：灾难性遗忘 UQI-LIUWJ 机器学习笔记
1灾难性遗忘介绍当神经网络被训练去学习新的任务时，它可能会完全忘记如何执行它以前学过的任务。这种现象尤其在所谓的“连续学习”（continuouslearning）或“增量学习”（incrementallearning）场景中很常见2不同视角下看待灾难性遗忘以及对应的解决方法2.1从梯度的视角2.1.1从梯度的视角看灾难性遗忘我们有两个不同任务的损失曲面，用平滑的曲面训练完之后，再在坑坑洼洼的曲面
深度学习笔记（九）——tf模型导出保存、模型加载、常用模型导出tflite、权重量化、模型部署絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。本篇博客主要是工具性介绍，可能由于软件版本问题导致的部分内容无法使用。首先介绍tflite:TensorFlowLite是一组工具，可帮助开发者在移动设备、嵌入式设备和loT设备上运行模型，以便实现设备端机器学习。框架具有的主要特性：延时（数据无需往返服务器）隐私（没有任何个人数据离开设备）
深度学习笔记（八）——构建网络的常用辅助增强方法：数据增强扩充、断点续训、可视化和部署预测絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课要构建一个完善可用的神经网络，除了设计网络结构以外，还需要添加一些辅助代码来增强网络运行的稳定性，鲁棒性。可以用来增强的方向主要有个，首先是数据输入前的预处理环节，其次是数据在训练过程中的优化，最后的数据在训练结束后的导出和可视化，同时能够及时保存结
深度学习笔记（七）——基于Iris/MNIST数据集构建基础的分类网络算法实战絮沫深度学习算法深度学习笔记
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课认识网络的构建结构在神经网络的构建过程中，都避不开以下几个步骤：导入网络和依赖模块原始数据处理和清洗加载训练和测试数据构建网络结构，确定网络优化方法将数据送入网络进行训练，同时判断预测效果保存模型部署算法，使用新的数据进行预测推理使用Keras快速构
《动手学深度学习》学习笔记第10章注意力机制北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺《动手学深度学习》学习笔记第4章多层感知机《动手学深度学习》学习笔记第5章深度学习计算《动手学深度学习》学习笔记第6章卷积神经网络《动手学深度学习》学习笔记
深度学习笔记（六）——网络优化（2）：参数更新优化器SGD、SGDM、AdaGrad、RMSProp、Adam 絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课前言在前面的博文中已经学习了构建神经网络的基础需求，搭建了一个简单的双层网络结构来实现数据的分类。并且了解了激活函数和损失函数在神经网络中发挥的重要用途，其中，激活函数优化了神经元的输出能力，损失函数优化了反向传播时参数更新的趋势。我们知道在简单的反
李沐—动手学深度学习笔记比三毛多一根头发笔记
目录引言1.2机器学习中的关键组件1.3.1监督学习2.预备知识2.1数据操作2.1.3.广播机制2.1.4.索引和切片2.1.5.节省内存2.1.6.转换为其他Python对象2.2.数据预处理2.2.1.读取数据集2.2.2.处理缺失值2.2.3.转换为张量格式2.3.线性代数2.3.2.向量2.3.5.张量算法的基本性质2.3.6.降维3.线性神经网络4.多层感知机4.1多层感知机4.1.1
深度学习笔记（四）——使用TF2构建基础网络的常用函数+简单ML分类实现絮沫深度学习深度学习笔记分类
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课TF2基础常用函数1、张量处理类强制数据类型转换：a1=tf.constant([1,2,3],dtype=tf.float64)print(a1)a2=tf.cast(a1,tf.int64)#强制数据类型转换print(a2)查找数据中的最小值和
深度学习笔记（三）——NN网络基础概念（神经元模型，梯度下降，反向传播，张量处理）絮沫深度学习深度学习笔记网络
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图部分引用自北京大学机器学习公开课人工智能算法的主流分类首先明白一个概念，广义上的人工智能算法并不是只有MachineLearning或DeepLearning，而是一个相对的，能够使用计算机模拟人类智能在一定场景下自动实现一些功能。所以系统控制论中的很多最优控制算法同样可以称之为智能算法
深度学习笔记（五）——网络优化（1）：学习率自调整、激活函数、损失函数、正则化絮沫深度学习深度学习笔记网络 tensorflow
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课通过学习已经掌握了主要的基础函数之后具备了搭建一个网络并使其正常运行的能力，那下一步我们还需要进一步对网络中的重要节点进行优化并加深认知。首先我们知道NN（自然神经）网络算法能够相比传统建模类算法发挥更好效果的原因是网络对复杂非线性函数的拟合效果更好
《动手学深度学习》学习笔记第9章现代循环神经网络北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺9.现代循环神经网络前一章中我们介绍了循环神经网络的基础知识，这种网络可以更好地处理序列数据。我们在文本数据上实现了基于循环神经网络的语言模型，但是对于
《动手学深度学习》学习笔记第8章循环神经网络北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺8.循环神经网络到目前为止我们默认数据都来自于某种分布，并且所有样本都是独立同分布的（independentlyandidenticallydistri
深度学习笔记（二）——Tensorflow环境的安装絮沫深度学习深度学习笔记 tensorflow
本篇文章只做基本的流程概述，不阐述具体每个软件的详细安装流程，具体的流程网上教程已经非常丰富。主要是给出完整的安装流程，以供参考环境很重要一个好的算法环境往往能够帮助开发者事半功倍，入门学习的时候往往搭建好环境就已经成功了一半。在机器学习或者深度学习的设计研究中，人们往往会使用已经有的网络框架来构建网络模型和设计各种识别分类或者生成算法。主要可以给我们学习和使用的框架这里推荐两个：Tensorfl
2022-01-23 深度学习笔记 Luo_淳专业学习深度学习人工智能
深度学习笔记引言：机器学习——自动寻找函数。1.你想要找什么函数？①Regression——Theoutputofthefunctionisascalar.②BinaryClassification——OnlyoutputYesorNo.举例：输入句子，输出句子positive还是negtive。③Multi-classClassification——分类，输入图片，输出图片中物品的类型。
深度学习笔记：下载鸢尾花数据集，并展示所有的属性 BioVS python tensorflow numpy
背景：深度学习课程作业。通过此作业，可了解tensorflow、matplotlib、pandas和numpy。可学习到matplot画图及细节设计，如图的颜色、字体大小、循环画图方法等代码：importtensorflowastfimportmatplotlib.pyplotaspltimportpandasaspdimportnumpyasnpTRAIN_URL="http://downloa
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

深度学习笔记（十）---RNN时间序列详解

1.摘要（Abstract）：

2.网络结构(Method)

2.1 RNN

2.2 RNN的变体

2.2.1 双向RNN

2.2.2 深层双向RNN

2.3 LSTM

2.3.1 LSTM内部结构详解

2.4 GRU

3.实验分析以及代码实现(Experiments)

4.结论(Coclusion)

5. 参考文献

你可能感兴趣的:(深度学习笔记)