镰刀韭菜

【再学Tensorflow2】TensorFlow2的建模流程：疫情发展趋势分析

TensorFlow2的建模流程：疫情发展趋势分析

时间序列简介
基本概念
- 平稳性
- 白噪声
- 随机游走（Random Walk）
识别一个时间序列
- - Augmented Dickey-Fuller Test(ADF)
  - Kwiatkowski-Phillips-Schmidt-Shin Test(KPSS)
时间序列模型预测准确度的衡量
- 衡量预测准确度的常用统计量
- 使用样本外数据验证步骤
时间序列数据示例
- 单变量时间序列数据集
- 多元时间序列数据集
简要回顾ARIMA时间序列模型
- 识别差分项的原则
- 识别自回归或者预测误差项的原则
- 识别模型的季节性
循环神经网络与时间序列模型
长短时记忆网络（LSTM）
循环神经网络的变种
- 双向循环神经网络和深层循环神经网络
- - 双向循环神经网络
  - 深层循环神经网络
- 循环神经网络的dropout
时间序列数据建模实战
- 数据准备
- 定义模型
- 训练模型
- 评估模型
- 使用模型
- 保存模型
参考资料

时间序列简介

时间序列是在商业数据或工程数据中经常出现的一种数据形式，是以时间为次序排列。用来描述和计量一系列过程或者行为的数据的统称。一般研究的时间序列数据有两种类型。最常见的是跟踪单一的计量数据随时间变化的情况，即每个时间点上收集的数据是一个一维变量，这种是最常见的，通常的时间序列默认就是这种数据。另一种时间序列是多个对象或者多个维度的计量数据随时间变化的情况，即每个时间点上收集的数据是一个多维变量，这种一般也被称为纵向数据（Longitudinal Data）。

基本概念

平稳性

有效的时间序列分析依赖于几个核心概念。其中最核心的概念是平稳性（Stationarity）。在分析时间序列数据时，需要考虑这个时间序列反映的随机过程是否稳定。如果一个时间序列不稳定，则说明其来自的总体在发生变化，那么在忽略这种情况下进行的分析并不有效，特别是不能有效地应用于对未来事件的预测。
时间序列数据 $y_t,t=1,...,T$ 的稳定性定义有多种角度，其中使用最广泛的就是数学上讲的弱平稳性，其定义如下：
$y_t\text{的期望值}E(y_t)\text{不是时间}t\text{的函数：}E(y_t)=\mu$ $y_s\text{和}y_t\text{之间的协方差只是时间单位差绝对值}|s-t|\text{的函数}：Cov(y_s,y_t)=Cov(y_{s+z},y_{t+z})$
具体来讲就是，在弱平稳性的假设条件下，期望值不依赖于时间而变化，而协方差只是两个序列时间间隔的区间的函数。第二条假设隐含意思就是弱平稳性的时间序列方差恒定（Homoscedasticity）。
比弱平稳性更强的数学假设条件为强平稳性，也称为严格平稳性。这一假设条件下要求随机变量 $y_t$ 的整个概率分布不随时间的改变而变化。但是在一般的应用场景下，满足弱平稳性条件已经能够适用于大多数模型。

白噪声

第二个概念为白噪声（White Noise）。白噪声是研究随机过程中经常出现的概念，是联系横截面数据（Cross Sectional Data）和纵向数据的纽带。严格来讲，白噪声是具有独立同分布（i.i.d）的数据序列，即没有特定随时间变化特征的满足平稳性条件的数据。
另一种满足平稳性条件的时间序列数据类型是自回归过程。白噪声数据在时间序列研究中之所以重要是因为所有时间序列的技术都要将一组数据通过一系列过程尽量变为一个白噪声数据，这一系列过程就被称为滤子。

白噪声数据的特点是对其的点预测及其方差不依赖于想要预测到多远，而只与样本数据的均值和方差有关。举个例子，如果有暴燥声过程 $y_t,t=1,...,T$ ，而要预测 $T + s$ 期未来数据的大小，则其最优期望值为样本均值 $\bar{y}$ ，而预测的 $\alpha$ 置信区间为 $\bar{y}\pm t_{T-1,1-\alpha/2}\sqrt{(1+1/T)s_y}$ 其中 $s_y$ 为样本方差根，而 $t_{T-1,1-\alpha/2}$ 则是自由度为 $T - 1$ 的T-分布统计量 $\alpha$ 百分位下的对应值，通常95%百分位下约为2.

随机游走（Random Walk）

白噪声时间序列的累加和就构成一个随机游走时间序列，举个例子，如果 $z_t,t=1,...,T$ 是一组白噪声序列，则 $y_t=\sum_{1}^tz_t, t\ge 1$ 构成一组随机游走序列。
举例：一个均值为0.1，标准差为2的100个时间点的白噪声，及其对应的随机游走时间序列。

import matplotlib.pyplot as plt
import numpy as np

np.random.seed(1234)
z = np.random.normal(0.1, 2, 100)
y = np.cumsum(z)

fig, ax1 = plt.subplots()
plt.plot(z, label='White Noise')
plt.plot(y, label='Random Walk')
plt.legend()
plt.show()

mean1 = np.round(np.mean(y[:20]),4)
mean2 = np.round(np.mean(y[-20:]),4)
std1 = np.round(np.std(y[:20]),4)
std2 = np.round(np.std(y[-20:]),4)
print(f'前20个数据点的均值为{mean1}，标准差为{std1}')
print(f'后20个数据点的均值为{mean2},标准差为{std2}')

输出结果：

前20个数据点的均值为1.4326，标准差为1.6367
后20个数据点的均值为17.5324,标准差为2.7009

从图中可以看出随机游走时间序列的几个特点。首先是这种时间序列数据是非平稳的，其均值和方差都随着时间而变化。对这个随机游走时间序列取一阶差分作为滤子，过滤后的时间序列则为上例中的白噪声序列。

随机游走模型是一类非常重要的时间序列模型，因为其为对应的白噪声时间序列的累加和，所以每个时间点上该变量的期望和方差分别为： $E(y_t)=y_0+t\mu$ $Var(y_t)=t\sigma^2$ 其中 $\mu, \sigma^2$ 是对应的白噪声序列的期望均值和方差，而 $y_0$ 则为这个白噪声随机变量在初始时间的某个具体实现。只要这个均值大于0，则随机游走时间序列表现为总体上一个不断增长的曲线；而如果这个均值小于0，则随机游走时间序列表现为一个总体上不断下降的曲线。另外，随机游走时间序列的方差也是时间的线性函数。
可见，随机游走模型是一个随时间变动的线性模型，相应地，如果要对一个随机游走时间序列进行预测，则其公式为 $y_{T+s}=y_T+s\hat{\mu}\pm 2\hat{\sigma}\sqrt{s}$ 其中， $y_T$ 是已知随机游走时间序列的末尾值， $s$ 是要预测的未来时间间隔， $\hat{\mu}, \hat{\sigma}$ 则分别是对应的白噪声过程的期望均值和标准差的估计值，通常为样本的均值和标准差。

可以看到，对于白噪声和随机游走两种不同的时间序列的预测有不同的模型，问题是该怎么识别一个已知的事件时间序列是平稳的还是一个随机行走时间序列呢？

识别一个时间序列

首先，要识别一个时间序列是否是平稳的，通过检验单位根的方法，常见的有以下几种（Python的StatsModels包）：

Augmented Dickey-Fuller Test(ADF)

ADF是最常见的单位根检验方法。其默认假设待检验的时间序列是不平稳的，如果得到的统计量的p值较大，则说明这个时间序列是不平稳的，如果p较小，则说明这个时间序列是平稳的。假如我们用5%作为p值的界限，那么如果ADF统计量的p值大于0.05，则表明时间序列是不平稳的，需要做差分运算，一直到检验结果表明是平稳的为止。
在Python中可以使用statsModels的tsa.stattools.adfuller(x)函数来检验时间序列X的平稳性。

Kwiatkowski-Phillips-Schmidt-Shin Test(KPSS)

KPSS检验是一种较新的检验方式，其默认假设待检验的时间序列是平稳的，如果得到的统计量p值较大，则说明这个时间序列是平稳的；反之是不平稳的。
在Python中使用StatsModels库的tsa.stattools.kpss(x)函数来检验时间序列的平稳性。

时间序列模型预测准确度的衡量

衡量预测准确度的常用统计量

（1）平均误差（Mean Error, ME）
$ME=\frac{1}{T_2}\sum_{t=T_1+1}^{T_1+T_2}e_t$ 平均误差能较好地衡量现有模型是否有很好描述的线性趋势。
（2）平均百分比误差（Mean Percentage Error, MPE）:
$MPE=\frac{1}{T_2}\sum_{t=T_1+1}^{T_1+T_2}\frac{e_t}{y_t}$ 平均百分比误差也用于衡量是否有短期趋势没有被模型很好地描述，不过它是以相对误差的形式来表达的。
（3）均方差（Mean Square Error, MSE）:
$MSE=\frac{1}{T_2}\sum_{t=T_1+1}^{T_1+T_2}e_t^2$ 均方差能侦测出线性趋势之外更多的没有被模型描述的数据模式，比如周期性等，因此更为常用。
（4）平均绝对误差（Mean Absolute Error, MAE）:
$MAE=\frac{1}{T_2}\sum_{t=T_1+1}^{T_1+T_2}||e_t||$ 平均绝对误差在衡量模型的准确度方面和均方差有类似的效果，只是对于异常值相对来说稳健性更高。
（5）平均绝对百分比误差（Mean Absolute Percentage Error, MAPE）：
$MAPE=\frac{1}{T_2}\sum_{t=T_1+1}^{T_1+T_2}||\frac{e_t}{y_t}||$ MAPE结合了MAE和MPE的优点，能较好地侦测线性趋势之外的更多的数据模式，并以相对误差的形式表达。

使用样本外数据验证步骤

（1）将长度为 $T=T_1+T_2$ 的样本时间序列分为两个子序列，其中前面一个 $t=1,...,T_1)$ 子序列用于模型训练，后面一个子序列 $t=T_1+1,...,T)$ 用于模型验证。
（2）用第一个子序列训练一个待验证模型。
（3）使用上一步训练的模型，使用时间范围为 $t=1,...,T_1$ 的因变量来预测未来 $T_1+1,...,T$ 时间段的因变量值： $\hat{y}_t$ ，即对用于模型验证部分的子序列因变量使用待验证模型进行拟合。
（4）使用上一步拟合的因变量值和对应的实际因变量值，计算单步预测误差： $e_t=y_t-\hat{y}_t$ ，然后采用一种或者多种上面介绍的衡量模型准确度的统计量来计算综合预测能力。
可以对每一个待验证模型都执行第（2）到第（4）步，选取综合预测能力最好，即统计量值最小的那个待选模型。

时间序列数据示例

单变量时间序列数据集

以下是4个单变量时间序列数据集，包含销售、气象学、物理学和人口学等一系列领域的这些数据集。

洗发水销售数据集
每日最低温度数据集
每月太阳黑子数据集
每日女性出生数据集

多元时间序列数据集

多元时间序列数据的一个重要来源是UCI 机器学习存储库：https://archive.ics.uci.edu/ml/index.php

脑电眼状态数据集
占用检测数据集
臭氧水平检测数据集

简要回顾ARIMA时间序列模型

ARIMA模型即自回归积分移动平均（Auto Regression Integrated Moving Average）模型，ARIMA模型通常写作ARIMA(p,d,q)，其中：
（1）p指自回归项的个数，是使用取差分平稳化以后的新时间序列的过去值作为解释变量部分的个数。
（2）d指将序列平稳化所需的差分次数，反过来，从平稳化的序列变化为原始数据的算法即称为预测方程。假如原始数据为 $Y_t$ ，而差分后的平稳数据为 $y_t$ ，如果 $d = 0$ ，则 $Y_t=y_t$ ，如果 $d = 1$ ，则 $Y_t=y_t+Y_{t-1}$ ，而如果 $d = 2$ ，则 $Y_t=(y_t+Y_{t-1})+(Y_{t-1}-Y_{t-2})$ 。
（3）q对应移动平均部分，指预测方程里预测误差的滞后项个数。

这是一类非常灵活的时间序列预测模型，通常使用在可以通过差分变换为平稳序列的时间序列数据上。注意，在对时间序列数据进行平稳化的过程中，通常也一起使用对数或者Box-Cox变换等手段。（弱）平稳序列的含义是指这个数据没有特定的趋势，并且其围绕其平均值按照比较一致的波幅进行波动。这个波幅一致的波动意味着其自相关系数不随时间而变化，或者说其功率频谱不变。这种事件序列数据可以被看成一个信号和一个噪声项的组合，其信号项部分可以是一个或者多个往复的三角函数曲线以及其他周期性信号的组合。从这个角度看，ARIMA模型可以看作一个试图将信号与噪声分离的滤子，并使用外推法预测未来值。

ARIMA模型的一般形式写作：
$\hat{y}_t=\mu+\alpha y_{t-1}+...+\alpha_p y_{t-p}+\beta_1 e_{t-1}-...-\beta_q e_{t-q}$
使用ARIMA模型建模的步骤如下：
（1）可视化待建模的序列数据。
（2）使用ADF或者KPSS测试确定将数据平稳化所需的差分次数。
（3）使用ACF/PACF确定移动平均对应的预测误差项和自回归项个数，一般从一项开始。
（4）对于拟合好的ARIMA模型，将预测误差项和自回归项分别减少一个再拟合。
（5）根据AIC或者BIC判断模型相对简单的AR或者MA模型是否有改进。
（6）对自回归和移动平均项个数递增一个，逐次检验。

对于自相关项，一般可以通过增加自回归项或者移动平均部分里面的预测误差项个数来消除。一般的原则是如果未消除的自相关是正自相关关系，即ACF图里面第一项是正值，则使用增加自回归项的方法较好；而如果未消除的自相关是负自相关关系，则增加预测误差项的方法会更为合适。这是因为一般而言，差分方法对于消除正相关关系非常有效，但是同时也会额外引入反向的相关关系，这时候会出现过度差分的情况，需要额外引入一个预测误差项来消除负相关关系，这也是为什么在上面的建模步骤里面先引入预测误差项建模，而不是先引入自回归项开始建模，也就是先拟合一个ARIMA(0,1,1)模型再看看ARIMA(1,1,0)模型，通常ARIMA(0,1,1)模型会比ARIMA(1,1,0)模型拟合效果好一些。

识别差分项的原则

（1）如果建模的序列正的自相关系数一直衍生到很长的滞后项（比如10或者更多滞后项），则获得平稳序列所需的差分次数较多。
（2）如果滞后一项的自相关系数为0或者为负，或者所有的自相关系数都很小，则该序列不需要更多的差分来获得平稳性。通常而言，如果之后一项的自相关性为-0.5或者更小，则很可能该序列被过度差分了，这是需要注意的。
（3）最优的差分项个数通常对应于差分后拥有最小标准差的时间序列。
（4）如果原序列不需要进行差分，则假定原序列是平稳的。一阶差分则意味着原序列有一个为常数的平均趋势。二阶差分则意味着原序列有一个依时间变化的趋势。
（5）对不需要进行差分的时间序列建模时通常包含一个常数项。如果对一个需要一阶差分的时间序列进行建模，则只有在该时间序列包含非0的平均趋势的时候才需要包含常数项。而对一个需要进行二阶差分的时间序列进行建模时则通常不用包含常数项。

识别自回归或者预测误差项的原则

（1）如果差分后的序列是PACF显示为Sharp Cutoff或者滞后一项的自相关为正，则说明该序列差分不足，这时候可以对模型增加一个或者多个自相关项，增加个数通常为PACF Cutoff的地方。
（2）如果差分后的序列的ACF显示为急剧截断或者滞后一项的自相关为负相关，则说明该序列差分过度，这时候可以对模型增加一个或者多个预测误差项，增加个数通常为ACF截断（Cutoff）的地方。
（3）自回归项和预测误差项有可能会互相抵消，因此如果一个两种要素都包含的ARIMA模型对数据拟合得很好，则通常可以试一试一个少一个自回归项或者少一预测误差项的模型。一般来说，同时包含多个自回归和多个预测误差项的ARIMA模型都会过度拟合。
（4）如果自回归项的系数和接近1，即自回归部分有单位根现象，那么这个时候应该将自回归项减少一个，同时增加一次差分操作。
（5）如果预测误差项的系数和接近1，即移动平均部分有单位根现象，那么这时候应该将预测误差项减少一个，同时减少一次差分操作。
（6）自回归或者移动平均部分有单位根通常也表现为长期预测不稳定。

识别模型的季节性

（1）如果一个时间序列有很强的季节性，则必须使用一次季节周期作为差分，否则模型会认为季节性会随着时间逐渐消失。但是使用季节周期做差分不能超过一次，如果使用了季节周期做差分，则非季节周期的差分最多也只能再进行一次。
（2）如果一个适当差分之后的序列的自相关系数在第s个滞后上仍然表现为正，而s为季节性周期包含的时间段数，则在模型里添加一个季节性自回归项。如果这个自相关系数为负，则添加一个季节性预测误差项。通常情况下，如果已经使用了季节周期做差分，则第二种情况更常见，而第一种情况通常是还没有使用季节性周期做差分。如果季节性周期很规律，则使用差分是比引入一个季节性自回归项更好的方法。应尽量避免在模型里同时引入季节性自回归和季节性预测误差项，否则模型会过拟合，甚至在拟合过程本身会出现不收敛的情况。

循环神经网络与时间序列模型

循环神经网络主要用于处理和预测序列数据。循环神经网络存在较少参数，其中时序信息以及语义信息的深度表达能力被充分利用，并在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。
一个典型的循环神经网络基本结构如下：

在每一个时刻 $t$ ，循环神经网络会针对该时刻的输入结合当前模型的状态给出一个输出，并更新模型状态。如图所示，循环神经网络的主体结构 $A$ 输入层除了来自输入层 $X_t$ 外，还提供上一时刻的隐藏状态 $h_{t-1}$ 。类似于卷积神经网络在不同空间共享参数，循环神经网络在不同时间共享参数，从而能够使用有限的参数处理任意长度的序列。
将完整的输入输出序列展开：

循环网络的展开在模型训练中有重要意义。如上图所示，也就是在时间上展开后的循环神经网络结构。对长度为N的RNN展开后，就类似于CNN中间层的结构，只不过RNN的中间层是在时间层面上展开的。RNN上使用反向传播被称为”沿时间反向传播（Back-Propagation Through Time）”，是训练RNN的最常用方法。

从结构上来看，RNN擅长解决与时间序列相关的问题。对于一个序列数据，可以将不同时刻的数据依次传入循环神经网络的输入层，而输出是下一个时刻的预测，或者是对当前时刻信息的处理结果（比如语音识别结果）。

循环神经网络可以看作是同一神经网络结构在时间序列上被复制多次的结果，这个被复制多次的结构被称为循环体。循环神经网络中的状态是通过一个向量来表示的，这个向量的维度也称为循环神经网络隐藏层的大小，假设其为 $n$ 。如下图所示，循环体的输入有两部分，一部分为上一时刻的状态，另一部分为当前时刻的输入样本。对于时间序列数据来说（比如不同时刻商品的销售），每一时刻的输入样例可以是当前时刻的数值（比如销售量）;对于语言模型来说，输入样例可以是当前单词对应的单词向量（word embedding）。

下图展示了一个循环神经网络前向传播的具体计算过程：

示例代码：

import numpy as np

# 定义RNN参数
X = [1, 2]
state = [0.0, 0.0]
# 分开定义不同输入部分的权重以方便操作
w_cell_state = np.asarray([[0.1,0.2],[0.3,0.4]])
w_cell_input = np.asarray([0.5,0.6])
b_cell = np.asarray([0.1,-0.1])
# 定义用于输出的全连接层参数
w_output = np.asarray([[1.0],[2.0]])
b_output = 0.1

# 执行前向传播过程
for i in range(len(X)):
    # 计算循环体中的全连接层神经网络
    before_activation = np.dot(state, w_cell_state)+X[i]*w_cell_input+b_cell
    state = np.tanh(before_activation)
    # 根据当前时刻状态计算最终输出
    final_output = np.dot(state, w_output)+b_output
    # 输出每个时刻的信息：
    print('before activation:', before_activation)
    print('state:',state)
    print('output:',final_output)

'''
before activation: [0.6 0.5]
state: [0.53704957 0.46211716]
output: [1.56128388]
before activation: [1.2923401  1.39225678]
state: [0.85973818 0.88366641]
output: [2.72707101]
'''

注意：在实际训练中，如果序列过长，一方面会导致优化时出现梯度消失和梯度爆炸问题，另一方面，展开后的前馈神经网络会占用过大的内存，所以实际上一般会规定一个最大长度，当序列长度超过规定长度滞后会对序列进行截断。

长短时记忆网络（LSTM）

目的是为了解决复杂语言场景中相关信息间隔大小不一致的问题。作为一种特殊的循环体结构，LSTM由三个门结构构成：

门的结构由一个使用sigmoid神经网络和一个按位乘法操作构成。sigmoid通过0,1设置，表示信息是否通过。
在这几种门中：输入门和遗忘门非常重要。
遗忘门：让RNN”忘记“之前没有用的信息。假设状态c的维度为n，”遗忘门“会根据当前的输入 $x_t$ 和上一时刻输出 $h_{t-1}$ 计算一个维度为n的向量 $f=sigmoid(W_1x+W_2h)$ ，它在每一维度上的值都在（0，1）范围内。再将上一时刻的状态 $c_{t-1}$ 与 $f$ 向量按位相乘，那么 $f$ 取值接近0的维度上的信息就会被”遗忘“，而 $f$ 取值接近1的维度上的信息会被保留。
输入门：根据 $x_t$ 和 $h_{t-1}$ 决定哪些信息加入到状态 $c_{t-l}$ 中生成新的状态 $c_t$ 。
输出门：根据最新的状态 $c_t$ 、上一时刻的输出 $h_{t-1}$ 和当前的输入 $x_t$ 来决定该时刻的输出 $h_t$ 。

下面是LSTM的细胞（Cell），每个细胞可视作4层：
遗忘层（Forget layer）：

确定更新的信息：

更新细胞的状态：

输出信息：

综合来看：

具体LSTM每个”门“的公式定义如下：

输入值： $z=tanh(W_z[h_{t-1},x_t])$
输入门： $i = sigmoid(W_i[h_{t-1},x_t])$
遗忘门： $f=sigmoid(W_f[h_{t-1},x_t])$
输出门： $o = sigmoid(W_o[h_{t-1},x_t])$
新状态： $c_t=f\cdot c_{t-1}+i\cdot z$
输出： $h_t=o\cdot \text{ tanh } c_t$

其中 $W_z, W_i, W_f, W_o$ 是4个维度为[2n,n]的参数矩阵，用流程图的形式表示上面的公式：

使用Tensorflow实现使用LSTM结构的RNN前向传播过程：

'''
基于Tensorflow V1版本的代码
'''
# 定义一个LSTm结构
# LSTM中使用的变量也会在该函数中被自动声明
lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_hedden_size)

# 将LSTM状态初始化为0的数组
# zero_state函数生成全0的初始状态；state.c和state.h分贝代表c和h状态
state = lstm.zero_state(batch_size, tf.float32)

# 定义损失函数
loss = 0.0
# 训练中为了将循环网络展开成前馈神经网络，我们需要知道数据序列长度
# num_steps表示长度
for i in range(num_steps):
    # 第一个时刻声明LSTm结构中使用的变量，之后都需要复用之前定义好的变量
    if i > 0:
        tf.get_variable_scope().reuse_variables()

    # 每一步处理时间序列中的一个时刻
    lstm_output, state = lstm(current-input, state)
    # 当前时刻的LSTM结构的输出传入一个全连接层得到最后的输出
    final_output = fully_connected(lstm_output)
    # 计算当前时刻输出的损失
    loss += calc_loss(final_output, expected_output)

LSTM变种：GRU

循环神经网络的变种

双向循环神经网络和深层循环神经网络

双向循环神经网络

单个单词前后句子都会对单词的识别有影响，所以有了双向循环神经网络。双向循环神经网络是由两个独立的循环神经网络叠加在一起的，输出由两个循环神经网络的输出拼接而成。因为当前时刻的输出不仅和之前的状态有关，也和之后的状态有关。这时就需要根据前文来判断，同时需要后面的内容。例子就像选择填空一样需要前后度进行分析。示例如下：

深层循环神经网络

深层循环神经网络（Deep RNN）为了增强模型的表达能力而网络中设置了多个循环层。每一时刻的输入 $x_t$ 到输出 $o_t$ 之间有 $L$ 个循环体。网络因此可以从输入中抽取更加高层的信息。和CNN类似，每一层的循环体中参数是一致的，而不同层中的参数可以不同。TensorFlow中提供了MultiRNNCell类实现深层循环神经网络的传播过程。

循环神经网络的dropout

通过dropout，可让网络更加健壮，只在最后的全连接层中使用dropout。而在同一时刻 $t$ 中，不同层循环体之间会使用dropout。在Tensorflow中，使用tf.nn.rnn_cell.DropoutWrapper类可以实现dropout功能。

时间序列数据建模实战

本文利用TensorFlow2.0建立时间序列RNN模型，对国内的新冠肺炎疫情结束时间进行预测。

数据准备

本文的数据集取自tushare。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import tensorflow as tf
from tensorflow.keras import models, layers, losses, metrics, callbacks

数据预览：

%matplotlib inline
%config InlineBackend.figure_format = 'svg'

df = pd.read_csv('../DemoData/covid-19.csv', sep='\t')
df.plot(x='date', y=['confirmed_num','cured_num','dead_num'], figsize=(10, 5))
plt.xticks(rotation=60)

dfdata = df.set_index('date')
dfdiff = dfdata.diff(periods=1).dropna()
dfdiff = dfdiff.reset_index('date')

dfdiff.plot(x='date', y=["confirmed_num","cured_num","dead_num"], figsize=(10, 5))
plt.xticks(rotation=60)
dfdiff = dfdiff.drop('date', axis=1).astype('float32')

用某日前8天窗口数据作为输入预测该日数据：

WINDOW_SIZE = 8

def batch_dataset(dataset):
    dataset_batched = dataset.batch(WINDOW_SIZE, drop_remainder=True)
    return dataset_batched

ds_data = tf.data.Dataset.from_tensor_slices(tf.constant(dfdiff.values, dtype=tf.float32)).window(WINDOW_SIZE, shift=1).flat_map(batch_dataset)
ds_label = tf.data.Dataset.from_tensor_slices(tf.constant(dfdiff.values[WINDOW_SIZE:],dtype=tf.float32))

# 数据较小，将全部训练数据放入到一个batch中
ds_train = tf.data.Dataset.zip((ds_data, ds_label)).batch(38).cache()

定义模型

使用Keras接口有以下3种方式构建模型：

使用Sequential按层顺序构建模型，
使用函数式API构建任意结构模型，
继承Model基类构建自定义模型

这里选择函数式API构建任意结构模型：

# 考虑到新增确诊，新增治愈、新增死亡人数数据不可能小于0，设计如下结构
class Block(layers.Layer):
    def __init__(self, **kwargs):
        super(Block, self).__init__(**kwargs)

    def call(self, x_input, x):
        x_out = tf.maximum((1+x)*x_input[:,-1,:], 0.0)
        return x_out

    def get_config(self):
        config = super(Block, self).get_config()
        return config

定义模型：

tf.keras.backend.clear_session()

x_input = layers.Input(shape=(None, 3), dtype=tf.float32)
x = layers.LSTM(3, return_sequences=True, input_shape=(None, 3))(x_input)
x = layers.LSTM(3, return_sequences=True, input_shape=(None, 3))(x)
x = layers.LSTM(3, return_sequences=True, input_shape=(None, 3))(x)
x = layers.LSTM(3, input_shape=(None, 3))(x)
x = layers.Dense(3)(x)

x = Block()(x_input, x)
model = models.Model(inputs=[x_input], outputs = [x])
model.summary()

'''
Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 input_1 (InputLayer)           [(None, None, 3)]    0           []                               
                                                                                                  
 lstm (LSTM)                    (None, None, 3)      84          ['input_1[0][0]']                
                                                                                                  
 lstm_1 (LSTM)                  (None, None, 3)      84          ['lstm[0][0]']                   
                                                                                                  
 lstm_2 (LSTM)                  (None, None, 3)      84          ['lstm_1[0][0]']                 
                                                                                                  
 lstm_3 (LSTM)                  (None, 3)            84          ['lstm_2[0][0]']                 
                                                                                                  
 dense (Dense)                  (None, 3)            12          ['lstm_3[0][0]']                 
                                                                                                  
 block (Block)                  (None, 3)            0           ['input_1[0][0]',                
                                                                  'dense[0][0]']                  
                                                                                                  
==================================================================================================
Total params: 348
Trainable params: 348
Non-trainable params: 0
__________________________________________________________________________________________________
'''

训练模型

训练模型通常有3种方法，内置fit方法，内置train_on_batch方法，以及自定义训练循环。这里选择最常用也最简单的内置fit方法。
需要注意的是，RNN调试比较困难，需要设置多个不同的学习率多次尝试，以便取得最好的效果。

# 自定义损失函数，考虑平方差和预测目标的比值
class MSPE(losses.Loss):
    def call(self, y_true, y_pred):
        err_precent = (y_true-y_pred)**2/(tf.maximum(y_true**2, 1e-7))
        mean_err_precent = tf.reduce_mean(err_precent)
        return mean_err_precent

    def get_config(self):
        config = super(MSPE, self).get_config()
        return config

import os
import datetime
from pathlib import Path

optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)
model.compile(optimizer=optimizer, loss=MSPE(name='MSPE'))

stamp = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
logdir = str(Path('../DemoData/autograph/' + stamp))

tb_callback = tf.keras.callbacks.TensorBoard(logdir, histogram_freq=1)
# 如果loss在100个epoch后没有提升，学习率减半
lr_callback = tf.keras.callbacks.ReduceLROnPlateau(monitor='loss', factor=0.5, patience=100)
# 当loss在200个epoch后没有提升，则提前终止训练
stop_callback = tf.keras.callbacks.EarlyStopping(monitor='loss', patience=200)
callbacks_list = [tb_callback, lr_callback, stop_callback]

history = model.fit(ds_train, epochs=500, callbacks=callbacks_list)

评估模型

评估模型一般要设置验证集或者测试集，由于此例数据较少，仅仅可视化损失函数在训练集上的迭代情况。

%matplotlib inline
%config InlineBackend.figure_format = 'svg'

import matplotlib.pyplot as plt

def plot_metric(history, metric):
    train_metrics = history.history[metric]
    epochs = range(1, len(train_metrics)+1)
    plt.plot(epochs, train_metrics, 'bo--')
    plt.title('Training'+metric)
    plt.xlabel('Epochs')
    plt.ylabel(metric)
    plt.legend(['train_'+metric])
    plt.show()

查看损失变化情况：

plot_metric(history, 'loss')

使用模型

此处使用模型预测疫情结束时间，即新增确诊病例为0的时间。
使用dfresult记录现有数据以及此后预测的疫情数据：

dfresult = dfdiff[["confirmed_num","cured_num","dead_num"]].copy()
dfresult.tail()

预测此后100天的新增走势,将其结果添加到dfresult中：

for i in range(100):
    arr_predict = model.predict(tf.constant(tf.expand_dims(dfresult.values[-38:,:], axis=0)))
    dfpredict = pd.DataFrame(tf.cast(tf.floor(arr_predict),tf.float32).numpy(), columns=dfresult.columns)
    dfresult = dfresult.append(dfpredict, ignore_index=True)
# 查看新增确诊数降为0的日期
dfresult.query('confirmed_num==0').head()

第56天开始新增确诊降为0，第45天对应3月10日，也就是11天后，即预计3月21日新增确诊降为0。（显然过于乐观）
查询新增治愈数为0的日期：

for i in range(100):
    arr_predict = model.predict(tf.constant(tf.expand_dims(dfresult.values[-38:,:], axis=0)))
    dfpredict = pd.DataFrame(tf.cast(tf.floor(arr_predict),tf.float32).numpy(), columns=dfresult.columns)
    dfresult = dfresult.append(dfpredict, ignore_index=True)

dfresult.query("cured_num==0").head()

第231天开始新增治愈降为0，第45天对应3月10日，也就是大概6个月后，即9月16日左右全部治愈。
查询新增死亡降为0的日期：

for i in range(100):
    arr_predict = model.predict(tf.constant(tf.expand_dims(dfresult.values[-38:,:], axis=0)))
    dfpredict = pd.DataFrame(tf.cast(tf.floor(arr_predict),tf.float32).numpy(), columns=dfresult.columns)
    dfresult = dfresult.append(dfpredict, ignore_index=True)

dfresult.query("dead_num==0").head()

第111天开始，新增死亡降为0，第45天对应3月10日，也就是5月16日后，新增死亡降为0

保存模型

使用TensorFlow原生方式保存模型：

model.save('../../data/tf_model_savedmodel', save_format="tf")
print('export saved model.')

模型加载和使用：

model_loaded = tf.keras.models.load_model('../../data/tf_model_savedmodel',compile=False)
optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
model_loaded.compile(optimizer=optimizer,loss=MSPE(name = "MSPE"))
model_loaded.predict(ds_train)

参考资料

[1] 《Keras快速上手：基于Python的深度学习实战》
[2] 7个常用的时间序列数据集
[3] 《Tensorflow：实战Google深度学习框架》
[4] 30天吃掉那只Tensorflow2

你可能感兴趣的:(Tensorflow2,时间序列分析,Tensorflow2,RNN,LSTM)

【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
如何创建唯一的 key 或者 ID L?z ^f my utils javascript 前端
javaScript中创建唯一的key/***生成一个永不重复的key*@param{Number}randomLength*/functiongetUuiKey(randomLength=5){returnNumber(Math.random().toString().substr(2,randomLength)+Date.now()).toString(36)}
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
SpringBoot整合websocket
添加依赖：org.springframework.bootspring-boot-starter-websocket开启WebSocket配置类@ConfigurationpublicclassWebSocketConfig{@BeanpublicServerEndpointExporterserverEndpointExporter(){returnnewServerEndpointExport
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
Teacher Forcing--------一种用于序列生成任务的训练技巧 AI扶我青云志自然语言处理人工智能
好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。核心概念目标：训练一个模型，使其能够根据给定的输入序列（如前一个词、图像编码、时间步数据等）预测下一个输出元素（如下一个词、下一个音符、下一个时间点的值等）。这在机器翻译、文本摘要、对话生成、语音合成
典型的几种神经网络 Victor Zhong AI 框架神经网络人工智能深度学习
骨干网络CNN(卷积神经网络)RNN(循环神经网络)三级目录CNN(卷积神经网络)包括输入层、隐藏层、输出层：输入层一般为一张图片（w,h,d）,输入层数据一般要做归一化处理;隐藏层包含特有的卷积层（卷积核有权重系数）、池化层（没有权重系数）、全连接层，还有残差块？和Inception模块？。；输出层：RNN(循环神经网络)单向的RNN示意图：三级目录
聚焦的伟力：注意力机制与Transformer的创世纪田园Coder 人工智能科普人工智能科普
当LSTM和GRU凭借其精密的门控系统，成功驯服了时间的长河，让神经网络能够跨越数十甚至数百步记住关键信息，并在机器翻译、文本生成等领域大放异彩时，一个看似微小却影响深远的瓶颈逐渐浮出水面，尤其是在序列到序列（Seq2Seq）框架中。在标准的Seq2Seq模型（如用于神经机器翻译）里，编码器（通常是一个RNN如LSTM）需要将整个输入序列（如一个英语句子）的信息压缩成一个固定长度的上下文向量（Co
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究 babyai997 python 人工智能目标跟踪
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究摘要本文主要介绍了心跳信号的基础知识，包括心跳信号的产生机制、特点分析以及采集与处理方法。文章详细阐述了PyTorch框架在心跳信号分类识别中的应用，包括LSTM、GRU和TCN等模型的原理及实现。通过设计合理的实验方案，对不同模型在心跳信号分类识别任务中的性能进行了对比分析，发现GRU模型在计算效率和性能之间取得了较好平衡，而
大模型在通讯网络中的系统性应用架构 Deepoch 网络
一、网络架构智能化重构1.1空天地一体化组网优化智能拓扑动态调整：大模型通过分析卫星轨道数据、地面基站负载及用户分布，实时优化天地一体化网络拓扑。例如，在用户密集区域（如城市中心）自动增强低轨卫星与地面基站的协同，通过联邦学习实现跨区域资源调度，降低跨空口传输时延至0.3ms以下。量子密钥分发增强：结合量子通信卫星星座，大模型动态生成抗量子攻击的密钥分发策略。在卫星间链路中，采用LSTM预测信道衰
力扣 hot100 Day34 qq_51397044 Hot100 leetcode 算法
226.翻转二叉树给你一棵二叉树的根节点root，翻转这棵二叉树，并返回其根节点翻转的定义是，对于每个节点，交换它的左右子树//抄的classSolution{public:TreeNode*invertTree(TreeNode*root){if(root==nullptr)returnnullptr;TreeNode*left=invertTree(root->left);TreeNode*r
长短期记忆（LSTM）网络模型凌莫凡 lstm 人工智能 rnn 深度学习神经网络
一、概述长短期记忆（LongShort-TermMemory，LSTM）网络是一种特殊的循环神经网络（RNN），专门设计用于解决传统RNN在处理长序列数据时面临的梯度消失/爆炸问题，能够有效捕捉长距离依赖关系。其核心在于引入记忆细胞（CellState）和门控机制（GateMechanism），通过控制信息的流动来实现对长期信息的存储与遗忘。二、模型原理 LSTM由记忆细胞和三个门控单元（遗
循环神经网络（RNN）：序列数据处理的强大工具 LNL13 rnn 人工智能深度学习
在人工智能和机器学习的广阔领域中，处理和理解序列数据一直是一个重要且具有挑战性的任务。循环神经网络（RecurrentNeuralNetwork，RNN）作为一类专门设计用于处理序列数据的神经网络，在诸多领域展现出了强大的能力。从自然语言处理中的文本生成、机器翻译，到时间序列分析中的股票价格预测、天气预测等，RNN都发挥着关键作用。本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其
长短期记忆网络（LSTM）：让神经网络拥有 “持久记忆力” 的神奇魔法
在神经网络的奇妙世界里，有一种模型仿佛拥有了“魔法”，能够记住很久以前的信息，克服了传统循环神经网络（RNN）在处理长序列数据时的“健忘症”，它就是长短期记忆网络（LongShort-TermMemoryNetwork），简称LSTM。今天，就让我们一起走进LSTM的世界，揭开它神秘的面纱。一、从RNN的“健忘症”说起循环神经网络（RNN）是一种专门为处理序列数据而设计的神经网络，它通过隐藏层的循
6月17日作业 2301_147258369 c语言
一、双向循环链表的操作1.创建//1、创建双向链表node_pcreate_loop_double(){node_pH=(node_p)malloc(sizeof(node));if(H==NULL)returnNULL;H->pri=H;H->next=H;H->len=0;returnH;}2.创建结点//2、创建结点node_pcreate_node(intdata){node_pnew_n
【SNN脉冲神经网络2】AdEx神经网络软件仿真 XvnNing SNN脉冲神经网络神经网络人工智能深度学习
本文使用AdEx神经元搭建一个完整的神经网络来进行生物神经脉冲现象的仿真。主要的目的是为了验证数学原理，因此只调用的numpy函数包。对应的代码例程如下：1.导入所需的Python函数库importnumpyasnpimportmatplotlib.pyplotaspltimportreimportos2.定义均值函数以及一些常用函数defbin_data(data):try:returnnp.m
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
LSTM（Long Short-Term Memory）模型的深度解析 AI扶我青云志 lstm rnn 深度学习
在6.28号我发了一个博客《RNN（循环神经网络）与LSTM（长短期记忆网络）输出的详细对比分析》，但是我并未详细讲解LSTM，LSTM是循环神经网络中的一个模型，然而通过这篇博客给大家深度解析一下LSTM，重点关注其内部结构和参数。LSTM是为了解决标准RNN在处理长序列时出现的梯度消失/爆炸问题而设计的一种特殊循环神经网络结构。它的核心在于引入了门控机制和细胞状态，使得网络能够有选择地记住或忘
GRU与LSTM之间的联系和区别 AI扶我青云志机器学习人工智能深度学习
前面我们谈到RNN与LSTM之间的关系，而GRU也是循环神经网络中的一种模型，那么它与LSTM有什么区别呢？接下来我来对GRU（GatedRecurrentUnit）模型进行一次深度解析，重点关注其内部结构、参数以及与LSTM的对比。GRU是LSTM的一种流行且高效的变体，由Cho等人在2014年提出，旨在解决与LSTM相同的长期依赖问题，但通过更简化的结构和更少的参数来实现。核心思想：简化LST
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
MATLAB代码实现了一个完整的ARIMA时间序列分析与预测流程神经网络697344 算法深度学习 MATLAB matlab 信息可视化开发语言
%%1.数据准备years=(2010:2024)';data=[11894,12277,12777,13262,13902,14524,15037,15961,16724,...17767,19064,20056,20978,21676,22023]';%创建时间序列对象ts=timeseries(data,years,'Name','65岁以上人口');ts.TimeInfo.Units='y
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数