深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting

基于自注意力的区域流感预测模型

  • Resource download
  • chap1 Introduction and background
    • 1.4 Interpretability of deep learning prediction model
    • 1.5 contribution
  • chap2 Method
    • 2.1 Graph definition and learning
    • 2.2 Graph convolutional network
    • 2.3 Long short-term memory for time dependencies
    • 2.4. Application of attention in LSTM and GCN
    • 2.5 Data sampling
    • 2.6 Evaluation method
  • chap3 Case study
    • 3.1 Introduction of dataset
      • 3.2.1. Definition of models
  • chap4 Results and discussion
    • 4.1 Overall forecast result
    • 4.3. Spatial interpretable results
  • 5 Conclusions and future work

Resource download

Click here

chap1 Introduction and background

1.4 Interpretability of deep learning prediction model

结合本研究的背景,深度学习模型可解释性的技术方法主要分为以下两类:

  1. Feature importance:主要目的是通过研究不同特征对最终预测结果的影响程度,如注意机制来获得解释。
  2. Declarative induction:在可解释模型的设计过程中直接使用人类可读和可理解的表示。采用图结构、树状结构等方法来直观地表示模型的计算过程。

1.5 contribution

  1. 利用图神经网络(GNN)来考虑太阳辐射预测中剩余变量之间的关系,并与LSTM联合起来建模更高维时间序列的特征。
  2. 在时间维度中引入一种注意机制,部分地提高了模型的可解释性。预测过程中不同变量之间的关系用GNN中的图结构来描述,它将描述不同特征之间的关系

chap2 Method

本文提出的模型主要包括图神经网络和递归神经网络。通过对这两种网络的结合,以及通过注意力和图神经网络的结合,实现了对时间和空间依赖性的双重考虑。

2.1 Graph definition and learning

图神经网络将接受邻接矩阵作为输入数据格式
图构造的工作流程如图1所示:
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第1张图片

  1. Embeddings表示两个不同的随机初始化层,将标量 idx向量转换为嵌入矩阵
  2. 方程中的idx表示节点索引,1、2是两个简单的前馈神经网络的模型参数。
    深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第2张图片
  • 对于每个节点,我们选择前k个最近的节点作为其相邻节点。在保留连接节点的权值的同时,我们将非连接节点的权值设为零。利用等式中的ReLU激活函数得到了我们所提出的图邻接矩阵的对称性质。

2.2 Graph convolutional network

图卷积模块的目的是将节点的信息与其邻居的信息相结合,以处理图中的空间依赖关系。换句话说,节点表示是通过转换相邻的节点表示来创建的。
图2说明了该模块的概念。
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第3张图片

在进入第一个图卷积层之前,通常需要对每个节点的初始特征在本例中,初始特征使用了不同变量的时间序列数据
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第4张图片

  1. 在等式中(4),将上一层的所有节点嵌入聚合成一个矩阵进行前向变换。
  2. 在等式中(5),A为邻接矩阵,矩阵D表示对角线度矩阵,对角线上的值表示节点的直接邻居的个数。
  3. 等式(6) 用于计算下一层的节点嵌入,其中 () 0和 () 1是该层要学习的矩阵。 ()() 0表示当前节点的信息, ̃ ()() 1表示邻居的信息。
    深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第5张图片

图3的左部分示出了图形架构,右部分示出了两层GCN信息流的实例。目标节点A的嵌入将包括A的两级邻居节点,包括节点E和F。

2.3 Long short-term memory for time dependencies

使用LSTM单元对多元时间数据的时间依赖性进行编码,LSTM的过程与图神经网络部分并行独立执行。
长短期记忆单元如图4所示:
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第6张图片

方程式:式(7)——式(12)
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第7张图片

2.4. Application of attention in LSTM and GCN

注意的基本要素包括三个部分,即查询、键和价值。通常,如果定义了这三个部分,注意力的计算将是一个理所当然的问题。注意事项的概念如图5所示。深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第8张图片

如图6所示。查询通常在LSTM的最后一个时间步中使用h向量。此外,为了减少LSTM注意中的计算负荷,本研究采用局部注意的概念来减少注意的计算窗口。深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第9张图片

2.5 Data sampling

建筑能源或太阳预测中使用的各种特征和标签通常是时间序列数据,仅包括两个维度,即时间步长和特征列。对于LSTM和图卷积神经网络,输入数据的维数通常在三维以上,有两种处理方法,即在时间尺度上的扩展(LSTM)和在不同变量上的扩展(GNN)。

2.6 Evaluation method

为定量评价各模型对太阳辐射的预测性能,采用MAE (平均绝对误差) 和MSE (均方误差) 作为模型的评价指标 。两者都说明了预测与原始数据之间的准确性差异

chap3 Case study

本文提出的模型的代码和数据集已开源。它们可以在链接: www.akashilab.com下载

3.1 Introduction of dataset

天气数据集来自日本气象厅的官方网站和数据库,包含东京从2019年1月1日到2020年12月31日两年的每小时测量气象数据。

3.2.1. Definition of models

  1. M.1:(基线模型): 模型1仅应用LSTM网络进行预测;
  2. M.2: 模型2添加了针对不同时间步长的注意机制,以及基于模型1的其他模型体系结构;
  3. M.3:模型3实现了具有LSTM的图注意卷积网络 (GACN),以同时捕获空间和时间依赖性。
    所有模型均使用Python 3.7和Pytorch 1.7实现。
    深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第10张图片

chap4 Results and discussion

4.1 Overall forecast result

表2显示了三种模型的统计结果。M.3在所有模型中取得了最佳的MAE和MSE指数结果。
深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第11张图片

4.3. Spatial interpretable results

在M.3中通过图神经网络引入了对时间序列数据的空间依赖性。图体系结构如图18所示:深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting_第12张图片

5 Conclusions and future work

  1. 这三个模型都取得了足够的统计预测结果。具有空间依赖性 (M.3) 的模型可以将每日平均MAE降低6个百分点,并将MSE降低12个百分点。
  2. 在预测异常值的讨论中,具有可解释成分 (M.2,M.3) 的模型的性能优越。
  3. 时间相关的可解释性结果表明,M.2模型在每天预测不同时间时具有不同的注意权重。
  4. M.3模型生成的图形结构表明,太阳辐射与月,小时,温度,穿透降雨,水蒸气压力和辐射时间直接相关。

你可能感兴趣的:(深度学习——day40 Self-Attention-Based_Deep_Learning_Network_for_Regional_Influenza_Forecasting)