panbaoran913

[论]【MGT】Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction

Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction

原文，见这里
作者：Xue Ye , Shen Fang , Fang Sun ， Chunxia Zhang , Shiming Xian
期刊：爱思唯尔Neurocomputing
关键字：交通预测，时空建模，元学习，注意机制，深度学习
相关博文：翻译
代码：https://github.com/lonicera-yx/MGT
或 gitee code

文章目录

Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction
- bib
- 知识点参考
- 摘要
- 1. Introduction
- 2. Related Work
- - 2.1. Spatial–Temporal Traffic Prediction
  - 2.2. Attention Mechanism
- 3. Preliminaries
- - 3.1. Problem Formulation
  - 3.2. Multi-Head Attention
- 4. Meta Graph Transformer
- 4.1. Overall Pipeline
- - 4.2. Spatial–Temporal Embeddings
  - - 4.2.1. Temporal Embeddings
    - 4.2.2. Spatial Embeddings
    - 4.2.3. Spatial–Temporal Embeddings
  - 4.3. Transition Matrices
  - - 4.3.1. Construction of Multiple Graphs
    - 4.3.2. Transition Matrices
  - 4.4. Encoder
  - - 4.4.1. Temporal Self-Attention
    - 4.4.2. Spatial Self-Attention
    - 4.4.3. Feed Forward Network
  - 4.5. Decoder
  - - 4.5.1. TSA with Mask
    - 4.5.2. Temporal Encoder-Decoder Attention
- 5. Experiments
- - 5.1. Datasets
  - 5.2. Experimental Settings
  - 5.3. Baseline Methods
  - 5.4. Experimental Results and Analysis
  - 5.5. Comparison on rush hours
  - 5.6. Ablation Study
  - - 5.6.1. Analysis in view of Temporal and Spatial Message Passing
    - 5.6.2. Analysis in view of Temporal and Spatial Heterogeneity
    - 5.6.3. Analysis of Transition Matrices
  - 5.7. Analysis of Hyperparameters
  - - 5.8. Model Size Comparison
    - 5.9. Efficiency Study
- 6. Conclusion
- Fig5-->10

bib

@article{2021Meta,
  title={Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction - ScienceDirect},
  author={ Xue, Yab  and  Shen, Fab  and  Fang, S. C.  and  Cz, D  and  Sxa, B },
  journal={Neurocomputing},
  volume={491},
  pages={544-563},
  year={2021},
}

知识点参考

Laplacian Eigenmaps：《四大机器学习降维算法》，《推导方法》，《不完整的csdn》

摘要

准确的交通预测是提高智能交通系统性能的关键。这项任务的关键挑战是如何在尊重和利用数据的空间和时间异质性的同时，正确地建模复杂的交通动态。本文提出了一种名为元图转换器(Meta Graph Transformer, MGT)的新框架来解决这个问题。MGT 框架是对原始转换器的推广，该转换器用于对自然语言处理中的向量序列进行建模。具体来说，MGT有一个编码器-解码器架构。编码器负责将历史交通数据编码为中间表示，而解码器自回归预测未来的交通状态。MGT的主要构建模块是三种类型的注意层，分别是时间自我注意(TSA)、空间自我注意(SSA)和时间编码器-解码器注意(TEDA)。它们都是多头结构。编码器和解码器都使用TSA和SSA来捕获时间和空间相关性。解码器采用TEDAs，使解码器中的每个位置都能在时间上参与输入序列中的所有位置。通过利用多个图，SSA可以利用各种诱导偏差进行稀疏空间注意。为了便于模型对时间和空间条件的感知，从外部属性学习时空嵌入(spatial - temporal Embeddings, sts)，这些外部属性由时间属性(如顺序、一天中的时间)和空间属性(如拉普拉斯特征映射)组成。这些嵌入通过元学习被所有的注意层利用，从而赋予这些层空间-时间异质性感知(STHA)的属性。在三个真实交通数据集上的实验证明了我们的模型比几种最先进的方法的优越性。

1. Introduction

交通基础设施的发展和人们出行需求的不断变化，呼唤交通资源的有效优化和高效配置。解决这些问题的需要就投在了智能交通系统(ITS)领域。ITS的核心是两大支柱**:智能交通基础设施和数据分析算法**。前者可以从各种设备（如环路检测器和地铁票价采集系统）收集大量交通数据，而后者在将交通数据转换为有用信息方面起着关键作用。交通量预测是智能交通系统（ITS）的基本任务之一。流量预测的目标是根据网络中所有位置的历史记录(即前 $P$ 个时间步的流量状态)，预测网络中所有位置未来的流量状态(即下一个 $H$ 时间步的流量状态)。图1给出了时空交通预测的简要说明。准确的交通预测可以指导交通部门更好地管理和规划。然而，复杂的空间和时间相关性使这项任务具有挑战性。

Fig.1 时空交通预测的插图。

在早期，统计模型在解决交通预测问题中很流行，比如自回归综合移动平均方法[1,2]、卡尔曼滤波[3]、向量自回归模型[4]。这些模型被严格的数学理论验证.然而，它们的性能往往受到可能不正确的交通数据假设（线性、平稳性等）的限制。

随后，各种基于机器学习的流量预测方法被开发出来，如支持向量回归[5]、随机森林[6]、k最近邻模型[7]等。这些方法有能力建模非线性相关性和提取更复杂的相关性，特别是当大规模数据可用时。然而，这些模型的有效性很大程度上取决于复杂的特征工程，这可能是困难和耗时的。

近十年来，深度学习方法在图像识别[8,9]、目标检测[10,11]、机器翻译[12,13]等各个领域都带来了突破。深度学习的强大能力也吸引了交通领域的研究人员。将区域划分为网格，利用二维或三维(含时间维度)卷积进行交通预测[14-18]。但是，这种基于网格的方法没有考虑交通数据的底层图结构。另一个研究方向是时空图神经网络(spatial - temporal Graph Neural Networks, STGNNs)[19]，其空间信息的交换是由图来引导的。这种方法最近很流行。典型的模型有STGCN[20]和DCRNN[21]。

顾名思义，STGNN框架通常涉及建模的两个方面:一个沿空间维度，另一个沿时间维度。这两个方面的建模可以分别进行[20,22-26]，也可以同时进行[21,27 - 30]。后者的一种常见做法是将递归神经网络(RNN)中的矩阵乘法替换为图卷积。STGNN框架的主要挑战是有效捕获交通网络演化过程中复杂的时空相关性，从而尽可能提高预测的准确性。

在空间建模方面，许多工作都是在静态图[21,20]的基础上进行图卷积[31,32]。该图通常由真实的交通网络构建，其边权值从距离上反映了两个节点的接近程度。虽然基于距离的图在一定程度上揭示了地理位置接近的地点之间的相互影响，但它在远程建模[33]中是不足的。为了弥补这一缺陷，Graph WaveNet[22]和AGCRN[30]提出通过节点嵌入学习隐藏的空间依赖，而PVCGN[27]和Multi-STGCnet[23]从不同角度构建多个图进行空间特征学习。这些方法的问题是，在每个图(预先构建或学习)中，分配给相邻节点的权值在训练后是固定的。这种方法不适用于空间相关性会随时间变化的交通任务。因此，有研究者考虑利用注意力机制[12]来动态确定邻居的权重[34,28,24-26]。通常，分配给邻居的注意系数是通过参数化函数计算的，中心节点的特征和相邻节点的特征作为输入输入输入到该函数中。这样，就可以用动态权重代替静态权重进行特征聚合，从而大大增强了模型的适应性。

然而，大多数基于注意力的方法都有一个显著的缺陷:参数在所有位置和时间间隔中是共享的，因此节点之间的相关性仅取决于它们各自的特征。为什么这很重要?假设有一对地铁站(图2):A站位于商业中心，B站位于居民区。高峰时段的交通以通勤为主，A站的出流量与b站的入流量高度相关，而高峰时段以外的交通随机性较大，导致A站与b站的相关性较弱。 $(a, b)$ 和 $(c, d)$ 分别为7:00和14:00。前者是在高峰时间，而后者不是。交通数据在a和c处的值相同，同理b和d处的值也相同。如果相关性仅依赖于特征，那么a和c相关，b和d相关，然而事实并非如此。这表明空间相关性本质上是时间异质性的。此外，空间相关性还需要考虑空间异质性，典型交通网络中的不同节点甚至不具有相同的局部拓扑。因此，考虑到时空异质性似乎是空间建模的一个自然的改进方向。

Fig.2 时空异质性图解。A和B是两个地铁站。

在时间建模方面，现有的方法主要分为三类:基于RNN的方法[21,23,28,27,30]、基于cnns的方法[20,22,25]和基于注意力的方法[34,24,26]。rnn[35,13]最早被提出用于自然语言处理，试图同时记忆长、短期信息。然而，由于[36]的梯度消失问题，RNN很难捕获长期依赖[37]。此外，rnn的顺序性使得其在训练时不可能被并行化。同时，基于CNNs的方法通过在时间维度上使用一维卷积[38]实现并行化。然而，受限于内核大小，一维卷积无法捕获长期依赖关系。尽管当足够多的一维卷积层堆叠在[39]时，任何时间点对最终都会被关联起来，但这种关联会被稀释，无法有效利用。相比之下，基于注意力的方法通过关注每个时间位置来有效地学习长期依赖，并且可以很容易地并行化。

就像空间建模一样，时空异质性可以被用来提高时间建模的性能。考虑图2中对 $(e, b)$ 和 $(f, d)$ ，分别具有相同的时间跨度(1小时)和相同的值。因为 $(e, b)$ 取自高峰时段，它们的相关性应该强于 $(f, d)$ 。这种差异将被时空同质的方法所忽略。

沿着这条路线，一些作品[29,24,30,26]考虑了时空异质性。但他们要么在序列层次上考虑异质性[29,30,26]，要么通过时空嵌入和输入（特征）的直接串联[24]或求和[29,26]引入异质性。前者无法合并全局时间信息，而后者混淆了两种不同类型数据之间的关系。

本文提出了一个元图转换器(Meta Graph Transformer, MGT)框架来解决流量预测问题。管理行为在时间和空间维度上充分利用了注意机制。因此，它享有所有关注的好处，如动态关联、高效的长期建模和容易并行。此外，我们设计了一个元学习过程（因此被称为元图转换器），将从外部时间和空间属性中学习到的元知识整合到注意层中，从而使我们的模型能够执行时空异质性感知（STHA）注意。此外，我们的空间注意层集成了多个图，从而考虑了各种类型的空间相关性。我们的模型的贡献总结如下:

本研究开发了一个框架，将元学习整合到注意机制中，以捕捉交通预测任务中的时空异质性。
将外部的空间和时间属性融合到空间-时间嵌入(spatial - temporal Embeddings, STEs)中，在此指导下设计了三种类型的注意层，在时间和空间维度上执行 STHA 操作.
创建了一个多图版本的空间注意，以更好地捕捉不同类型的空间依赖关系。
在三个交通数据集上进行了大量实验，以评估我们提出的模型。结果表明，我们的模型明显优于最先进的方法。

2. Related Work

2.1. Spatial–Temporal Traffic Prediction

交通预测是ITS[40]中的经典任务，近年来已经取得了很大的进展[41-55]。早期的工作主要集中在统计方法上，如自回归综合移动平均方法[1,2]、卡尔曼滤波[3]、向量自回归模型[4]等。虽然这些模型有复杂的数学理论支持，但不切实际的假设，如线性和平稳性，限制了它们在交通预测中的表现。基于机器学习的支持向量回归[5]、随机森林[6]和k-最近邻模型[7]等方法克服了这些局限性。这些模型能够对更复杂的依赖关系进行建模，并受益于大规模数据。但是手工进行特征工程的需要使它们成为劳动密集型和耗时的。

深度学习 [56]通过自动提取网络中的表示，绕过了复杂的特征手工制作过程。受卷积神经网络(Convolutional Neural Networks, CNNs)在图像任务上的巨大成功[8-11]的启发，交通社区的研究人员将感兴趣区域划分为2D或3D细胞[14-18]，并将其视为具有卷积的图像。例如ST-ResNet[14]利用基于cnn的残差神经网络来预测全市的人群流动。STDN [17]通过本地CNN和LSTM预测区域交通状态。ST-3DNet[18]引入3D卷积，自动捕获交通数据在空间和时间维度上的相关性。

由于交通网络自然是图结构的，许多研究人员考虑直接在图上建模交通数据。这些模型统称为STGNNs [19]。沿空间和时间维度的建模可以分别进行[20,22-26]或同时进行[21,27-30]。对于后者，一种常见的做法是用图卷积代替RNN网络中的矩阵乘法[21,27,28,30]，另一种方法是直接在局部时空图[29]上进行卷积。

在空间建模方面，许多文献[21,20]采用了静态图上的局部图卷积[31,32]，该静态图是由真实交通网络构建的。然而，由于其他交通关系，空间依赖可能是非本地的，如出发地-目的地相关性和功能相似性。为了解决这个问题，

Graph WaveNet[22]和AGCRN[30]都通过节点嵌入学习了一个隐藏的空间依赖。
PVCGN[27]构造一个物理图和两个基于领域知识的虚拟图来进行图卷积。
Multi-STGCnet[23]设计了三个空间矩阵来提取目标站的空间相关性，将目标站的空间相关性分为近邻居、中邻居和远邻居。

上述方法的共同点是，在测试阶段，每个图上的边权值都是固定的。但实际上，节点之间的空间关系可能会随着时间的推移而改变。为了进一步提高空间建模的适应性，许多研究利用关注机制[12]根据输入动态分配边缘权值。

ASTGCN【34】使用空间注意机制【57】捕捉动态空间相关性。
MRA-BGCN[28]利用多范围注意机制，有效地利用多个范围信息，生成集成表示。
LSGCN[25]提出了一种基于门控机制的图关注网络cosat，用于捕获空间信息。
GMAN[24]和ASTGNN[26]采用scale - dot - product attention机制对空间相关性进行建模。

关于时间建模，现有的方法主要分为三类:基于RNN的方法、基于CNNs的方法和基于注意力的方法。
基于rnn的方法[21,23,28,27,30]通常利用长短期记忆 (LSTM)[35]或门控循环单元(GRU)[13]作为时间建模的基本块。一些研究[21,28,27,30]通过特定的空间卷积来修改RNN中的矩阵乘法，以同时捕获空间和时间相关性。虽然rnn被提出用于建模长序列，但由于梯度消失问题[36]，它们在捕获长期依赖[37]方面实际上效率很低，而且它们的序列性质使得训练过程中不可能实现并行化。
相比之下，基于cnns的方法[20,22,25]很容易并行化。STGCN[20]和LSGCN[25]使用一维卷积[38]进行时间特征学习。Graph WaveNet[22]通过叠加多个扩张的1D卷积[39]指数级放大接收野。然而，长期的相关性将被如此稀释，以有效地利用。
基于注意力的方法[34,24,26]以并行的方式参与每个时间位置，这使它们能够胜任长期建模。

一些研究[29,24,30,26]考虑了时空异质性。通常，

STSGCN[29]具有针对不同时间段的多个内置模块，以捕获本地化的时空图中的异构性。

AGCRN[30]在传统GCN的基础上增加了节点自适应参数学习模块。

GMAN[24]在进行缩放点积方法之前将时空嵌入与特征连接起来。>

ASTGNN[26]在输入中加入了时间嵌入和空间嵌入来引入异构性。

对于STSGCN、AGCRN和ASTGNN，考虑的异质性是相对于输入序列的，因此与内在的时间属性无关。此外，通过直接求和29,26将外部时空属性与输入(特征)融合似乎是不合理的，因为它们本质上是两种不同类型的数据。

2.2. Attention Mechanism

注意机制[12,58]最早被提出用于神经语言建模。它使查询能够自适应地参与和聚合值集合。在算法上，分配给每个值的权重是由查询的兼容函数和与该值相关的相应键计算出来的。近年来，注意力机制为许多任务带来了很大的改进，如自然语言处理[59]，图像字幕[60]，语音识别[61]和多元时间序列分析[62]。在交通领域，注意力机制在交通数据动力学建模中也显示出了其有效性。近期工作包括ASTGCN[34]、MRA-BGCN[28]、LSGCN[25]、GMAN[24]、ASTGNN[26]。

当查询queries, 键 keys 和值values 相同时，注意力就变成了自我关注。相对于RNN和CNN，自注意作为一种序列表示学习方法，具有全局的接受域，通过并行化可以有效地执行。这些特性赋予了它强大的长序列建模能力。此外，通过使用多头注意[58]，它能够学习不同表示子空间中的相关性，使得建模更加灵活。

3. Preliminaries

3.1. Problem Formulation

在本节中，我们介绍了一些定义，并建立了交通预测问题。
Definition 1 (Traffic Network) :交通网络是一个有向图 $\mathcal{G}=(V,E,A)$ ,其中 $V=\{v_1,v_2,\cdots,v_N\}$ 是 $N$ 个节点的集合表示交通系统中的点(例如，道路传感器、路段、十字路口、地铁站)， $E$ 是一个有向边的集合，其中 $v_i,v_j)$ 表示从 $v_j$ 指向 $v_i$ 的有向边， $A$ 表示邻接矩阵：
$A(i,j)=\begin{cases}1,& if (v_i,v_j) \in E\\0, & else \ otherwise\end{cases} for\quad i,j=1,\cdots,N \tag{1}$

Definition 2 (Traffic States) : 节点 $i$ 在时刻 $t$ 的交通状态用 $\mathcal{X}_t^i \in R^C$ ,其中 $C$ 表示featrues的number.所有节点的在时刻 $t$ 的状态用 $\mathcal{X}_t=[\mathcal{X}_t^1,\cdots,\mathcal{X}_t^N] \in R^{N\times C}$ .

Definition 3 (Temporal Attributes): 每个时间间隔 $t$ 附加几个时间属性，如一天中的时间、一周中的哪一天和休息日指示器。假设有 $M$ 个可用的时态属性。时间间隔t的第 $m$ 个属性记为 $T_t^m=\{1,2,\cdots,N_m\}$ ,其中， $N_m$ 表示可能的状态。

Definition 4 (Multiple Graphs): 基于特定的领域知识(距离、相似度等)，可以构建多个图来解释节点之间的不同关系(详见4.3.1节)。这些图被表示为 $\{\mathcal{G}_b=(V,E_b,W_b)_{b=1}^B\}$ ,其中 $E_b$ 表示为边集， $W_b$ 表示为 $\mathcal{G}_b$ 的权重矩阵， $B$ 表示graph的可能的数量。所有的图共享节点集合 $V$ .

Proof. 给定过去P时间间隔内的历史交通状态
$\mathcal{X}=[\mathcal{X}_{t-P},\mathcal{X}_{t-P+1},\cdots,\mathcal{X}_{t-1}]\in R^{P\times N \times C} \tag{2}$
在过去的 $P$ 和下一个 $H$ 时间间隔的时间属性
$\mathcal{T}=[\mathcal{T}^m_{t-P},\mathcal{T}^m_{t-P+1},\cdots,\mathcal{T}^m_{t+H-1}]\in R^{P+H} \ m=1,2,\cdots,M\tag{3}$
以及多个预构建的图形 $\{\mathcal{G}_b=(V,E_b,W_b)_{b=1}^B\}$
我们的目标是预测未来H时间间隔内的交通状态
$\mathcal{Y}=[\mathcal{X}_{t},\mathcal{X}_{t+1},\cdots,\mathcal{X}_{t+N-1}]\in R^{H\times N \times C} \tag{4}$

3.2. Multi-Head Attention

在本节中，我们简要回顾了注意机制的概念，并引入多头注意作为理解我们方法的前提知识。

注意机制[12]可以看作是一个将查询 query 和键值对集合a collection of key-value pairs映射到输出的函数，其中查询、键和值都是向量。输出是由这些值的加权和计算出来的。分配给每个值的权重是通过一个兼容性函数计算的，其变量是查询和相应的键。

本文采用“缩放点积注意”（Scaled Dot Product Attention）[58]，通过矩阵乘法对所有查询并行执行操作。具体而言，给定查询、维度 $d_k$ 的键和维度 $d_v$ 的值，attention由以产生：

❓公式为什么是这个样子啊
❓查询？键？值？又分别具有什么含义呢

为了使模型能够共同出席不同的表示子空间( representation subspaces), 目前比较流行的方法是采用多头注意。让我们用 $d_{model}$ 来表示模型的feature size。。Given the original queries $Q\in R^{n_1\times d_{model}}$ ,keys $K\in R^{n_2\times d_{model}}$ , and values $V\in R^{n_2\times d_{model}}$ ,多头注意力被计算为：

4. Meta Graph Transformer

Fig.3 (a)MGT体系结构。MGT采用编码器-解码器架构。编码器和解码器都使用跳跃连接堆叠多个子层。利用TSA、SSA和TEDA三种类型的注意层学习空间和时间相关性。所有注意层都使用STEs来执行STHA操作。SSA利用TMs进行稀疏空间注意。采用自回归方法对未来交通状态进行增量预测。(b)特定时空点 $(i, t)$ 的STE。STE由TE和SE熔合而成。TE是从时间属性(temporal attributes) $\{\mathcal{T}_t^m\}_{m=1}^M$ 和序列位置 $t$ 学习到的。SE是从交通网络的拉普拉斯特征映射学习到的。(c ) 图 $\mathcal{G}_b$ 的TM。首先在权重矩阵中加入自环，然后行归一化，计算出 $\mathcal{G}_b$ 的TM。

4.1. Overall Pipeline

该模型的主要思想是在外部时空属性的引导下，通过构建时空异质性感知(spatial - temporal heterogeneous - aware, STHA)注意层来学习复杂的时空相关性。MGT的整体架构如图3(a)所示。提出的模型具有编码器-解码器架构。
编码器和解码器 都堆叠多个相同的子层。为了提高深度神经网络的学习效率，每一个子层的输出都是跳接的，并加入到最后一个子层的输出中。在子层中，三种类型的注意层被用来学习空间和时间相关性。它们被称为时间自我注意(TSA)、空间自我注意(SSA)和时间编码器-解码器注意(TEDA)。编码器和解码器都利用TSA和SSA分别对时间和空间依赖性进行建模。解码器使用TEDAs来允许解码器中的每个位置在时间上响应输入序列中的所有位置。所有的注意层都具有多头结构，并利用从外部时空属性学习到的时空嵌入(spatial - temporal Embeddings, STs)进行STHA 操作。此外，开发 SSAs 是为了利用多个图，或者等价地利用它们的转移矩阵(TMs)，以捕获各种类型的空间相关性。为了避免解码器中的任何时间位置参与到它前面的位置，一个掩码被解码器中的所有 TSA 使用。一般情况下，MGT 模型的流程描述如下:

encoder的输入是历史交通数据的状态traffic state $\mathcal{X}\in R^{P\times N \times C}$ .encoder使用一个带Relu函数(激活函数)的线性变换将输入映射为 $\mathcal{X}^{(0)} \in R^{P\times N \times d_{model}}$ .其中 $d_{model}$ 使我们mdoel的feature size.

线性变换+ReLU

$\mathcal{X}^{(0)}$ 被喂入 $l_n$ 个相同的encorder layers且使用skip 链接.设第 $l$ 层的encorder layer的输出为 $\mathcal{X}^{(l)}$ ,最终的encoder的输出output为 $\mathcal{X}_{en}=\sum_{l=1}^{ln} \mathcal{X}^{(l)} ,\in R^{P\times N\times d_{model}}$

..第l个..

Xln

X-encoder

给定 $\mathcal{X}_{en}$ , decoder以自回归(autoregressive)的方式预测未来交通状态。特别的，decoder 接受 $\mathcal{X}_{t-1}$ 真实值和之间预测的值(例如， $\hat{\mathcal{X}}_t,\cdots,\hat{\mathcal{X}}_{t+T-2}$ 预测值)共同作为输入。与encoder类似，decoder输入经过带有ReLU的线性变换得到具有featrue size的映射结果 (例如， $[\mathcal{X}_{t-1},\hat{\mathcal{X}}_t,\cdots,\hat{\mathcal{X}}_{t+T-2}]\in R^{T\times N\times C}\to R^{T\times N\times d_{model}}$ )。然后喂入 $l_{de}$ 个decorder layers 使用skip 链接。最后，利用线性变换将特征大小映射回C，并保留最后一个时间位置的输出作为下一个时间区间 $\hat{X}_{ t+T-1}\in R^{N\times C}$ 的预测。
步骤3重复H次，逐步生成所有期望的未来交通状态(图4)。

Fig.4 MGT的自回归预测示例。

4.2. Spatial–Temporal Embeddings

对于特殊时空点 $(i, t)$ ,其中 $i$ 代表节点， $t$ 代表特定的时间点。一个时空嵌入(spatial–
temporal embedding) $c^i_t \in R^d_{model}$ 被构造为将该点的外部空间和时间属性编码为固定长度的向量。图3(b)说明了STE的构造。

4.2.1. Temporal Embeddings

应该注意的是，除了所有时间属性 $\{T^m_t\}_{m=1}^M$ 附加在时间间隔t上，还有另一个动态属性——相对于输入的时间位置 $p o s$ 需要考虑。具体地，时间间隔t的 时间嵌入(TE) 按如下方式构建.

每一个 $T^m_t$ 采用独热方法编码为长度为 $N_m$ 的向量。
然后，用总共 $M$ 个可学习矩阵将这些向量线性变换为长度为 $d_{model}$ 向量

这两个步骤相当于将每个时间属性嵌入到一个长度为 $d_{model}$ 向量中。
对于时间位置 $p o s$ ,其位置编码 $PE_{pos}$ 是一个长度为 $d_{model}$ 的向量。它的第 $i$ 个坐标( $0\leq i \leq d_{model}$ )被给定为：

然后根据时间属性和时间位置计算出 $d_{model}$ 维向量，并结合可学习参数进行线性变换，生成时间间隔为 $t$ 的最终时间嵌入 $U_t \in R^d_{model}$ 。

4.2.2. Spatial Embeddings

受[63]著作的启发，图结构信息graph structure information通过一种称为特征映射的经典图嵌入技术graph embedding technique called Eigenmaps被编码到我们的空间嵌入(SE)中[64]。为满足要求，将邻接矩阵 $A$ 对称定义为 $A_s=\max(A,A^T)$ 且所得到的无向图假定是连通的。然后，特征映射算法可以通过以下方式进行。

首先计算归一化的拉普拉斯矩阵 $L=I-D_s^{-1/2}A_sD_s^{-1/2}$ ，其中 $D_s$ 是度矩阵， $I$ 是段位矩阵。
拉普拉斯可以分解为 $\Lambda U^T$ ,其中 $\Lambda =\{\lambda_0,\cdots,\lambda_{N-1}\}$ , $U=(U_0,U_1,\cdots,U_{N-1})$ 是矩阵的特征向量。
节点 $v_i$ 的 $k (k < N)$ 维嵌入被构建为 $\hat{Z}_i=[U_1(i),U_2(i),\cdots,U_k(i)]\in R^k$ 。在计算特征映射后，进行可学习的线性变换来生成最终的空间嵌入 $Z_i \in R^d_{model}$

4.2.3. Spatial–Temporal Embeddings

点 $(i, t)$ 的时空嵌入 $C^i_t$ 可以很容易地从 $Z_i$ 和 $U_t$ 的串联，然后是一个线性层构建。

4.3. Transition Matrices

根据后面要指定的规则，多重加权图 $\{\mathcal{G}_b=(V,E_b,W_b)\}_{b=1}^{B}$ 可以构造来捕获节点之间的各种类型的关系。下面，我们首先介绍三种常见图的构造，然后给出基于这些图的转移矩阵的计算。

4.3.1. Construction of Multiple Graphs

交通网络本身可以看作是一个简单的加权图，其中所有边的权值都为1。这样的图称为连通性图。给定距离信息，可以修改图的边权值，以反映节点之间的真实接近程度。 $v_j$ 到 $v_i$ 的基于距离的权重的一般定义为:

除了物理连通性外，功能相似性也是空间相关性探索的关键因素。虽然有些节点在现实中可能并不相连，甚至相距遥远，但在一个交通网络中(商业中心、居民区等)可能具有相同的功能，从而符合相似的交通模式。表示 $X^i_{hist}\in R^{P'C}$ 为节点 $v_i$ 的历史流量状态( $P^{'}$ 为训练集中的总时间间隔数)，定义 $v_i$ 与 $v_j$ 的相似度为:

通过选择相似度大于给定阈值的边，可以构造基于相似度的权值矩阵 $W_{sim}$ 。

另一个有用的图是基于一些交通流数据集提供的源-目的地(OD)信息。典型情况下， $v_ j$ 到 $v_i$ 基于OD的相关性可以定义为:

其中 $c o u n t (i, j)$ 表示从 $v_j$ 到 $v_i$ 的实体(车辆或人员)的总数。最终的基于OD值的权值矩阵 $W_{od}$ 是通过选择大于阈值的边来构建的，或者通过保留每个节点的top-k出近邻来构建的。

4.3.2. Transition Matrices

给定一个加权图 $\mathcal{G}_b=(V,E_b,W_b)$ ,对应的转移矩阵 $S_b\in R^{N\times N}$ 应该被下面的方式计算。

$W_b$ 的对角元素被设置为1.
然后利用行归一化，计算出转移矩阵如下

4.4. Encoder

编码器通过跳跃连接将输入投影层和Len相同的编码器层堆叠起来。每个编码器层由三个组件组成，即TSA、SSA和一个前馈网络( FFN )。TSA 和 SSA 都是多头结构。它们分别负责学习时间和空间相关性。FFN 执行位置转换。在第4.2节描述的 STE 的指导下，TSA 和 SSA 能够执行 STHA 注意操作，使学习过程更适应特定的时空条件。同时，通过利用多个图，或4.3节中描述的等价的 TMs, SSA 能够从不同的角度捕捉空间相关性。这三个部分按顺序连接起来，协同学习时空表征。

4.4.1. Temporal Self-Attention

当查询queries、键key和值value为相同的向量序列，即 $Q = K = V$ 时，3.2节中的多头注意就变成了多头自我注意。在多头自我注意直接应用于第 $(l - 1)$ 层 $H^{l-1} \in R^{P\times N\times d_{model}}$ 的输出似乎是合理的。这相当于计算：

事实上，从式(7)可以看出，所有时间位置的参数也是共享的。这种共享机制忽略了交通状态动态随时间和地点变化较大的现象。

针对上述时间多头自注意的缺点，提出了一种STEs-guided TSA with multi-head。“‘STEs-guided”的主要思想是用相应的STEs的函数(或元知识)取代共享参数，从而将查询queries、键key和值value的学习与特定的时空条件联系起来。通过这种方式，TSA 能够进行 STHA 自我注意操作。更具体地说，为每个头部创建一个隐藏层的多层感知器:

网络生成了3个映射矩阵projection matices将 $H^{l-1}_{t,i} \in R^d_{model}$ 分别转换为query,key and value的向量，在此基础上进行时间自我注意。此外，利用残差连接[9]和层归一化[65]使深度网络能够更好地学习。
编码器的TSA详细信息见算法1。

4.4.2. Spatial Self-Attention

与TSA相似，STEs-guided SSA with multi-head和multi-graph 被设计用于空间特征学习。使用“多重图”的直觉是，与其关注所有空间位置，不如关注那些通过领域知识更可能与中心节点相关的节点，这样更有效、更合理。因此，我们利用多个图 $\{\mathcal{G}_b=(V,E_b,W_b)\}_{b=1}^{B}$ 或等效的TMs ${S_b\}_{b=1}^B$ 来捕捉不同类型的节点之间的关系，进行稀疏的自我注意。

更具体地说，对于每个图 $G_b$ ，一个节点 $v_i$ 将会参与它的入邻居集合 $\{v_j| j\in N^b_i\}$ $N_h$ 次，得到 $v_i$ 的总 $BN_h$ 个向量，然后通过拼接和线性变换融合这些向量。此外，通过元素乘法，由转移矩阵中的动态注意系数和静态值共同确定分配给相邻节点的权值，从而充分利用领域知识。此外，为了保证 STHA 操作，在注意力参数的生成中利用了 STEs 。与TSA一样，这里也采用了剩余连接和层归一化。

编码器的SSA的详细信息显示在Algorithm2中。

4.4.3. Feed Forward Network

前馈网络( FNN ，图3(a))是一个位置变换层。每个时空点的参数是共享的。给定任意位置的特征向量 $X\in R^d_{model}$ ，FFN 的表达式为:

4.5. Decoder

解码器将输出投影层output projection layer、具有跳接连接的 $L_{de}$ 相同解码器层和用于预测的线性层堆叠起来。每个解码器层由四个组件组成，即 TSA with Mask、SSA、TEDA 和 FFN 。SSA 和 FFN 的结构与编码器中的结构相同，而 TSA 的行为通过Mask来修改，以防止任何位置参与未来的时间步长。TEDA 作为连接编码器输出和每个解码器层的桥梁，能够从历史数据中进行自适应特征学习。需要注意的是，STEs 可以被TSA with Mask 和SSA 在解码器中使用，它为 $\{C^i_{t-1+s}|s\in \{0,\cdots,T-1\},i \in \{1,\cdots,N\}\}$ ,其中 $T$ 表示解码器输入的时间间隔数。

4.5.1. TSA with Mask

带Mask的 TSA 工作原理与第4.4.1节中描述的TSA基本相同。唯一的区别是，一个Mask会在缩放的点积之后添加，目的是防止任何位置在时间上出现在它之前的位置❓。

Mask 设计成 $T\times T$ 矩阵,对角线上的元素取 $-\infty$ ，其他的取0。那么算法1中的第12行修改为:

4.5.2. Temporal Encoder-Decoder Attention

创建 TEDA 用于解码器沿着时间维度自适应地参与编码特征。在这种情况下，查询queries来自解码器，而键key和值value来自编码器。通过与算法1相同的方法，可以根据编码器的输出 $X_{en}\in R^{P\times N \times d_{model}}$ 计算出多头的键和值。keys为 $\{K^h_{t-r,i}|r\in \{1,\cdots,P\},i\in \{1,\cdots,N\},h\in \{1,\cdots,N_h\} \}$ ,Values为 $\{V^h_{t-r,i}|r\in \{1,\cdots,P\},i\in \{1,\cdots,N\},h\in \{1,\cdots,N_h\} \}$ 。这些键和值随后被解码器中的每个TEDA用来执行STEs-guided temporal attention 操作。 TEDA 的具体情况见算法3。

5. Experiments

在本节中，MGT框架和12个基线方法在三个交通数据集上实现:两个地铁人群流数据集和一个公路交通流数据集。此外，还分析了模型中关键部件和超参数的影响。

5.1. Datasets

为了验证本文提出的方法，在HZMetro、SHMetro和PEMS08三个大型交通数据集上进行了综合实验。统计信息汇总在表1中

HZMetro[27]:该数据集来自中国杭州地铁系统。日期从2019年1月1日到2019年1月25日，我们关注的是5:30-23:30这段时间。人群流量(包括流入和流出)以15分钟的时间间隔进行聚集，一天总共有73个时间间隔。此外，我们还根据周末和节假日信息为每一天创建休息日指标。运行中的车站数量为80个。基于[27]提供的连通图和相关图，结合流量数据，采用4.3.1节中相似性阈值设置为0.1的方法，可以构建三种图。
SHMetro [27]:该数据集建立于中国上海地铁系统，其日期涵盖2016年7月1日至2016年9月30日三个月。车站的数量是288个。与HZMetro一样，考虑了5:30-23:30这段时间，人流的时间间隔为15分钟。还为每一天创建了休息日指标，并使用与HZMetro相同的方法构建了三种类型的图表。
PEMS08[34,29]:这是一个公路交通流数据集，收集自Caltrans (California Department of Transportation)的PeMS (Performance Measurement System)[66]。时间为2016年7月1日至2016年8月31日。将流量数据汇总到5分钟，每天有288个时间间隔。传感器的数量是170个。采用4.3.1节的方法构造基于距离的连通图和相似图，其中相似阈值设置为0.1。

5.2. Experimental Settings

在实验中，我们的目标是在给定过去一小时的交通状况的前提下，预测下一小时的交通状况。三个数据集的训练集、验证集和测试集的划分比例如表2所示。输入的特征大小为2用于HZMetro, SHMetro和1用于PEMS08。均值和标准差从训练集计算出来，用于对输入数据进行归一化。在时间属性上，城市数据集考虑了时间和休息日指标，因为城市流量受通勤影响较大，而公路数据集考虑了时间和星期。使用可用的图为所有数据集预先计算了转移矩阵，HZMetro、SHMetro的矩阵数量为3,PEMS08的矩阵数量为2。特征映射是基于k维为8的交通网络计算的。

在训练阶段，将一小时的历史数据输入编码器，以经过时间偏移的真实数据作为解码器输入，同时预测下一小时的所有状态。在测试阶段，预测是自回归的，即预测的输出将用于下一步的预测。为了衡量每种方法的性能，采用了三个指标:平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Square Error, RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)。假设 $Y=(Y_1,Y_2,\cdots,Y_{N_s})^T$ 表示真实值， $\hat{Y}=(\hat{Y}_1,\hat{Y}_2,\cdots,\hat{Y}_{N_s})^T$ 表示预测值，其中 $N_s$ 测试样本数量，指标定义如下:

模型特征尺寸 $d_{model}$ 和元学习器的隐藏尺寸 $d_{mt}$ 都设为16。在所有的注意力层中，head的次数是4。编码器和解码器分别采用6层编码器和6层解码器。为了更好的训练，在剩余连接之前，在SSA中加入概率为0.3的dropout层[67]。我们使用PyTorch[68]框架来实现我们的模型。批量大小为2，损失函数选择MAE。采用Adam[69]优化方法进行训练，初始学习率为0.001，权重衰减为0.0002。模型训练100个epoch, 50和80个epoch后学习率以0.1的比率衰减。

5.3. Baseline Methods

为了全面评估我们提出的方法的性能，我们的实验中考虑了12个基线方法。这些方法大致可以分为三类:统计模型、机器学习方法和神经网络方法。这些方法的详细情况如下:

历史平均(HA):这是一种简单的季节性平均方法。周期设置为7天，使用p个周期进行预测。HZMetro的p值为2,SHMetro和PEMS08的p值为4。例如，通过平均过去的周五的相同时间间隔的数据，可以预测特定周五的7:00-7:15时间间隔的数据。
支持向量回归(Support Vector Regression, SVR)[70]:该模型是支持向量分类(Support Vector Classification)用于解决回归问题的扩展。它通过最小化一个 $\epsilon-insensitive$ 损失函数和一个2范数正则化项来学习核的特征空间中的线性回归模型。每个位置都共享预测模型。Scikit-learn用于实现这种方法，我们使用径向基函数(RBF)核且设置 $\epsilon$ 为0.1。
随机森林(Random Forest, RF) [71]:回归随机森林是一种元估计器，拟合多个决策树回归器，并使用平均来提高预测精度，同时控制过拟合。每个位置都共享预测模型。Scikit-learn被用来实现这个模型。我们使用整个数据集来构建每棵树，森林中的树数设置为10。
向量自回归(VAR)[72]:向量自回归模型是一元自回归模型对多元时间序列数据的扩展。它允许多个时间序列之间的交互。statmodels被用来实现这个模型。
前馈神经网络(FNN):采用一个隐藏层的多层感知器进行预测。该网络接收整个过去一小时内所有地点的交通数据，并预测下一小时的交通状况。隐藏大小设置为256。FNN的实现使用了PyTorch。
FCGRU (Fully Connected门控递归单元) :该模型采用Sequence-to-Sequence[73]架构，采用两层GRU[13]层作为递归模块。每个时间步的输入是一个NC维向量，即它包含了所有位置的特征。每一层GRU的隐藏大小为256。FCGRU的实现使用了PyTorch。
扩散卷积递归神经网络(Diffusion Convolutional Recurrent Neural Network, DCRNN)[21]:该模型通过将空间相关性建模为双向图随机漫步，提出了一种图卷积运算，即扩散卷积，并将Seq2Seq框架中的矩阵乘法替换为所提出的图卷积，同时捕获时空相关性。该模型是基于其代码实现的。
Graph WaveNet (GWN)[22]:该Graph Wave-Net利用堆叠的扩张一维卷积组件来有效地学习时间相关性，并通过可学习的节点嵌入开发自适应依赖矩阵来捕获数据中隐藏的空间依赖性。我们基于它的代码实现这个模型。
Physical-Virtual Collaboration Graph Network(PVCGN)[27]:该模型将物理图和虚拟图合并到图卷积门控循环单元(GC-GRU)中学习时空表示，同时应用全连接门控循环单元(FC-GRU)捕捉全局演化趋势。这个模型是基于它的代码实现的。
Attention based Spatial–Temporal Graph Neural Network(ASTGNN) [26]:该模型在时间维度和空间维度上都采用了自我注意机制。在时间维度上，它通过将查询和键的投影操作替换为一维卷积来考虑本地上下文信息。在空间维度上，开发了具有自注意的动态图卷积模块。我们基于它的代码实现这个模型。
Adaptive Graph Convolutional Recurrent Network(AGCRN) [30]: AGCRN在传统GCN的基础上增加了节点自适应参数学习和数据自适应图生成模块，分别学习节点特有的模式和从数据中发现空间相关性。这个模型是基于它的代码实现的。
Long Short-term Graph Convolutional Networks(Long -term Graph Convolutional Networks, LSGCN) [25]:该模型以门控的方式集成了一种新的图关注网络cosat和GCN来获取空间特征，并采用门控的线性单元来获取时间特征。由于LSGCN的源代码是不公开的，我们根据其文章实现了该方法。

5.4. Experimental Results and Analysis

不同方法在三个流量数据集上的性能如表3所示。指标是所有时间步骤的平均值。可以看到，我们的模型在所有情况下都优于所有基线方法。在HZMetro上，MGT的RMSE、MAE、MAPE分别提高了3.23%、1.70%、1.23%，居次优。类似的改进也可以在SHMetro和PEMS08上看到，其中改善率分别为4.20%、3.58%、3.92%和0.43%、6.38%、2.09%。

图5给出了不同方法在所有数据集上的多步预测结果。为清晰起见，不显示HZMetro和SHMetro上的HA、SVR、RF、VAR 和 LSGCN 的结果，以及PEMS08上的HA的结果。与其他方法相比，MGT在所有时刻步骤中都表现出良好的性能。此外，随着时间的推移，MGT 的优势越来越明显，说明MGT具有长期预测的能力。

HA 依赖于流量数据的周周期。因此，HA的性能在很大程度上取决于数据集符合这种周期性的强度。此外，特殊事件，如假期也会影响结果。因此，HA的预测质量随数据集的不同而不同。但总的来说，结果远远不能令人满意。

与HA相比，SVR 和 RF 考虑了近期的流量数据，构建了更加复杂的模型。然而，SVR和RF对所有位置的建模都是模糊的，没有考虑空间相关性。一方面，节点之间的差异被忽略。另一方面，来自其他节点的有用信息没有得到充分利用。因此，当上述两个因素严重影响预测过程时，例如在HZMetro和SHMetro数据集中，SVR和RF就变得无能。

VAR 通过对多个时间序列构建向量自回归模型来考虑节点之间的相关性。因此，它在空间建模上比SVR和RF有一些优势，HZMetro和SHMetro可以看出这一点。但是VAR所假设的线性依赖在很大程度上限制了它在交通预测任务中的表现。

与上述方法相比，表3中基于神经网络的方法总体上表现出更好的性能。其原因在于神经网络复杂的函数形式和强大的特征提取能力。然而，网络的结构会影响特征学习的效率。

FNN 采用一层隐层的全连接结构，能够隐式学习复杂的时空相关性。在HZMetro上，模糊神经网络方法比非神经网络方法具有明显的优势。然而，模糊神经网络的有效性受到其完全忽略时间和空间结构的阻碍。在SHMetro和PEMS08上，FNN未能取得霸权，因为它努力应对更大的空间尺度和时间范围。

FCGRU 利用RNN获取时间相关性。与FNN相比，FCGRU在所有数据集上的结果都有所改善。但对空间结构的忽视限制了其整体性能。此外，由于其[58]的顺序性质，RNN在关联时间距离位置方面效率很低。DCRNN、 PVGCN 和 AGCRN 也存在这样的问题，它们都采用了RNN架构。GWN 和 LSGCN 使用一维卷积来缓解这个问题，但仍然需要叠加多层来进行长期学习。

DCRNN 利用图卷积进行空间特征提取。在SHMetro和PEMS08上，与图不可知方法相比，RMSE得分显著提高。但是一个图表似乎不足以捕捉交通网络的各种空间相关性。为了弥补这一缺陷，GWN和AGCRN都开发了一个自适应依赖矩阵来捕获隐藏的空间依赖性，而PVCGN利用多个图来考虑节点之间的不同关系。然而，在测试过程中，预构建或学习的图形仍然是静态的，这在空间相关性可能会随着时间变化的交通领域是不合适的。

STGNN 在时间和空间维度上都采用了注意机制，从而实现了训练示例中的动态相关性和并行化。然而，在ASTGNN中合并空间和时间异质性的方法相当简单——直接在输入中添加相应的位置嵌入。这种添加混淆了位置信息和交通状态的本质。此外，在不考虑全局时间属性的情况下，其时间异质性仅限于序列级别。此外，ASTGNN在一个图上执行空间注意操作，这使得它在提取空间距离依赖关系方面效率低下。

AGCRN 通过引入节点自适应参数学习模块，考虑了空间异质性。然而，特定节点的转换和学习到的空间依赖都是静态的。LSGCN通过空间门控块捕获全局和动态空间相关性。但在空间学习过程中，时间异质性仍未被考虑。此外，由于LSGCN是为一步预测而训练的，因此可能无法很好地学习时间上的依赖性。在我们的实验中，LSGCN的效率低于其他基于gnn的方法。

在上述方法中，ASTGNN的思想最接近我们提出的模型。然而，与ASTGNN不同的是，MGT通过元学习向注意层注入相关信息来引导注意机制的行为，从而考虑到空间和时间异质性。这样，MGT在保存参数的同时，可以对不同的时空点进行不同的注意操作。此外，不仅局部时间位置，还将全局时间属性集成到我们的 STEs 中，使我们的模型能够感知内在的时间异质性。此外，MGT 利用多个图来学习各种类型的空间相关性，从而充分利用领域知识。实验结果验证了该模型的优越性。

5.5. Comparison on rush hours

为了验证MGT的鲁棒性，表4和图6报告了高峰时段的结果。港珠澳地铁、上海地铁的高峰时段为早高峰07:00-09:00，晚高峰17:00-19:00。对于PEMS08，考虑06:00 - 24:00的流量。

从表4中可以看出，在高峰时段，我们的模型在所有情况下都比所有基线保持优势。在HZMetro上，MGT的RMSE、MAE、MAPE分别提高了2.29%、3.24%、3.73%，居次优。SHMetro和PEMS08的改善率分别为1.58%、3.81%、3.88%和0.22%、6.44%、0.32%。

图6显示了高峰时段所有数据集上不同方法的多步预测结果。与图5类似，为清晰起见，HZMetro和SHMetro上的 HA、SVR、RF、VAR 和 LSGCN 结果以及PEMS08上的 HA结果均未显示。从图中我们可以看到，MGT 在所有时间步长上通常优于其他基线，这表明了我们模型的稳健性。

5.6. Ablation Study

为了分析我们模型中不同成分的影响，消融研究在所有三个数据集上实施。

5.6.1. Analysis in view of Temporal and Spatial Message Passing

为了研究从时间和空间维度传递的消息的贡献，我们设计了三种模型变体:

MGT- noTSA:去除MGT中所有的TSA(带或不带掩膜)层，以研究时间自我注意的贡献。
MGT- noSSA:去除MGT中所有SSA层，研究空间自我注意的贡献
MGT-noMG:我们将SSA使用的图的数量减少到1个，即只使用基本连通性图。目的是证明使用多个图是合理的。

上述模型采用与 MGT 相同的设置，只是研究的组件不同。表5显示了不同变体模型下一个小时的平均得分，并将其与MGT进行比较。多步性能如图7所示。

从表5和图7可以看出，MGT- noTSA的表现不如 MGT，这表明了时间自我注意层在我们的模型中的帮助。在MGT-noSSA中也可以看到类似的分数下降，这表明来自其他位置的交通状态对于推断当前位置至关重要。与MGT-noSSA相比，MGT-noMG考虑了空间学习的图结构，从而提高了预测精度。此外，通过考虑多个图形，MGT进一步提高了预测精度。这种现象表明多个图在捕捉各种类型的空间相关性方面是有用的。

5.6.2. Analysis in view of Temporal and Spatial Heterogeneity

为了研究时空异质性对交通预测的影响，我们的模型考虑了四种变量:

MGT- noSTE: MGT中每一个由ste引导的注意都被传统的多头注意所取代(公式6)，从而评估考虑时空异质性的效果.
MGT-noTE:STEs被SEs取代，以验证考虑时间异质性的必要性。
MGT-noSE:将STEs替换为TEs，验证考虑空间异质性的必要性。
MGT- noMeta:与MGT- noSTE类似，MGT中的每一个由STEs-guided attention 都被传统的多头注意所取代。不同之处在于，STEs 是直接加入到输入中，以考察进行 STHA 注意操作的效果。

上述模型采用与MGT相同的设置，只是研究的组件不同。表6显示了所有不同模型下一个小时的平均得分，并将其与MGT进行比较。多步性能如图8所示。

MGT-noSTE的结果是我们变种中最糟糕的。通过考虑空间嵌入，MGT-noTE提高了预测精度，验证了交通数据存在空间异质性。类似的改进可以在MGT-noSE中看到，它将时间嵌入到每个注意层，表明在交通预测中考虑时间异质性的重要性。MGT noMeta通过简单的输入求和来利用时空嵌入，从而赋予模型在一定程度上区分不同时空点的能力。因此，MGT-noMeta比MGT-noSTE取得了更好的分数。通过以元学习的方式利用时空嵌入，MGT取得了最好的效果。这充分证明了STHA注意力操作的力量。

5.6.3. Analysis of Transition Matrices

为了解释转移矩阵在我们的模型中的有效性，研究了所有可用转移矩阵的可能组合。表7报告了所有时间步骤的平均度量。多步预测对比如图9所示。

可以看到，不使用任何TMs的模型(对应于5.6.1节中的MGT-noSSA)的结果是最差的。随着TMs数量的增加，大多数情况下误差会减少。当所有可用的tm都被利用(对应于 MGT )时，模型通常会获得最佳性能。这种现象验证了多个图在空间相关性学习中的有用性和有效性。

5.7. Analysis of Hyperparameters

为了进一步研究超参数的影响，我们对HZMetro进行了一系列实验。研究了4个超参数，即模型的特征大小 $d_{model}$ 、元学习者的隐藏大小 $d_{mt}$ 、编码器(解码器)层数L(我们设 $L_{en}=L_{de}=L$ )和head的数目 $N_h$ 。除研究的超参数外，实验设置与第5.2节相同。结果如图10所示。从结果可以看出，我们的模型对超参数不敏感。

5.8. Model Size Comparison

表8列出了三个流量数据集上所有神经网络模型的模型规模(即参数个数)。作为一种考虑多图的方法，MGT的参数比PVCGN少得多。此外，MGT的大小并不随着节点数的增加而增加(HZMetro和SHMetro都是0.7 M)。此外，通过元学习，MGT能够实现STHA注意操作，同时保持经济的内存消耗。

5.9. Efficiency Study

研究了不同神经网络模型对三种交通数据集的推理效率。所有的实验都运行在相同的NVIDIA TITAN Xp GPU上。对于每个设置，我们报告推断测试样本所需的平均时间(秒)。表9总结了所有的运行时间。由表9可以看出，FNN 和 FCGRU 是最有效的模型，DCRNN、GWN、ASTGNN、AGCRN 和 LSGCN 在推断过程中花费的时间相对较多，PVGCN 花费的时间最多。MGT对HZMetro、SHMetro和PEMS08的推断时间分别为0.0129s、0.0254s和0.1819s。这意味着MGT可以在0.2秒内预测每个数据集在未来一小时内的所有位置的交通状态。总之，所有的模型都可以实时运行。为了进一步降低MGT的计算复杂度，可以考虑一种或多种模型压缩技术[74]，如参数修剪和共享、低秩分解和知识蒸馏。我们把这个留给以后研究。

6. Conclusion

在本文中，我们提出了一种新的用于时空交通预测的元图转换器框架。管理策略框架在时间维度和空间维度上均采用注意机制。对每个时空点，将外部属性嵌入为一个时空嵌入，然后由所有注意层利用外部属性进行时空异构感知注意操作。此外，利用多个图来进行稀疏的空间注意，使模型能够从不同的角度捕捉空间相关性。在三个大型交通数据集上的实验证明了该模型的优越性。

Fig5–>10

Fig.5 不同方法在HZMetro、SHMetro和PEMS08数据集上的多步预测比较.

Fig.6 不同方法在HZMetro、SHMetro和PEMS08数据集上的高峰时段多步预测比较

Fig.7 从时间和空间信息传递的角度对不同变量模型进行多步预测比较。

Fig.8 从时间和空间异质性的角度比较不同变量模型的多步预测。

Fig.9 不同转换矩阵选择的MGT变量模型的多步预测比较。

Fig.10 HZMetro超参数分析。研究的四个超参数分别是:模型的特征大小dmodel、元学习者的隐藏大小dmt、编码器(解码器)层数L和头部数Nh。第一列显示了未来一小时的平均指标，而其他三列说明了多步预测性能

注释区

你可能感兴趣的:(论文深析,transformer,深度学习,人工智能)

2023-01-16 紫色春天
中原焦点团队网络初级38期朱继红坚持分享第73天，坚持读书打卡73天，约练38次，观察员30次，来访者8次2023年1月16日今天约练遇到了2位咨深的咨询师，整个咨询过程自然、温暖、流畅，咨询师通过倾听、陪伴丶自然同理、应对问句等咨询技术，一直稳稳地陪伴着来访者，用好奇引导来访者自我察觉，发挥水引子的作用，通过总结、提练，让来访者象打开一个又一个水龙头一样，自然流露、畅所欲言，看到…看到即疗愈……
《孤岛晚爱》韩序姜早(孤岛晚爱小说)全文免费阅读已完结海边书楼
《孤岛晚爱》韩序姜早(孤岛晚爱小说)全文免费阅读已完结主角：韩序姜早简介：结婚半年，温冉宁和顾衍深的交流仅在夜里。白天，他是医院里高高在上的心外科教授；而她，是在科室实习底层的苦力。所以她拼了命努力，以为这样，他们之间的差距就会小一些。直到她遇险之时，她的丈夫毫不犹豫的选择了别的女人，她才知道，无论她多么努力，都捂不热顾衍深的心。温冉宁认清现实，决定不再做舔狗，拿出离婚协议：“顾老师，我们离婚吧！
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
交错并联Buck+LLC变换器的建模与控制优化研究
交错并联Buck+LLC变换器的建模与控制优化研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。摘要本文针对宽输入电压范围(200-450V)、多电压输出(12-48V)的高效DC-DC变换系统，提出了一种基于交错并联Buck预调节器和LLC谐振变换器的两级式拓扑结构。中间母线电压设定为200V，系统输出功率为1500W，要求电压和
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
前妻，离婚请放手许怀深秦澜小说免费阅读_免费小说完结版前妻，离婚请放手(许怀深秦澜) d036fb3b3d05
小说：《前妻，离婚请放手》主角：许怀深秦澜简介：秦澜白月光回国的那天，我一把火烧掉了我们的婚房。除了她给我生下的那对龙凤胎，我什么都没带走。当初她病入膏肓，急需肾源移植，我毅然将肾捐给了她。可她却觉得我为了和她结婚不择手段，拆散了她和白月光。如今我终于死心，假死离开。可她却在得知我死讯时彻底崩溃了。中秋节是阖家团圆的日子，更是孩子们的生日。孩子们求了秦澜许久，她才终于松口愿意回家一次。她随口一句想
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
一个关于深呼吸的有趣发现开心果Anna
天然氧吧今天想刻意练习深呼吸，我在心里对自己说“深呼吸，深呼吸”，但还是时常会忘记，不知不觉就忘记了。后来，我换了一种说法，我对自己说“空气很新鲜”，然后想象天然氧吧，想象空气清新的感觉，神奇的是听着“空气很新鲜”就让我不自觉得深吸了一口气，而且明显发现身体对这种深呼吸的感觉很舒畅。这不是被念头逼迫着深呼吸，而是主动想要深呼吸，想要多吸入新鲜空气。这给了我很大的启发。就这件简单的事，我们想让身体深
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
股票模拟交易训练日志(427) 黄鸿昊
目标:100万1.12883.1650000股2.93>2.962.9988203300股110>1143.11867.3630000股5.42>5.444.16680.75200000股0.64>0.625.3904.1297000股4.73>4.8剩下:26250今天港股开半天，但已买进两只股票。因为本身就持有相同的，但仍看之后的走势。现在还是集中精力在写毕业论文上，股票的话，希望也能更进一步
2023-01-24 all of me faithalex
Causeallofmelovesallofyou因為我全心全意愛著你Loveyourcurvesandallyouredges深愛著你身上稜稜角角Allyourperfectimperfections你的所有不完美對我來說是如此完美Giveyouralltome,I’llgivemyalltoyou把你的一切都交給我我也會把一切獻給你You’remyendandmybeginning我的生命因你
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
肖诚韩然(焚爱成空)全章节在线阅读_(焚爱成空)完结版免费阅读_焚爱成空(肖诚韩然)最新章节在线阅读_(焚爱成空)最新章节在线阅读_肖诚韩然(焚爱成空)全文免费在线阅读_焚爱成空完整版免费在线阅读笔趣阁官方小说
肖诚韩然(焚爱成空)全章节在线阅读_(焚爱成空)完结版免费阅读_焚爱成空(肖诚韩然)最新章节在线阅读_(焚爱成空)最新章节在线阅读_肖诚韩然(焚爱成空)全文免费在线阅读_焚爱成空完整版免费在线阅读主角配角：肖诚韩然简介：肖诚深吸了一口气，再抬眼已然恢复镇定：“抱歉，我带大家出了紧急任务，收到消息就赶过来了，路程有点远”指挥长看到得意门生低头认错，也不好再说什么，拍了拍肖诚的肩膀嘱咐道：“火势控制住
十日师胡言简语
见你前，我紧张得像个baby反复练习，我们见面的话语未到机场接你，表示深深地歉意敲门后的气息，变得凝重无比周围瞬间安静得没有丝毫声音心跳加速，深吸呼气可曾想当你开门后的第一句慈祥的笑容，热情的language一切的紧张都消逝而去十日为吾师所获仅我知此后虽分区时良习却当树植图片发自App
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
LiteCoT：难度感知的推理链压缩与高效蒸馏框架大千AI助手人工智能 #Prompt #OTHER 深度学习人工智能机器学习自然语言处理提示词 LiteCoT 思维链
“以智能裁剪对抗冗余，让推理效率与精度兼得”LiteCoT是由香港科技大学（广州）联合独立研究者团队提出的创新方法，旨在解决大模型知识蒸馏中推理链过度冗长和缺乏难度适应性的核心问题。该方法通过难度感知提示（DAP）动态生成精简的推理链，显著提升小模型推理效率与准确性。相关论文发表于arXiv预印本平台（2025年），为当前大模型轻量化部署的前沿方案。本文由「大千AI助手」原创发布，专注用真话讲AI
陈奕迅的《十年》里那两个字是什么？全小爱
陈奕迅的《十年》里有句歌词是"如果那两个字没有颤抖，我不会发现我难受”，在这句歌词中我一直不知道两个字到底是什么，那两个字究竟有多么大的魔力可以让人的感触那么深。图片发自App“你好"——故事的开始，总是羞涩中藏着爱情，暗恋的滋味像一杯茶，有些苦但是香气逼人，回味无穷，得不到的美好，铭记一生的遗憾，如果当初在勇敢一点儿结局会不会不一样呢？图片发自App"爱过”——之前看到一个问题“在我和你之间加两
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
婚姻的本质是什么？掌上猫
最近我看到一篇说婚姻的文章，深以为然。他说：恋爱的本质是一种“感情”交换，而婚姻的本质是一种“价值”交换。恋爱的时候，颜值、身材、魅力、风趣，甚至琴棋书画都是吸引对方的关键，但是到了婚姻里这些都会统统失灵，变得索然无味，因为婚姻里只有价值交换。他举了一个例子：某女孩从小就学习钢琴，每天下班去练习一个小时，谈恋爱的初期，男友对她这个技能非常欣赏。感情稳定后，她依旧保持下班去琴行练一小时琴的习惯，也因
华杉版资治通鉴【1945】李师道。2023-06-08 华杉2009
25、秋，七月二十二日，高崇文在玄武击破刘辟军一万人。七月三日，皇帝诏：“所有增援西川的部队，全部由高崇文指挥。”26、七月十一日，葬至德大圣大安孝皇帝李诵于丰陵，庙号顺宗。27、八月二日，封妃郭氏为贵妃。28、八月七日，立皇子李宁为邓王，李宽为澧王，李宥为遂王，李察为深王，李寰为洋王，李寮为绛王，李审为建王。29、李师道总掌军权，过了很久，朝廷的正式任命仍然没有下达。李师道与将佐们商议，有人建议
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
草原雄鹰诗社梁兆智老师的作品《组诗二首：五律：春雨后：隔离抒怀》文/梁兆智——山东诗人草原雄鹰诗社
春雨后文/梁兆智喜雨午时后，初晴草木新。鸟鸣穿碧树，夕照染彤云。花落意犹远，林幽春渐深。枝头留几朵，只待有缘人。隔离抒怀文/梁兆智花舞鸟鸣春，神州日月新。白衣驱疫疠，盛世聚民心。独在隔离处，同为防控人。枕戈凝斗志，朝暮盼捷音。
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt