论文题目:TAMP-S2GCNets: Coupling Time-Aware Multipersistence Knowledge Representation with Spatio-Supra Graph Convolutional Networks for Time-Series Forecasting
我对论文题目的翻译:TAMP-S2GCNets:耦合时间感知的多参数持久性知识表示与空间超图卷积网络用于时间序列预测(大意应该是说把拓扑学上的一个概念Multipersistence与“空间超图卷积”结合用于预测时空序列数据)
论文作者:Yuzhou Chen;Ignacio Segovia-Dominguez;Baris Coskunuzer;Yulia R. Gel(第一作者居然是普林斯顿大学的,OMG是我这种水平能看懂的吗Orz)
论文链接:https://openreview.net/forum?id=wv6g8fWLX2q
代码链接:https://github.com/tamps2gcnets/TAMP_S2GCNets
这篇文章的理解需要很深厚的数学功底,特别是拓扑学方面的知识。我读下来感觉得有深厚的离散数学的相关知识才能把这篇文章写好,我研究生生涯的第一次组会就分享的这篇论文,我感觉我还没有理解透彻所以给人讲的时候也有好多那种似是而非,难以用语言形容的感觉,这绝对不是一个好的现象,分享的时候之间把听众干去做hs了,望各位看官不要太过信任我对这篇论文的解读,我也诚恳地希望各位能给我讲讲你们的理解。
这篇文章摘要首先提到了图神经网络已经被证明是一种强大的机制。然而大多数现有的GCN只具有静态架构,没有明确考虑到被编码后知识(这里的知识就是那些序列数据吧)的时间依赖性,并且在同时推断实体之间潜在的时间条件关系的能力比较薄弱。论文假设这种隐藏的时间条件数学可以被多参数持久性(multipersistence:我认为这里翻译为多参数持久性更为恰当)工具捕获,multipersistence是拓扑学中一种新兴机制,它允许我们沿着多个几何维度量化数据形态的动态性。
论文说,他们迈出了整合两个新兴研究方向的第一步,即时间感知深度学习和多参数持久性,提出了一个新的模型,时间感知多参数持久性空间-超图卷积网络。
在对高速公路交通流量、以太坊代币价格等的广泛实验表明TAMP-S2GCNets在多元时间序列预测任务中表现优于最先进的工具。
研究背景讲到多变量时间序列预测在社会的各方面都可以发挥作业。图卷积网络已经成为时间序列预测模型的常用方法。但GCN在同时推断实体之间的潜在时间关系的能力方面往往受到限制(例如时间序列内和时间序列之间的相关性或联合时间依赖关系)。英雌,没有明确解释关于复杂动态现象的编码知识的时间条件属性。
同时,最近关于将复杂数据的形状属性集成到深度学习模型的研究表明,使用持久性工具获得的拓扑表示可以为系统带来洞察力。增强图学习机制。因为时空序列数据表现出更丰富的结构,因此论文提出多持久性或者说多参数持久性机制,将单参数持久性的概念推广到沿多个几何维度识别数据形状的动态情况。
随后作者介绍了Multipersistence和Spatial-Temporal Graph Models and Forecasting的相关工作。
时间感知多重持久性欧拉特征曲面
第三章首先老生常谈了时空图的结构,这里,作者介绍了两种邻接矩阵的构建方法:
基于一个参数的持续同调(PH)沿单个几何维度识别复杂数据的形状。这里的persistent homology (PH)是拓扑数学上的一种概念,它的目的是选择一些合适的参数,不是以单个对象来研究一个 G t G_t Gt,而是以一个嵌套的子图序列: G 1 ⊆ G 2 . . . G m ⊆ G t G^1{\subseteq}G^2...G^m{\subseteq}G^t G1⊆G2...Gm⊆Gt来研究这些序列,这些子图是由不断变化的尺度参数得到的。通过某种滤波器,我们评估哪些结构模式(比如环或空腔)的出现和消失,记录其寿命。
所以,这个persistent homology到底是个什么东西?
(下面的解释参考了知乎大佬的回答)
就是说,假设有一个100×90的数据集,它有100列,90行。显然,在3维宇宙中,没法去描述数据的全貌。当然有很多方法能对数据进行降维。让我们能识别模式,而PH为我们提供了一个寻找不需要降维就能精要刻画数据全貌的方法。PH让我们把数据放在原始高维空间中,并告诉我们这个数据里有多少个群集,多少个环结构,通过PH可以发现这100列的某个子集里有一个周期性的表达模式。
单纯形是一个三角形到任意维度的泛化,比如2维单纯形是三角形,3维单纯形是四面体。单纯复形是由不同的单纯形“粘合”起来的。比如下图左边就是一个单纯形。
所以在数学上定义是:一个抽象的单纯形是任何一个有限的顶点集合。为了使技术过程更加高效和系统化,论文从每个子图构建一个单纯复形。从而得到,为了构造这种过滤器,可以采用过滤函数的方法过滤函数是可以选择的,可以用度、中心性或偏心度。可以定义在边集上。
那么讲到这儿,到底什么是(PD)持久图呢?在附录中,作者介绍到,所有提取的拓扑特征可以被总结为 R 2 R^2 R2上的多重集。 D k ( C ) = { ( b i , d i ) ∈ R 2 ∣ b i < d i } D_k(C)=\{(b_i,d_i){\in}R^2|b_i
右边这个例子可以帮助我们理解持续同调。我们计算连续改变的距离参数 ϵ : 0 → ∞ {\epsilon}:0\to{\infty} ϵ:0→∞。生成的一系列单纯复形集合的连通数,然后,我们可以看到哪些拓扑特征持续时间比其他长,就能说明它们是信号而不是噪声。
从 ϵ = 7.0 {\epsilon}=7.0 ϵ=7.0开始,我们得到一个复形:一个连接的组件、1维的圆环。减到 ϵ = 4.0 {\epsilon}=4.0 ϵ=4.0,我们仍然有一个连接的组件和一个1维圆环。当 ϵ = 3.0 {\epsilon}=3.0 ϵ=3.0时,它还是捕获了一个圆。当我们把 ϵ {\epsilon} ϵ减到2时,我们的圆就有了一个破口,我们只看到一个连接的组件。如果减到1.9,就有三个组件,而没有圆。所以看起来,圆,这个拓扑特征的生存时间最长了。
通过条形码和持续性图,我们可以可视化我们的发现(如右下图所示, H 0 、 H 1 、 H 2 H_0、H_1、H_2 H0、H1、H2指的是各维度的同调群和连通数情况),可以看见这个圆(这个拓扑特征)在大范围的 ϵ {\epsilon} ϵ中是持续存在的,因此它很可能是底层数据的真实特征而不是噪音。
然而,许多应用中的数据,特别是涉及时空建模的数据,可能自然的有多个参数索引,比如交通流量分析只(speed、occupy、flow)这种拓扑和集合特性的多维分析可以使用单参数泛化到多过滤情况来解决。他们提出了一个新的时间感知多参数持久性的总结,即欧拉-庞加莱曲面。
这个曲面的定义是:令 { G t } t = 1 T \{G_t\}^T_{t=1} {Gt}t=1T为一系列随时间变化的图,令 F = ( f , g ) F=(f,g) F=(f,g)为多元滤波函数。这个面的集合用 L = { ( α t , β t ) ∣ 1 ≤ i < m , 1 ≤ j ≤ n } L=\{({\alpha}_t,{\beta}_t)|1{\leq}i
就是说有点难理解,附录里给了一个例子来说明,在这张图上,红色数字代表节点的偏心率,而蓝色数字是节点的度数。然后这 E E E就是相应的欧拉-庞加莱曲面。这怎么得来的可以看这张图。
把这张图沿着两个几何维度(度数和偏心率)来生成单纯复形来生成单纯复形的连通体。当度=4时,偏心率=4时,图上有一个连通图,这个图是一个多边形支出去一支一点。所以它只有一个调群,然后这个调群只有一个连通图,所以 B 0 = 1 B_0=1 B0=1。当度=4,偏心率=3时,只有一个这样的连接的组件,所以 B 0 = 1 B_0=1 B0=1。当度=4时,偏心率=2时,有1个连接的组件,以此类推。 E i j E_{ij} Eij是Btti数的交替和(偶数下标减去奇数下标)。
随后,作者证明了为什么可以用这个欧拉-庞加莱曲面来体系多参数持久性下的拓扑特征。(很多数学推导,看不懂)
这个证明的结果表明,多参数持久性拓扑特征之间的距离控制了得到的欧拉-庞加莱曲面上距离。
随后,作者介绍了这个空间-超图卷积网络。
基于GCN的方法输入包含原始输入图 G t G_t Gt的邻接矩阵 A t A_t At和节点特征 X t X_t Xt
(吐槽:可以看到就是很多很多的很大的稀疏矩阵连起来,就很吃memory,大一点的数据集我一个RTX3090都跑不动。)
作者用交通流量、以太坊代币价格和Covid-19住院人数的数据训练了模型,其中交通流量预测中用PEMS数据集,提取了速度、占用率和流量特征,结果就很好。