http://www.lifesequence.co/krylov_subspace_arnoldi_iterate/ Krylov子空间
https://blog.csdn.net/qq_39521554/article/details/79913323 Krylov子空间方法
1.Lanczos algorithm
Lanczos算法是一种将对称矩阵通过正交相似变换变成对称 三对角矩阵的算法。
对称三对角矩阵类似于下式:
2.方法大致思路
模型的容量:是指其拟合各种函数的能力。容量低的模型很难拟合训练集,容量高的模型容易过拟合。通过处理特征课改变模型容量,例如假设真实数据符合三次分布,那么用二次函数很难拟合(容量低),加入三次项后效果提高,若用九次项拟合(容量过高)会发生过拟合。
LanczosNet 的优点:
图的傅里叶变换
基于邻接矩阵 ,计算 图拉普拉斯矩阵有三种形式:
由于定义(3)是实对称的、正半定的(PSD: positive semi-definite ),特征值位于[0,2],所以在GSP( graph signal processing (GSP) approaches)研究中经常使用定义(3)。
我们定义 图的傅里叶变换 为 ,逆变换 ,拉普拉斯矩阵的(3)与亲和力矩阵 共享相同的特征值 即 。
局部多项式滤波器
, 是滤波器系数,即 可以学习的参数。 主要的应用是 切尔雪夫多项式滤波。
本文中:
使用亲和力矩阵 ,局部多项式滤波器的形式:
输入亲和力矩阵 和 节点特征 ,经过 N步 Lanczos algorithm 计算出 正交矩阵 ()和 一个对称的三对角矩阵 ,即: 。 组成了Krylov子空间 的正交基。
Localized Polynomial Filter 输入是 ,输出是 。Lanczos algorithm 得到 (Krylov 子空间的正交基)和 三对角矩阵 。图卷积可以表示为:
(3)
Spectral Filter 理想情况:计算Lanczos 向量,只计算一次。为此,选择一个带有单位范数的随机初始向量,并将K阶Lanczos层输出作为低秩近似 。 有标准正交列并且不依赖于节点特征 。用下面的理论证明来限制近似误差。
分解三对角矩阵 , 中包含Ritz值, 是一个正交矩阵。亲和力矩阵 的低秩近似, ,然后上述卷积公式重写为:
(4)
(3)和(4)的区别是 前者使用了正交基,后者使用了 的直接基的近似(这里有点不好理解哇!!)。由于我们明确地对谱的近似进行运算,即, Ritz值,它是一个谱滤波器。由于S的t次幂可以近似为,在考虑长的范围/尺度依赖关系时,这种滤波形式将具有显著的计算优势,我们只需要提高R的对角项的t次幂。
Learning the Spectral Filter
设计可以学习的谱滤波器。使用K个不同的谱滤波器,第k步的输出:, 是一个多层感知器, 是相应的度矩阵的度向量。 是基于 的输出向量的度矩阵。因此,我们有如下的滤波:
注意,它将多项式滤波器作为特殊情况包含在内,当考虑到半正定时,可以对mlp的输出应用类似ReLU的激活函数。
Multi-scale Graph Convolution 以可学习的谱滤波器为例,我们可以用一种紧凑的方式写出一个图卷积层,如下所示
堆叠多层图卷积层,并且每一层都有自己的谱滤波权重,可以在层之间加非线性的激活函数。即如算法2。带着顶层表示,可以使用softmax实现分类或全连接层实现回归。Lanczos算法在构建网络时,每个图预先运行一次,在推理和学习过程中不会被调用。
补充资料:
Graph kernel是一种有效的图结构相似度的近似度量方式
首先Graph kennel 是一种kernel method
实际上 kernel method 在图结构中的研究主要有两类:一是Graph embedding 算法,将图(Graph)结构嵌入到向量空间;另一类就是Graph kernel算法。
第一类得到图结构的向量化表示,然后直接应用基于向量的核函数(RBF kernel, Sigmoid kernel, etc.) 处理,但是这类方法将结构化数据降维到向量空间损失了大量结构化信息。而Graph kernel 直接面向图结构数据,既保留了核函数计算高效的优点,又包含了图数据在希尔伯特高维空间的结构化信息。
针对不同的图结构(labeled graphs, weighted graphs, directed graphs, etc.) 有不同的Graph kernel
作者:一个安静的胖子
链接:https://www.zhihu.com/question/57269332/answer/157375170
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Graph Kernel 节点特征 和 图 ,我们想要学习一个图核函数,它可以捕获节点表示的固有几何形状。我们定义一个各向异性图核,,数据点:
在实际中,注意到 有助于对两两距离进行归一化,从而避免了指数函数引起的梯度消失问题。这种可学习的各向异性扩散在两个方面是有用的。首先,它增加了模型容量,从而可能获得更好的性能。其次,它能较好地适应流形上数据点的非均匀密度或流行上底层数据点的非线性测量。构建邻接矩阵 A ,否则 ,然后可以得到亲和力矩阵 。
Node Embedding 在一些应用中,我们不观测节点特征,而是观测图本身,所以我们需要学习每个节点的嵌入向量。我们仍然可以使用上面的图核构造亲和矩阵,除了 被丢弃外,亲和矩阵的形式是相同的。学习嵌入 就等于学习节点之间的相似性。
Tridiagonal Decomposition 虽然LanczosNet中的所有操作都是可微的,但我们从经验上观察到,通过三对角矩阵的特征分解进行反向传播在数值上是不稳定的。 如果多个特征值在数值上接近,或者一个特征值在式(6)中取很大的幂,情况会更糟。解决: 直接利用通过运行Lanczos算法K步得到的近似三对角分解 .则图卷积层带着可以学习的滤波器表示如下:
(8)
使用上面的参数化图的拉普拉斯算子和三对角分解,我们可以反向传播损失通过兰索斯算法去图形内核参数θ或节点嵌入x。整体模型类似于LanczosNet除了兰索斯算法需要为每个推理通过调用。
主要讲LanczosNet 和 基于流行排序算法的图——扩散图之间的关系
什么是扩散图呢??
在扩散图中,邻接矩阵中的权值定义了图上的离散随机游走,其中马尔可夫转移矩阵显示了在一个时间步长内的转移概率。 :从节点i开始到节点j结束的所有长度为t的路径的概率之和。我们使用特征值和P的右特征值向量 定义扩散图 为:
(9)
Connection to Graph Convolution 除了使用扩散图嵌入不同时间尺度的节点特性X外,还可以使用它计算X的频率表示形式如下
(10)
定量输出称为回归,或者说是连续变量预测;
举例:预测明天的气温是多少度,这是一个回归任务;
如表1
如表2
在本文中,我们提出了利用Lanczos算法构造图拉普拉斯矩阵的低秩近似的LanczosNet。它不仅为图卷积提供了一种有效的多尺度信息采集方法,而且使学习频谱滤波器成为可能。此外,我们还提出了一个模型变体AdaLanczosNet,该模型简化了图形内核和节点嵌入学习。结果表明,该模型与基于图的流形学习,特别是扩散图有着密切的关系。实验结果表明,该模型在具有挑战性的图问题上优于其他图网络。我们目前正在探索三对角矩阵的自定义特征分解方法,这将进一步改进我们的AdaLanczosNet。总的来说,在这个方向上的工作有望使深度学习扩展到非常大的图形问题。