[论文泛读]2021多篇GNN论文阅读

Diffusion Improves Graph Learning - NIPS 2019

假设T是原始的转移矩阵(或者说图卷积矩阵、信息传递矩阵),那么图扩散矩阵定义为:为了保证收敛性,加上约束,。这个转移矩阵可以自行定义:
如果我们令,,那么就得到了personalized pageRank图扩散矩阵。如果我们令,,那么就得到了文献《The heat kernel as the pagerank of a graph》提出的时间的heat kernel。如果我们令,,且对任意有,此时就得到了一个GCN。

  • 创新点:我想不通这篇paper有什么创新点。

SIGN: Scalable Inception Graph Neural Network

这篇文章提出的模型如下:
其中和是可学习参数,是激活函数。作者认为,在超大图场景下的计算可以用Spark之类的分布式框架比较方便地计算出来,作为数据预处理的一部分。通常定义,其中是常见的图卷积矩阵,。本文举了三个作为例子:GCN里的加self loop的对称标准化邻接矩阵,Personalized PageRank图卷积矩阵和traingle-induced邻接矩阵(这是啥?)

  • 创新点:这个模型可以概括之前很多图卷积和MLP可分离的GNN模型,例如SGC和APPNP等。作者认为,图卷积操作可以作为数据预处理的一部分,这样做能加速训练,易于部署。此外,模型能自行适应不同receptive field的信号,有点像JKNet这样吧。

Scalable and Adaptive Graph Neural Networks with Self-Label-Enhanced Training

简单来说,这篇文章提出的模型是在SIGN的基础上,对不同感受野的图卷积做attention,结合标签传播方法,提出了SAGN模型。

  • 模块1:SAGN
    假设是propagation矩阵,是初始图信号,进行阶传播: 然后对每一阶的平滑图信号用一个MLP编码器进行编码: 然后进行attention加权: 其中权重矩阵是对角attention矩阵,第个对角元素用attention方法计算,是可学习参数向量,表示内积: 最后使用一个带有残差连接的MLP编码器:
  • 模块2:SLE
    是一个多阶段标签传播的过程。s代表第s个阶段,标签矩阵左乘propagation矩阵的次幂,再经过一个label model : 怎么获得初始的呢?这个分阶段训练原文讲得很拗口,其实就是第s阶段的初始标签不仅包括训练集,还包括s-1阶段的soft prediction里最大概率超过一个阈值的所有节点,这个集合称为可信训练集。直白地来说,就是上一阶段预测的那么多个节点里面,那些能很大概率地归类为某一类的,也把他当作训练集。设是原始的训练集,是hard prediction,是soft prediction:
  • 最终模块:SAGN+SLE
    把上面两个模块加起来,第s阶段的soft prediction是: 损失函数是这样设计的:L_s=-\frac{1}{\left | L_s \right |}\left ( \sum_{i\in L_0}\sum_{c}Y_{i,c}log\left ( \widehat{Y}_{s,i,c} \right )+\sum_{j\in L_s\setminus L_0}\sum_{c}\widetilde{Y}_{s-1,j,c}log\left ( \widehat{Y}_{s,j,c} \right ) \right )
  • 创新点:receptive field方向上的attention,以及多阶段标签传播算是他的创新点吧。这是个刷榜的论文,参数量也很大。

Graph Attention Multi-Layer Perceptron - ICLR 2022在投

这篇文章和上一篇文章很像。也是个OGB刷榜的论文。

  • 模块1:特征传播 + 感受野注意力
    假设是propagation矩阵,是初始图信号,进行阶传播: 进行attention加权: 其中是对角矩阵,第个对角元素用attention方法计算: 其中是可学习的向量。这个参考向量怎么计算呢?文中给出了三种方法:
    1.Smoothing Attention: 用完全平滑掉的图信号做参考向量
    2.Recursive Attention:用上一阶的融合节点特征做参考
    3.JK Attention:用一个MLP去拟合参考向量
  • 模块2:残差网络 + 标签传播
  • 模块3:可信标签利用RLU
    和上面的SLE差不多,训练分为多个阶段。在第m-1个阶段,预测概率是: 参数控制了预测概率的soft和hard程度。第m阶段标签传播初始值和SLE差不多,设是训练集,是非训练集里的节点中,最大预测概率大于某个阈值的所有节点集合,称为可信集合:
  • 模块4:可信标签蒸馏
    我也不懂ditillation是什么,看公式就是个上一阶段和这一阶段的KL散度作为惩罚项:
  • 评价:我感觉和上一篇文章没什么区别

How Attentive are Graph Attention Networks - ICLR 2022在投

近年来有不少研究和实验都发现GAT在建模邻节点attention上存在的不足。这篇文章挺有趣的,作者定义了静态注意力和动态注意力:注意力本质就是一个query对多个keys的注意力分布。对于一组固定的keys,如果不同的query对这组keys进行attention,得到的attention分数相对不变(attention分数排名不变),那么这个attention函数就是静态的。显然,静态的attention的表征能力有限。作者证明了GAT的attention函数: 是静态的,因此表征能力有限。作者提出了GAT的一个改进: 并且证明了这个改进的attention函数是动态的attention。作者用了一个二分图查找问题作为实验,预测下图问号处的数字:

二分图

在实验中,attention分数可视化如下图所示:
注意力分数可视化

Connecting Graph Convolution and Graph PCA ICLR 2022在投

PCA算法的优化问题是:
Zhang & Zhao (2012)提出了Graph PCA: 这个问题的解是: 其中是的最大k个特征值对应的标准化的特征向量。这个玩意儿和PPNP模型很接近。基于此,作者提出了一个有监督形式的GPCA算法: 我们来看看这个的含义:如果节点和节点属于同一类别,那么,否则等于0。因此这一项旨在把同一类别的隐变量距离拉近,不同类别的隐变量的距离拉远。有监督GPCA的解和原始GPCA的解是一样的,替换一下拉普拉斯矩阵即可。
基于此,作者把GPCA叠多层,提出了GPCANET。这个模型首先用上述方法初始化权重矩阵,然后再进行端到端训练。除此之外,还可以用上面的方法给其它GNN做权重初始化。

  • 评价:这个模型是不是有点笨重?

你可能感兴趣的:([论文泛读]2021多篇GNN论文阅读)