关于GNN、GCN、GraphSAGE(3)--GraphSage

GraphSAGE & PinSAGE

这里有两种图采样算法。

在实际问题中,一张图可能节点非常多,因此没有办法一次性的把整张图送入计算机资源,所以我们使用一种有效的采样算法,从全图G中采样出一个子图g,进行训练。

在进行采样之前,我们至少应该保证采样后的子图是连通的。

GraphSAGE(SAmple$aggreGatE)

主要分为两步:采样、聚合

采样的阶段:首先选择一个点,然后随机选取这个点的一阶邻居,再以这些邻居为起点随机选择它们的一阶邻居。以下图为例,我们要预测0号节点,因此首先随机选择0号节点的一阶邻居2、4、5;然后随机选择2号节点的一阶邻居8、9;4号节点的一阶邻居11、12;5号节点的一阶邻居13、15

关于GNN、GCN、GraphSAGE(3)--GraphSage_第1张图片

聚合的阶段:具体来说就是直接将子图从全图中抽离出来,从最边缘的节点开始,一层一层的向里更新节点。

关于GNN、GCN、GraphSAGE(3)--GraphSage_第2张图片

GraphSAGE的优点:1.极大减少训练计算量 2.允许泛化到新连接关系

关于GNN、GCN、GraphSAGE(3)--GraphSage_第3张图片

PinSAGE

采样时只能选取真实的邻居节点吗?PinSAGE算法如果构建的是一个与虚拟邻居相连的子图有什么优点?PinSAGE算法将会给我们解答。

PinSAGE算法通过多次随机游走,按游走经过的频率选取邻居,例如下面以0号节点作为起始,随即进行了四次游走、

关于GNN、GCN、GraphSAGE(3)--GraphSage_第4张图片

 其中5、10、11三个节点出现的频率最高,因此我们将这三个节点与0号节点相连,作为0号节点的虚拟邻居。

关于GNN、GCN、GraphSAGE(3)--GraphSage_第5张图片

回顾上述问题,采样时选取虚拟邻居有什么好处?可以快速获取远距离邻居的信息。实际上如果按照GraphSAGE算法的方式生成子图,在聚合过程中,非一阶邻居的信息可以通过消息传递逐渐传到中心,但是随着距离的增大,离中心越远的节点,其信息在传递过程中就越困难,甚至可能无法传递到;如果按照PinSAGE算法的方式生成子图,有一定概率可以将非一阶邻居与中心直接相连,这样就可以快速聚合到多阶邻居的信息。 

你可能感兴趣的:(机器学习)