3、图表示学习

目录

1、什么是图表示学习?

2、针对图表示学习的两个不同视角

3、基于图结构的表示学习

4、基于图特征的表示学习

5、深度图学习面临的挑战


1、什么是图表示学习?

        把图上的结点映射到固定维度的向量空间。

3、图表示学习_第1张图片         优势:可以将拓扑信息和结点本身特征结合。

        图表示学习的目的是:在向量空间上对图数据进行学习和推断。

2、针对图表示学习的两个不同视角

  •       (1)图论、数据挖掘角度:如何在学习到向量的表示中尽可能多的图拓扑结构的信息。——》基于图结构的表示学习
    •         (2)从机器学习,特征工程角度:如何通过有效利用图拓扑结构信息结合现有的特征向量得到新的特征。——》基于图特征的表示学习,即图神经网络

3、图表示学习_第2张图片

 

3、基于图结构的表示学习

        类似于降维,传统降维不能保留图中结点之间的拓扑信息。

        保留拓扑信息,即在拓扑域中邻近 <===> 在向量域邻近。定义邻近的方法:共同出现(邻居关系)、高阶邻近(n-hop邻居)、团体邻近(属于某一团体)。

        现有算法都是围绕定义“邻近”和求解“邻近”来展开的。代表性算法:

        (1)Deepwalk

其核心思想:

  • 使用定长的随机游走去采样图中结点的邻近关系;
  • 结点——》词语,随机游走序列——》句子;
  • 使用自然语言处理相关模型对随机游走序列进行表示学习。

        (2)Node2vec

        动机:简单的随机游走采样不够好(不能体现BFS/DFS性质)

        核心思想:等概率跳—》人工设计概率来跳

        (3)struc2vec

        动机:保留局部结构一致性

        核心思想:在原来的图上构建一个新图

        (4)metapath2vec

        动机:异构图上存在不同类型的结点,这些结点不能等同看待,其间关系可能存在一些固定模式。

        核心思想:使用预定义的meta-path进行random walk。

4、基于图特征的表示学习

        机器学习领域:更加关注如何利用图的拓扑结构生成新的结点特征。所有深度学习问题,都可以归纳为表示学习的问题。

        (1)图卷积神经网络GCN

  • 核心思想:将在欧式空间的CNN拓展到拓扑空间——》图卷积
  • 输入:邻接矩阵(节点数×节点数),特征矩阵(节点数×输入特征数)
  • 输出:新的特征矩阵(节点数×输出特征数)
  • 多层网络可以叠加
  • 节点层面:节点自身特征和其邻域特征的聚合
  • GCN的推导思路:在图的拓扑空间近似在谱空间中的图滤波的操作,减少可学习参数
  • 从另一个角度理解GCN:对邻居节点特征的(带权重的)聚合

        (2)GraphSAGE:对聚合和邻居节点进行拓展

  • 聚合:Mean Pooling/Max Pooling/LSTMetc
  • 邻居节点:fixed-length sample,——》加速GCN计算
  • 缺点:并没有解决GCN在大图上的可拓展问题

        (3)GAT:对权重进行拓展

  • GCN中使用的邻接矩阵权重是提前给定的
  • 图注意力网络引入自注意力机制,利用当前节点的特征以及其邻居节点的特征来计算邻居节点的重要性,把该重要性作为新的邻接矩阵进行卷积计算
  • 优势:利用节点特征的相似性更能反映邻接信息
  • 缺点:权重的计算增加计算开销,无法用于大图

5、深度图学习面临的挑战

        (1)如何将图神经网络做到更大的图上(如何做大)

回顾GCN:

        1)从公式看,邻接矩阵用到所有节点,难以处理超大图——》对所有邻居节点进行聚合并不高效。解决方法:采样,采用一部分点/边来进行运算。

        代表工作:

        A.FastGCN

  • 把图节点特征看做由一个隐含概率分布产生,利用该分布对每一层的所有节点整体采样,避免了采样点个数的指数增加
  • 采样的目标是尽量减少采样的方差——》基于节点degree的采样
  • 缺点:没有考虑层间点和点的关系。

        B.ASGCN:解决FastGCN采样方式不合理:在图极大而采样比例极少的时候,层间连接会急剧减少。拓展:加入残差连接。

        (2)如何有效训练更复杂的图神经网络模型(如何做深)

        不能做深的原因:

  • 过拟合:参数数量过多造成泛化性能降低。
  • 过平滑:多层的邻居聚合造成的特征均化。

        过平滑定义:经过L层特征聚合后特征收敛到一个和输入特征无关的子空间M的现象。解决方法:DropEdge,在每个epach训练前,随机丢弃一定比例的边。

        Dropout可以和Dropedge可以同时用。

截至到2020年,最新的图神经网络架构:

3、图表示学习_第3张图片

 

你可能感兴趣的:(图神经网络,学习,机器学习,数据挖掘)