图分类研究综述
王兆慧, 沈华伟, 曹婍, 程学旗. 图分类研究综述. 软件学报, 2022, 33(1): 171–192.
http://www.jos.org.cn/1000-9825/6323.htm
图分类问题:给定一组图, 图分类的目标是学习图和对应类别标签的映射关系, 并预测未知图的类别标签。
作者把基于图核的方法和基于图匹配的方法,都归类为基于图相似度的计算。
(1)基于图核的图分类
核方法是一类把低维空间下非线性可分问题转化为高维空间下线性可分问题的方法。
(2)基于图匹配的图分类
图匹配是一种图相似度度量的方法. 图匹配包括精确图匹配和非精确图匹配 , 精确图匹配需要图之间节点的映射关系, 应用于图同构, 子图同构, 最大公共子图的判别等问题中. 非精确图匹配多数可以形式化为图编辑距离 GED (graph edit distance) 的计算。
欧氏空间数据:结构规则性、平移不变性
非欧空间数据:节点个数不同、邻居数不同、连接方式不同
给定一组图,基于图神经网络的图分类方法通常先通过卷积的方式对这些图进行多次特征变换, 然后在此基础上进行池化操作, 将图的规模缩小。这个过程可以重复多次, 最终得到整个图的表示, 从而进行分类。
(1)卷积
图卷积操作主要是为了对图进行特征变换和特征提取. 在这个过程中需要尽可能多地利用图中节点特征和拓扑信息。一种是信息传递 (massage-passing) 式的卷积, 即直接在原始图结构中定义由邻居聚合和迭代更新机制所组成的卷积算子,比如GCN和GAT。另一种是传统卷积神经网络 (CNN) 式的卷积, 先将非欧图转化为规则网格结构, 再应用传统卷积神经网络直接进行卷积操作。
第二种卷积的前提假设是图中存在着隐式的空间顺序,所以节点按照顺序可以生成邻居图。针对每个节点结构不一致的问题,主要是用节点排序和节点选择的方式来解决:选择指定个数,或者以自我为中心的卷积网络 Ego-CNN等。
(2)池化
公开数据集
(1) COLLAB是一个科学合作数据集, 包括从高能物理, 凝聚态物理, 和天文物理 3 个领域中生成的不同研究人员的自我中心网络图 (Ego-network), 对应的标签是研究人员所属的研究领域. 分类的任务是判断这些自我中心网络图对应研究人员的研究领域.
(2) REDDIT-BINARY 数据集中包含 2000 个 Reddit 网站上用户的社交互动图, 每个图表示一个在线讨论线程, 节点表示用户, 如果两个用户之间有过消息回应, 则他们对应的节点之间有边相连. 这些互动图包括基于问题-答案互动图和讨论互动图 2 类, 图分类的任务就是判断给定社交图是来自基于问答的社区还是基于讨论的社区. 另外, REDDIT-MULTI-5K, REDDIT-MULTI-12K 均是该数据集的更大的变体, 包含更多的来自不同社区的互动图, 任务也是将互动图分类到对应社区.
(3) IMDB-BINARY[是一个电影合作数据集, 数据来自于互联网电影数据库 (IMDB). 每个图中节点表示演员, 如果两个演员出现在同一部电影中, 则他们对应的节点之间会有一条边. 这些合作图均来自动作和浪漫这 2 种类型, 在合作图中为每个演员衍生出自我中心网络图, 图分类的任务就是判断给定的自我中心网络图属于动作类型还是浪漫类型. 另外 IMDB-MULTI 是该数据集的多类型版本, 任务也是将演员子网络图分类到对应的电影类型.
自然语言处理
论文中只提了单词共现这一种方式,但现在大家已经尝试了很多种方式,而且构图方式对图神经网络的性能影响也很大。
构图:
这里的边不局限于单词和单词之间,也可以是篇章、实体、单词不同粒度间的。
竟然都这么久没写阅读笔记了。。