论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering

Graph Filter-based Multi-view Attributed Graph Clustering:基于图过滤器的多视图属性图聚类

目录结构:

  • 摘要
  • 相关研究
  • 使用方法
    • 优化策略
    • 时间复杂度
    • 锚定点选择策略
  • 实验
  • 结论

摘要

摘要:图聚类现有的方法有两个主要的缺点:1)大多数方法不能同时探索属性和图结构的信息;2)大多数方法无法处理包含不同特征和图形集的多视图数据;
本文提出有效的多视图属性图聚类方法:1)首先,不需要学习神经网络参数的情况下,对特征进行图滤波以获得平滑的表示;2)其次,设计了一种新的策略来选择几个锚定点,降低计算复杂度;3)开到一种新的正则化器来探索高阶领域信息;

相关研究

简介:图聚类作为无监督学习的一个分支,旨在将图节点划分为几个不相交的组,每一个组都属于一个类;现实世界中的数据往往比较复杂,包括节点属性和顶点之间的结构关系;为了利用结构和特征中的丰富信息,采用了图嵌入框架,提出一种联合聚类技术,开发了一种关系主题方法来解决这个问题;然而,他们主要关注稀疏的原始图,不能有效利用底层信息,而且这些方法无法处理多视图数据;
大多数图形数据通常是多模态和多关系的,也就是节点由多个特征矩阵组成,每个节点通过多种类型的关系与其他节点进行交互;
现有的多视图学习方法大致分为两类:1)将多个图集融合成一致性图,然后采用单视图算法;2)另外一种方法通过图嵌入技术学习稀疏和紧凑的表示,再运用经典的方法;但是,这些方法主要集中在一类信息上,忽略了另外的信息;
受到成功的图神经网络的启发,有两种方法专门用于多视图聚类任务:1)One2Multi采用最大模块化策略选择信息量最大的图形视图,然后将聚类技术应用于该视图的嵌入;2)MAGCN倾向于处理由两组特征和一个图形组成的数据;因此以上两种方法只能在多个图形或两个视图特征数据数据上进行评估,处理由多组特征和图形组成的数据仍然不轻易;
为了解决上述问题,我们提出了一种新的多视图属性图数据聚类方法;首先使用图过滤而非深度神经网络来获得良好的特征表示;2)其次,设计了一种节点抽样策略,利用节点的重要性构造锚矩阵,在此基础上学习较小的图进行聚类;3)设计了一个正则化器来灵活的探索隐藏在原始图中的高阶信息;
论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering_第1张图片

使用方法

首先在单视图场景中讨论,现实世界的信号通常是平滑的GNNs的成功主要归功于低通滤波的效果;因此,经典信号处理中的图形滤波是表示学习的另一种方式;通过训练d维数据点视为d图信号,k阶图滤波器可以用于数据矩阵X,如下:
在这里插入图片描述
其中k是一个非负整数,结果X表示光滑的表示,集群假设附近的节点更可能位于同一集群中,则X将促进后续的集群任务;
没有直接将X应用于光谱聚类,而是利用数据的自表达特性,即每个数据点都可以表示为其他数据点的线性组合,组合系数评估任意两点之间的相似性以学习相似图;减轻了手工制作的相似性度量引入的偏差,数学建模为:
在这里插入图片描述
其中α>0是一个折衷参数,Z表示相似矩阵;第一项测量重建误差,第二项是一个正则化项,以避免琐碎的解决方式;公式(2)的缺点是无法显式封装原始拓扑图;
在本文中,我们设计一种新的正则化器,进一步探索矩阵A的结构信息,A只刻画一阶领域信息,需要提取不同阶信息;例如,两个节点之间的两步随机游走描述了他们之间的二阶关系,公共邻居的数量决定了概率值;同样从一个节点到另外一个节点的P步随机游走具有P阶邻近性的特征,如下所示:
在这里插入图片描述
通过添加不同阶的邻域信息来定义f(A),即f(A)=A+A2+…+AP,P的阶数将在实验室中讨论,合理假设,最优Z相似矩阵可能是f(A)的一个小偏移;那么公式(2)进一步描述为:
在这里插入图片描述
基于Z可以应用于光谱聚类来获得最终的聚类结果,然而O(n3)的复杂度和内存使用阻碍了大规模部署;
为了解决上述挑战,没有使用全部样本在公式(4)中去重建X,我们只选择m个具有代表性的样本,即在图中具有重要作用的节点,其属性构成B=[b1,…,bm],换句话说,B是X的子集;相应的,我们学习一个较小的相似图S∈Rmn,表示n个节点和m个锚之间复杂的结构关系;根据锚的索引,可以从f(A)中提取节点和锚之间复杂的结构关系,用C∈Rmn表示,因此我们的单视图属性图聚类模型变成:
在这里插入图片描述
对于多视图数据,所有视图共享一样的相似矩阵S,以允许使用唯一的簇模式;然而,不同的视图有不同的贡献;因此,引入一种加权机制来解决这个问题,最终提出的多视图属性图聚类(MvAGC)模型公式如下:
论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering_第2张图片
其中λv是第v个视图的权重参数,w<0是平滑参数,Bv表示第v个视图的锚定,Cv从发f(Av)中提取;

优化策略

等式(6)中的变量是耦合的,因此我们采用交替优化策略来解决;
1) 固定λv,更新S
当λv固定时,将公式(6)的一阶导师设为零,会得到:
论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering_第3张图片
2) 固定S,更新λv
令||XVt-BvS||2 F+α||S-Cv||2 F=jv,当S固定时,我们的目标函数变成:
论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering_第4张图片
通过将λv的一阶导数设置为零,可以很容易地得到λv的解,如下所示:
论文阅读笔记(3):Graph Filter-based Multi-view Attributed Graph Clustering_第5张图片
获得S后,构造相似图Z=STS,在此基础上我们可以计算拉普拉斯矩阵L并应用于谱聚类来获得特征向量矩阵W;然而,不能花费O(n^3)时间,必须使用不同的方法;

时间复杂度

时间复杂度与n成线性相关

锚定点选择策略

经典的锚选择策略主要采用了K均值或随机抽样,平等地对待每个节点,这与图形数据相矛盾;选择每个节点的概率如下:
在这里插入图片描述

实验

1) 数据集:
ACM、DBLP、IMDB由一个特征矩阵和多个图组成;亚马逊照片和亚马逊计算机由一个特征矩阵和一个图形组成;使用笛卡尔积构建第二个特征矩阵;
2) 使用装置
对比方法有:LINE和GAE两种经典的单视图图形处理方法、LING-avg和GAE-avg是对每个视图种学习到的节点表示进行平均、MNE和PMNE是多视图网络嵌入方法、RMSC是一种基于马尔科夫链的鲁棒多视图光谱聚类、PwMC和SWMC引入了加权机制来对多视图数据进行聚类、O2MAC和O2MA是基于图形自动编码器的属性化多视图图形聚类方法、MAGCN是一个多视图属性图卷积网络;
对比属性:准确度(ACC)、归一化互信息(NMI)、F1分数(F1)、调整后的兰德指数(ARI);
3) 聚类结果:
MvAGC优于现有的多视图方法,虽然其他方法考虑了所有的图形,但他们没有探索属性信息;相比之下,MvAGC同时利用了特征和图形结构信息;MvAGC在很大程度上击败了MAGCN。这可能是因为我们的方法采用自我表达来探索全局结构,并结合了二阶信息。

结论

提出了一种基于图过滤器的多视图属性图聚类模型,能够有效的对大规模多视图属性图数据进行聚类,方法采用经典的图过滤,以便于后续的图学习,并提取高阶邻域信息,学习的图形以智能的方式集成了属性和结构信息,经过实验对比,实现了最先进的性能,优于其他方法,包括最近的深度学习方法;

你可能感兴趣的:(多视图聚类,图滤波,多视图,拓扑学,聚类,python)