论文阅读笔记(2):Multi-view attributed graph clustering

论文阅读笔记(2):Multi-view attributed graph clustering

本文主要记录在阅读《Multi-view attributed graph clustering》文献中的一些理解与翻译;
论文链接: https://www.researchgate.net/publication/353747180_Multi_view_Attributed_Graph_Clustering.

摘要

多视图图聚类是近年来研究的热点,目前的方法仍然局限于两个方面:
1、无法处理同时具有属性和图形的数据;2、许多先进的模型要么是浅模型要么是深模型,浅层模型缺少对复杂数据建模的能力,而深层方法设计大量参数并在运行时间和空间方面训练成本高昂;
在本文中,提出一种新的多视图属性图聚类框架,利用节点属性和图,创新点主要在三个方面:1)利用图滤波技术实现平滑的节点表示,而不是深度神经网络;2)原始图可能有噪声或者不完整,不能直接适用,通过考虑异构视图从学习中学习一致性图;3)设计一个新的正则化式子,以灵活的方式探索高阶式子;

介绍

1、 基于图形自动编码网络O2MA,利用一个信息丰富的图形视图和内容数据来学习节点嵌入,从而构建多个图形视图;
2、 MAGCN主要关注多个属性图,不能处理多个图,将注意力机制引入到图卷积编码器中,并对属性和图进行重构;
3、 以上两种方法在两个方面受到限制:1)只关注多视图数据的一个方面,不适用于多视图属性和多个图形;2)参数太多;
4、 本文提出MAGC聚类方法:1)足够通用,处理多个特征属性和多个图形的数据;2)基于图滤波,易于实现,只设计到三个参数;3)能够探索高阶关系;
5、 主要贡献如下:1)提出MAGC框架,可以学习不同视图间的差别性和一致性关系;2)提出一种简单的方法来探索高阶关系,而不是图神经网络;3)实验表明,方法优于最先进技术;

公式定义

论文阅读笔记(2):Multi-view attributed graph clustering_第1张图片

方法

1、 通过图滤波获得平滑表示,图形信号的平滑度可以通过拉普拉斯-贝尔特拉米算子来测量;平滑表示有助于下游集群,可以很容易的将附近的节点分组到一个集群中,通过低通滤波器来阻断高频信号实现;设计K阶图卷积如下:
论文阅读笔记(2):Multi-view attributed graph clustering_第2张图片
但是相似性计算函数的选择会严重影响聚类性能,最佳相似性可能依赖于数据;为了克服上述缺点,借用自表达的概念,即同一组中每个数据样本可以由其他样本的线性组合来表示;模型如下:
在这里插入图片描述
(不能直接应用于属性图聚类,因为不能充分利用图的信息)
2、 目标函数如下:
在这里插入图片描述
此模型能够用于处理单视图数据;
3、 对于多视图,探索互补信息并找到一致性解决方案致关重要;即每个视图应该共享相同的聚类模式,表明有共同的相似矩阵,但每个视图可能有不同的贡献,引入一种加权机制,提出的多视图属性图聚类(MAGC)如下:
在这里插入图片描述
λv是第v视图的权重参数,γ小于0为光滑参数,X是第v视图的光滑表示,通过在Xv上使用低通滤波器获得;

优化策略

优于上式有两组变量需要求解,很难直接求解公式,且所有的变量都是耦合的,因此,采用交替优化策略,即固定一个变量,更新另外一个变量;
1) 固定λv,更新S
对上式进行一阶求导得到:
论文阅读笔记(2):Multi-view attributed graph clustering_第3张图片
2) 固定S,更新λv
同样对上式进行一阶求导得到:
论文阅读笔记(2):Multi-view attributed graph clustering_第4张图片
根据交替优化理论,目标函数将收敛;

实验

实验设置

1)实验数据集:ACM、DBLP、IMDB、Amazon Photo、Amazon Computer
2)实验对比方法:LINE、GAE、LING-avg 和GAE-avg、MNE、PMNE、RMSC、PwMC、O2MA、HAN、DMGI、MAGCN;
3)实验对比指标:准确度(ACC)、归一化互信息(NMI)、F1分数(F1)、调整后的兰德指数(ARI);

聚类结果

论文阅读笔记(2):Multi-view attributed graph clustering_第5张图片
论文阅读笔记(2):Multi-view attributed graph clustering_第6张图片

时间比较

我们的方法比深层模型快几个数量级,此外,与浅层方法PwMC和SwMC相比,我们的方法在效率上也显示出显著的优势。这表明我们的方法不仅有效,而且高效。事实上,随着数据集规模的增加,深度模型涉及更多参数,训练成本高,容易过度拟合。相比之下,我们的图过滤方法只需要三个参数,而且易于实现,这使得我们的方法成为一种非常有吸引力的替代技术。

参数分析

在我们的实验中,我们调整了三个参数:α和γ是模型参数;k是一个隐式参数(低通滤波器的阶数)。根据我们的经验,参数γ对结果几乎没有影响,因此我们修正了γ=−1.在实验中,α的变化范围分别为[0.1,1,101001000]和[0.1,1,2,5,10],我们可以观察到它足够好。换句话说,一阶或二阶卷积很重要,而过大可能导致过度平滑。我们可以发现,α的最佳值是特定于数据的,不适当的α会恶化性能。这是因为太小的α会忽略先验邻近信息,而太大的α不会从图过滤中受益。因此,我们必须谨慎地在不同的数据集上寻求α值的平衡。调整参数运行结果如下:
论文阅读笔记(2):Multi-view attributed graph clustering_第7张图片

模块分析

在本节中,我们进行了一些实验来检验模型中每个组件的有效性,包括相似性学习的优势、图形过滤的好处以及高阶信息的影响,主要包括以下几个方面:
1)相似性学习的效果
AGC是一种最新的单视图属性图聚类方法。虽然它使用图形过滤来实现良好的表示,但它使用内积计算相似度。通过对比AGG与MAGC在每个视图上的聚类结果,MAGC方法优于AGC,同时不同视图的性能差异很大,因此多个视图的贡献不同,多视图模型需要一个加权机制;
2) 图滤波效果
为了证明图过滤在提高性能方面发挥了重要作用,将原始数据输入到模型中,通过实验结果,很好的证明了采用图过滤来实现平滑表示的优势,从而增加了分类的可分性,图过滤作为一个预处理步骤,是相邻节点具有相似的表示;
3)高阶信息的影响
通过实验对比,与一阶关系相比,二阶邻近性有助于提高集群性能,但是三阶会恶化性能,所以在实验中,二阶是一个不错的选择;

结论

利用图形过滤技术,我们可以在平滑表示中执行聚类。通过采用自动学习方案,我们可以充分利用节点特征和图形结构信息。通过引入权重因子,我们可以区分地利用多视图数据的互补信息。通过设计一种新的正则化器,我们可以灵活地探索高阶信息。虽然我们的模型非常简单,但大量的实验结果表明了它的有效性。特别是,它超过或可与最近文献中提出的标准基准的最佳方法相比较。与深度学习方法相比,该方法参数少,效率高。这使得我们的方法在实际应用中具有吸引力。

你可能感兴趣的:(属性图聚类,多视图,图滤波,python,聚类,图形渲染)