[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering

Title:Adaptive Hypergraph Auto-Encoder for Relational Data Clustering

introduction

图的embedded representation 和 clustering task 在关系型数据分析和挖掘方面发挥了很重要的作用,但是仅仅是成对的关系不足建模现实生活中的高阶关系。且如何适当地整合结构信息和属性信息是另一项重要的任务,但尚未得到系统的研究。因此这篇文章提出了自适应超图自动编码器(AHGAE)来学习低维空间中的节点嵌入

  • 本文以超图节点聚类任务为研究对象,提出了一种新的AHGAE模型,它与图的相关任务兼容良好。 文章的方法可以利用高阶关系来生成
  • clustering for embedding,由自适应超图拉普拉斯平滑滤波器关系重构自动编码器两个部分组成。
  • 与基于图的方法相比,它具有集成更复杂的数据关系的优势,从而获得更好的建模和聚类性能。

这篇文章的贡献在于:

  1. 提出一个超图拉普拉斯平滑过滤器,通过融合节点特征与同一超边中邻接特征达到平滑节点特征的效果。
  2. 提出了一个自适应超图自动编码器(AHGAE),是一种专门用于超图聚类任务的嵌入式模型。
  3. 构建了一个属性超图数据集DBLP-HG,并且在该数据集和其他一些基准图数据集上做实验,验证了模型的有效性。

related work

首先,图聚类任务分为两大类,分别是: structural graph clustering tasks 和 attributed graph clustering tasks。
首先是介绍structural graph clustering tasks; 谱系聚类方法直接将图的结构作为输入。
直接将图的结构作为输入,通过对图的切割,使切割后的不同子图之间的边的权重尽可能低,以达到聚类的目的。还有提出将节点的邻接矩阵分解成节点表征后利用k-means的方法获得聚类。还有Deepwalk通过在图中游走使用skipgram学习节点表征,通过在图上随机行走和最大化每个节点的邻居概率,然后获得聚类结果。
然后介绍attributed graph clustering tasks;同时具有图结构和节点特征的图被称为attributed graphs。该任务的研究重点是如何平衡图的结构信息和节点特征信息。最常见的pipeline是首先学习包含结构信息的节点embedding,然后实现常见的聚类方法,如K-means或spectral clustering来获得最后的结果。像常见的GAE、VGAE、AGC、AGE都属于这类工作,且融合了图卷积网络和自动编码器等。

method

首先是方法框架:
这张图左边部分的意思是文章确定了一个指标∆c(t) ,它代表未标记的聚类度量的变化值,这个图经过一次次迭代,直到∆c(t) >0的时候获得最终结果,它是用来选择最优顺序的。
右边部分,H代表关联矩阵,A代表邻接矩阵。
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第1张图片
先给出方法中的定义:
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第2张图片

Hypergraph Laplacian Smoothing Filter

文章提到这个过程可以被看作是:一个节点之间在空间域中的信息整合过程,且信息通过超边传递,过程如Fig3所示。 首先,节点特征被合并为超边特征,然后超边特征被传播到节点,形成平滑的节点特征。平滑化的节点特征与原始节点特征进行加权融合,形成一个新的节点特征。然后,它们与初始图结构相结合,生成输出。[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第3张图片
给定的信息包括节点特征矩阵X,共现矩阵H,超边权重矩阵W。
节点度数:共现矩阵对应值乘上对应权重的累加和。
边度数:共现矩阵对应值的累加和。
Dv和De分别代表节点度数和超边度数的对角矩阵。

  1. node information aggregation process,就是节点的特征聚合到超边上的过程。超边ek的特征计算定义为下式,该式子的意思是将属于该超边的所有节点的特征相加再取平均。
    t代表顺序,N(ek)代表属于超边ek的所有子节点,Xj代表节点vj的特征,Ek和Xj分别表示超边缘ek的特征和节点vj的特征。
    [yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第4张图片
    2.在每条超边合并了所有子节点的特征后,需要将信息通过超边的权重传递回给所有子节点,然后我们应用权重与原始节点信息融合,以下就是节点特征更新过程的式子:
    [yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第5张图片

然后,文章还简化了上述公式并且以矩阵的形式表达:
在这里插入图片描述
但是由于谱半径:在这里插入图片描述
不是小于1,这可能会导致特征的不稳定状态,并且提高了堆叠多层过滤器时特征爆炸或者消失的风险,因此文章将这个谱半径替换成:
在这里插入图片描述
因此,上述等式变成:
在这里插入图片描述
此时获得的对称超图拉普拉斯矩阵为:
在这里插入图片描述
L是一个正半正定矩阵。因此谱半径的特征值不会大于1,因此解决了特征不稳定性。
因此多阶超图拉普拉斯平滑过滤器被定义为:
在这里插入图片描述
一个合理的顺序t,使得节点可以或者最合适的感知范围,从而提高聚类性能。

然后文章给出了以下定义即:
自适应超图拉普拉斯平滑滤波器是根据节点特征选择排序的超图拉普拉斯平滑滤波器。

然后文章讨论超图在频域的低通过滤特性,平滑滤波器的本质是一个低通滤波器(容许低于截止频率的信号通过, 但高于截止频率的信号不能通过的电子滤波装置)。
首先,文章分解了超图拉普拉斯算子的特征值:
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第6张图片
因此本文将超图拉普拉斯平滑过滤器设置为G所示:
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第7张图片
由于超图拉普拉斯行列式λ∈[0,1]的特征值,p(λ)与λ呈负相关,且p(λ)为正半定矩阵。因此,超图拉普拉斯平滑滤波器G可以抑制高频信号,并保留包含丰富语义信息的低频信息。请添加图片描述

γ的选择

对于等式中的功能更新功能(3),γ的值决定了每个节点的特征和相邻特征的比例,当γ = 0时,节点信息不再更新。当γ = 1时就是一个超图卷积操作:
请添加图片描述
但取γ = 1存在的一个严重问题是,当节点特征更新,节点信息完全被邻居节点聚合获得的信息所取代,而假如目前有两个节点拥有相同的共现矩阵,那么他们更新后的特征就会变的一样,在下游任务里就没有区别了。推到现实社交网络场景中时,某些用户可能会拥有一样的tag,那么,使用等式(11)会导致用户肖像信息无效。目前,最好的解决方案是引入残差结构或保留原始信息。

由于超图中的每个超边都有自己的解释,但这通常不能成为聚类任务的决定性因素。因此,特征歧视性的消失并不适合用于聚类任务。特别是当阶数增加时,影响范围呈指数级增长,导致过平滑问题更加严重。因此,我们需要在它们的权重中进行权衡,图形过滤器内核:
请添加图片描述

Choice of Order t

一个合适的顺序可以导致每个节点感知到最合适的相邻特征范围,因此一个合理的度量成为关键问题。
Davies-Bouldin Index (DBI),是每个聚类与其最相似的聚类的平均相似度度量,其中相似度是聚类内距离与聚类间距离之比s。它的优点是只计算数据集固有的数量和特征。
DBI的最小值为零,更接近于零的值表示有更好的分区。
对于t阶平滑滤波器,文章利用平滑节点特征相似度矩阵的DBI指数作为聚类质量的评价指标
请添加图片描述
之所以不使用原始矩阵X是为了消除特征的影响,只关注节点之间的相似性。
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第8张图片

这一段大致意思是DBI的值会因为节点特征的过平滑现象而变低,因此文章认为DBI值不是越小越好,而当先后节点之间DBI差值大于0,说明顺序为t-1的节点是局部最小且此时聚类性能接近最好顺序下的效果。

Relational Reconstruction Auto-Encoder

在获得平滑的特征矩阵后,文章利用关系重构自动编码器在不丢失结构信息的情况下进一步学习低维空间中的节点表征。
首先,通过关联矩阵构造邻接矩阵A[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第9张图片
然后
进一步计算了节点特征之间的相似性矩阵:
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第10张图片
当通过等式将关联矩阵转换为邻接矩阵时(14),每个超边中的节点成对连接。当将一个超图转换为普通图时,一个度为d的超边将被转换为d*(d-1)/2条普通边。因此,随着超边度的增加,普通边的数量急剧增加。由于邻接矩阵太密集的时候会导致矩阵a中正、负样本之间的严重不平衡,因此,文章选择加权A中的每个元素:[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第11张图片
通过对关系重构自动编码器进行一段时间的训练,得到了学习到的节点embedding。对于聚类任务,利用光谱聚类算法得到最终的聚类分布。算法总体过程如下图所示:
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第12张图片

Experiments

这一节中文章评估了提出的关于超图数据和图数据的聚类任务的模型,并比较了不同的图过滤内核对模型的影响。同时,文章也讨论并验证了所提出的权重值γ和顺序值t
,以及顺序选择方法的有效性。

DBLP-HG数据集

每个节点代表一篇文章,通过将bert-as-service(预训练的BERT模型封装后当作一种服务来提供给客户端使用)应用到每篇文章标题上来实现节点特征提取。每条超边代表一个作者,文章所属的不同领域或SCI分区作为文章节点的标签,这篇文章目前只关注Artificial Intelligence and its Applications, Power Electronics and Circuit Systems, Network and Communication,数量分别是1,984, 1,668和 1,411.
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第13张图片
文章选用的指标是:
clustering accuracy(ACC)
normalized mutual information (NMI) :常用在聚类中,度量两个聚类结果的相近程度
adjusted rand index (ARI):聚类外部评价指标
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第14张图片
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第15张图片
[yzhpdh]Adaptive Hypergraph Auto-Encoder for Relational Data Clustering_第16张图片

Conclusion

在本文中,我们提出了一个自适应超图自动编码器(AHGAE)的框架,它被用来学习
关系数据的节点嵌入来完成聚类任务。无论数据是具有图结构还是超图结构。通过自适应超图拉普拉斯平滑滤波器和关系重建自动编码器,节点信息和结构信息被自适应地融合在一起。

由于超图被认为是图的泛化,AHGAE创新性地将超图和普通图统一起来,这对聚类任务和embedding学习来说是一个更通用的模型。

通过对归属图或超图数据集的聚类实验,文章提出的模型优于近年来提出的最先进的模型。

在future works中,文章认为可以研究如何将超图学习和图学习统一起来。此外,在大规模超图上进行embedding学习或聚类任务也是非常有意义的研究方向。

你可能感兴趣的:(算法,人工智能)