Deep Graph Clustering via Dual Correlation Reduction

Deep Graph Clustering via Dual Correlation Reduction

  • 一、摘要
  • 二、简介
  • 三.网络
    • 符号和问题定义
    • 图失真模块
      • 1.特征破坏
      • 2.边缘扰动
      • 3.双重信息相关性减少
        • 3.1样本级别相关性减少
        • 3.2特征级相关性降低
        • 3.3传播的正则化
    • 目标函数
  • 四.算法

一、摘要

深度图聚类旨在揭示底层图的结构,并将节点划分为不同的组,近年来引起了人们的广泛关注。但是在编码过程中存在表示崩溃,也就是将所有的数据压缩到同一个表示中。因此,节点表示的识别能力有限,导致聚类性能不满意。然后,通过强制交叉视图样本相关矩阵和交叉视图特征相关矩阵分别近似于两个单位矩阵,我们两个交叉视图的相关性,从而提高了结果特征的鉴别能力。此外,为了缓解GCN中过度平滑导致的表示崩溃,我们引入了一个传播正则化项,使网络能够通过浅层网络结构获得长距离信息。

二、简介

本文贡献:
一.我们提出了一种基于siamese graph encoder的算法来解决深度图聚类领域的表示崩溃问题。
二.为了提高样本表示的识别能力,提出了一种双相关缩减能力。多亏了这种策略,我们的方法就没有了复杂的负采样因此,可以生成操作,更节省空间,更灵活。

三.网络

网络结构:
Deep Graph Clustering via Dual Correlation Reduction_第1张图片

符号和问题定义

给定一个无向图G = {V, E},具有C个类别的节点,V = {v1, v2, … , vN },E是边集。该图的特征是其属性矩阵X∈RN×D和原始邻接矩阵A=(aij)N×N,其中aij=1 if (vi,vj)∈E,否则aij=0。对应的度矩阵为D=(d1,d2,……,dN)∈R~N×N。
其中:

在这里插入图片描述
A矩阵可以通过下面的方式进行归一化:
在这里插入图片描述

图失真模块

图失真可以使网络从不同的上下文中学习丰富的节点表示。我们考虑了图上的两种类型的畸变,即特征破坏和边缘扰动(可见网络图)。

1.特征破坏

先从N(1,0.1)的高斯分布随机采样得到一个噪声矩阵N,然后将原始属性矩阵与噪声矩阵融合得到有噪声的数据:
在这里插入图片描述

2.边缘扰动

有两种方法:
1.基于相似性的边缘移除:
我们首先计算潜在空间中样本的成对余弦相似度,然后根据相似度矩阵生成掩蔽矩阵M∈RN×N,其中将手动去除最低的10%的连锁关系。最后,将邻接矩阵Am∈RN×N进行归一化,计算为:在这里插入图片描述
2.图扩散方法:
将归一化矩阵转换成图扩散矩阵:
在这里插入图片描述
其中,α是设置为0.2的传送概率。最后,我们将G1=(Xe,Am)和G2=(Xe,Ad)分别表示为图的两个视图。

3.双重信息相关性减少

引入了一种双信息相关减少(DICR)机制,以双重方式过滤潜在嵌入的冗余信息,即样本水平的相关性降低(SCR)和特征级相关减少(FCR),旨在限制我们的网络学习更多的有区别的潜在特征,从而减轻表征崩溃。
这个机制的细节如下图:
Deep Graph Clustering via Dual Correlation Reduction_第2张图片

3.1样本级别相关性减少

SCR的学习过程包括两个步骤。对于由siamese graph encoder学习到的双视图节点嵌入Zv1和Zv2,我们首先计算了交叉视图样本相关性中的元素矩阵SN∈RN×N由:Deep Graph Clustering via Dual Correlation Reduction_第3张图片
其中,SNij∈[1,1]表示第一个视图中第i个节点嵌入与第二个视图中第j个节点嵌入的余弦相似度。然后,我们使交叉视图样本相关矩阵SN等于一个单位矩阵I∈RN×N,公式为:
Deep Graph Clustering via Dual Correlation Reduction_第4张图片

3.2特征级相关性降低

这个实现分为三个步骤:
1.将特征点的嵌入映射到集群级别通过函数R():Rd×N→Rd×K在这里插入图片描述
接着再计算相似度:
Deep Graph Clustering via Dual Correlation Reduction_第5张图片
接着:Deep Graph Clustering via Dual Correlation Reduction_第6张图片
在等式中的这两个术语意味着在两个增强视图中相同维度特征的表示被拉得更近,而其他的被推开。

最后经过3.1和3.2后融合两个视角:
在这里插入图片描述

3.3传播的正则化

为了缓解网络训练过程中出现的过平滑现象,我们引入了一种传播正则化方法,即:
在这里插入图片描述
其中JSD()为Jensen-Shannon散度

双重信息相关性减少部分的损失函数
在这里插入图片描述

目标函数

在这里插入图片描述
其中,LREC为中采用的节点属性和图结构的联合均方误差(MSE)重建损失。LKL表示库背-莱伯勒散度,即广泛使用的自监督聚类损失。

四.算法

Deep Graph Clustering via Dual Correlation Reduction_第7张图片

你可能感兴趣的:(多视图聚类,聚类,算法)