文献阅读(66)AAAI2021-Deep Fusion Clustering Network

本文是对《Deep Fusion Clustering Network》一文的浅显翻译与理解,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步
文献阅读总结:网络表示学习/图学习
文献阅读总结:多视图聚类

文章目录

  • Title
  • 总结
    • 1 问题定义
    • 2 改进的图自编码器
    • 3 结构和属性信息融合
    • 4 自监督的目标分布生成策略
    • 5 算法流程和逻辑梳理

Title

《Deep Fusion Clustering Network》

——AAAI2021

Author: 涂文轩

总结

文章指出,现有的图自编码器聚类模型通常存在着两个缺陷,即缺乏动态融合结构和属性信息的机制,以及难以从双方提取信息以生成稳健的目标分布。为改进这一问题,文章提出了DFCN算法,同时融合了自编码器和改进的图自编码器生成的样本嵌入,其中改进了图自编码器使其在结构信息外还考虑了属性信息。在此样本嵌入的基础上,引入了邻接矩阵的局部信息和自相关权重的全局信息进行加权。此外,通过构造三类相关的目标分布,用自监督的办法作为正则化项进行了模型优化。其示意图如下所示:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第1张图片

1 问题定义

给出图数据G=(V,E),有X为属性矩阵,可以结合邻接矩阵A和度数矩阵D计算得到归一化后的邻接矩阵A~:

在这里插入图片描述

文章用到的变量定义如下图所示:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第2张图片

事实上,整个算法模型可分为四部分:(1)自编码器AE;(2)改进的图自编码器IGAE;(3)融合机制;(4)自监督的目标分布生成策略。其中自编码器在原文中未提及,可参考经典模型。

2 改进的图自编码器

文章指出,传统的图自编码器GAE仅仅考虑了数据的结构信息,而没有考虑属性信息,文章对其进行改进,提出了IGAE。设节点嵌入矩阵为Z,则在层间更新如下:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第3张图片

在此,IGAE的损失函数由两部分组成:

在这里插入图片描述

前者约束加权的属性信息,后者约束邻接矩阵信息,即:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第4张图片

3 结构和属性信息融合

首先,文章将自编码器AE和改进的图自编码器IGAE生成的嵌入矩阵进行融合:

在这里插入图片描述

其次,融合局部信息,即邻接矩阵信息,有:

在这里插入图片描述

而后,再融合全局信息,有:

在这里插入图片描述

注意到此处的S为自相关矩阵,自相关就是函数和函数自身的相关性,当函数中有周期性分量的时候,自相关函数的极大值能够很好的体现这种周期性。在此可理解为,通过自相关测定,使得样本嵌入中突出的维度权重更大,所谓全局信息。

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第5张图片

则最终的嵌入矩阵可计算如下:

在这里插入图片描述

上述出现的未解释变量(如阿尔法,贝塔)均为可学习参数。

4 自监督的目标分布生成策略

文章提出了用自监督的理念生成目标分布(即软标签)的策略,用于作为正则化项优化损失函数,有:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第6张图片

其中,u为聚类系数,Q为先验分布,而P则为实际计算得到的分布,在损失函数中,就使得两者尽可能一致:

在这里插入图片描述

在此,文章为增强模型的稳健性,在通过最终嵌入计算得到的分布Q外,还通过自编码器AE和图自编码器IGAE得到的嵌入又生成了分布Q’和Q’',对应上式。
最终,全文的损失函数如下所示:

在这里插入图片描述

5 算法流程和逻辑梳理

以下为文章算法流程:

文献阅读(66)AAAI2021-Deep Fusion Clustering Network_第7张图片

文章的整体逻辑可梳理如下:对图数据进行聚类,除聚类系数外,还需要每个节点的嵌入表征,因此需要计算嵌入矩阵Z。在计算Z的过程中,首先融合自编码器和改进的图自编码器生成的嵌入,又在其上加入了局部信息和全局信息。模型生成的嵌入矩阵与聚类的实际分布可能不一致,因此加入了正则化项L_KL进行约束,并引入了局部和全局信息增强其稳健性。

你可能感兴趣的:(文献阅读,聚类,算法,机器学习)