干货!基于生成对抗图网络的不平衡网络嵌入

点击蓝字

干货!基于生成对抗图网络的不平衡网络嵌入_第1张图片

关注我们

AI TIME欢迎每一位AI爱好者的加入!

图上的不平衡分类是普遍存在的,但在许多现实世界的应用(如欺诈节点检测)中具有挑战性。近年来,图神经网络在许多网络分析任务中显示出良好的性能。然而,现有的GNN大多只关注平衡网络,在不平衡网络上的性能不理想。为了弥补这一缺陷,本文提出了生成式对抗图网络模型ImGAGN来解决图上的不平衡分类问题。介绍了一种新的图结构数据生成器GraphGenerator,它可以通过生成一组合成的少数节点来模拟少数类节点的属性分布和网络拓扑结构分布,从而使不同类中的节点数量达到均衡。然后训练一个图卷积网络(GCN)识别器来区分合成平衡网络上的真实节点和虚假节点(即生成节点),以及少数节点和多数节点。为了验证该方法的有效性,在四个真实的不平衡网络数据集上进行了大量的实验。实验结果表明,在半监督不平衡节点分类任务中,该方法优于现有的算法。

本期AI TIME PhD直播间,我们有幸邀请到南方科技大学与昆士兰大学联合培养年级博士生——曲良,为我们带来报告分享《基于生成对抗图网络的不平衡网络嵌入》。

干货!基于生成对抗图网络的不平衡网络嵌入_第2张图片

曲良:南方科技大学与昆士兰大学联合培养年级博士生,导师为史玉回教授和阴红志教授。主要研究方向为网络表征学习与推荐系统,目前已在KDD, WWW等会议发表论文。

01

 背  景 

在一个网络中,每个节点都有自己的类别标签,其中某一类的节点数量远小于其他的类别节点,造成网络节点类别分布不平衡的情况,称为Imbalanced Network。这种少数类节点通常在这种网络中扮演非常重要的角色,比如在电商网络中,诈骗分子是数量较少的类别,但如何将诈骗分子从这个网络中识别出来的问题是很重要的,另外社交网络中的犯罪分子也具有相同的特点。

干货!基于生成对抗图网络的不平衡网络嵌入_第3张图片

少数类节点的识别主要有三个挑战,一是少数类节点的数量远小于其他大多数节点。二是少数类节点的标注很困难,因为本身识别少数类节点就是一项困难的工作。三是少数类节点的特征与其他大多数类节点不是可分的。

比如下图(a)的例子,红色节点表示大多数节点,蓝色节点表示少数类节点,通过GCN(图卷积网络)将节点进行二维可视化,我们发现少数类节点存在于大多数节点中间,不是线性可分的。而图(b)是本文方法IMGAGN的核心思路,通过生成一些假节点,使少数类节点和多数类节点的类别分布达到平衡。通过这样的方式可以训练一个学习器将少数类节点和多数类节点区分开来。

干货!基于生成对抗图网络的不平衡网络嵌入_第4张图片

02

 方  法 

下图是本文方法——ImGAGN的整体框架,本文利用生成对抗网络的思想,设计了GraphGenerator和基于GCN的对抗器。传统方法用于解决不平衡分类问题通常有两种方式,一种是过采样,另一种是欠采样。GraphGenerator就是采用过采样的方式,模拟少数类节点分布,生成一系列少数类节点,实现原始网络类别数量均衡。

干货!基于生成对抗图网络的不平衡网络嵌入_第5张图片

由于网络中每个节点之间是相互联系的,因此GraphGenerator不仅学习节点属性特征分布,同时也学习节点的拓扑结构分布。GraphGenerator的结构是标准的全连接层,输入是依据高斯分布生成的噪声空间。在图里面,通常假设临近节点具有相似标签,令生成的少数类节点于其他少数类节点链接,然后不断去优化这个链接,从而生成更优的拓扑结构。而生成少数类节点的初始化特征是其链接的真实的少数类节点特征的平均值。

通过GraphGenerator我们可以得到一个平衡的网络,而GCN在平衡网络上通常表现很好。后面我们将利用GCN在平衡网络进行一个学习,达到对GCN训练的目的。

下面是GraphGenerator的损失函数,第一项(红框)为了迷惑判别器,使判别器区分不出来是假的少数类节点。第二项(蓝框)是为了使判别器区分不出来使少数类节点还是多数类节点。第三项(紫框)是为了假节点的特征于真实节点的特征充分接近。第四项(绿框)是一个正则项。

干货!基于生成对抗图网络的不平衡网络嵌入_第6张图片

对于判别器,我们采用了GCN,其目的是在平衡网络上区别真节点和假节点以及多数类节点和少数类节点的区分。

干货!基于生成对抗图网络的不平衡网络嵌入_第7张图片

03

 实  验 

数据集:

本文在四个常见数据集:Cora、Citeseer、Pubmed、DBLP上,首先进行了预处理,将所有类别按照节点数量进行排序,将数量最小的类别作为少数类,其余都说多数类,因此是一个二分类问题。

干货!基于生成对抗图网络的不平衡网络嵌入_第8张图片

Baseline:

平衡网络: 

GCN, GraphSage, DeepWalk,Node2vec, LINE

不平衡网络: 

GCN-SMOTE,SPARC,DR-GCN, RECT

实验结果:

下图展示了本文方法ImGAGN与其他baseline方法的对比实验结果,ImGAGN在四个数据集上的效果都要优于其他方法。

干货!基于生成对抗图网络的不平衡网络嵌入_第9张图片

04

 总  结 

为了解决网络嵌入的不平衡问题,我们提出了一种半监督网络嵌入方法ImGAGN,该方法利用GraphGenerator模拟少数类节点的属性分布和网络拓扑结构分布,从而平衡不同类中的节点数。对四个真实数据集的实证评估表明,所提出的ImGAGN算法优于最新的非平衡网络嵌入算法。

论文:

《ImGAGN: Imbalanced Network Embedding via Generative Adversarial Graph Networks》

点击阅读原文

即可观看分享回放哦!

今日视频推荐

整理:AI Timer

审核:曲良

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至[email protected]

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

干货!基于生成对抗图网络的不平衡网络嵌入_第10张图片

更多资讯请扫码关注

干货!基于生成对抗图网络的不平衡网络嵌入_第11张图片

我知道你在看

干货!基于生成对抗图网络的不平衡网络嵌入_第12张图片

点击“阅读原文”查看精彩回放

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,python)