Which Network Similarity Measure Should You Choose: An Empirical Study

Abstract

没有节点通信的两个网络怎么进行相似性比较呢?现实网络中迁移学习和变化检测通常需要考虑这个问题。

(1)我们提出了一个方法用于识别一组可比较的网络相似性方法;

(2):当给定一组网络相似性方法的,我们提出了一个方法用于计算一致性结果。结果显示:

a:不同的网络相似性方法相关性很强

b:一些复杂的网络相似性方法可以由更简单的方法严格逼近

c:用带重启动的随机游走和NetSimile计算的相似性排名与一致性结果最相近

Introduction

我们通过对7个真实网络和20个网络相似性方法的研究想知道:
(1):是否可以将可比较的网络相似性方法聚成簇
(2):怎样在一簇可比较的网络相似性方法中选出一个能产生一致性结果的方法
网络相似性方法的的应用:
(1)检测在线金融网络的结构,当发生改变时, 说明可能的欺诈行为;
(2)当测定两个网络相似时,在一个网络上开发的算法可以应用与另一个网络....等等;
Proposed Approach
实验设置:
第一步
(1)给定网络G;
(2)计算其他6个网络和G0的相似性排名,总共有20个相似性方法,得到20个长度为6的排名;
(3)我们采用Kendall-Tau(肯德尔)距离计算两个排名的相关性,距离是0正相关;距离是1负相关,距离是0.5无关;
第二部
(1)通过成对的Kendall-Tau距离的将相似性算法聚类,采用的是完整的链接层次聚类方法(因为它产生了聚类树状图,可以更精确的知道哪些算法更相似);
(2)我们使用Kemeny-Young(凯梅尼)方法结合排名集合产生一个一致的排名;
a:此处生成了20个长度为6的排名,构造一个6*6的偏好矩阵P,Pij表示元素i排在元素j的前面的个数(元素i代表了网络);
b:对于每个排名R,对R的Pij求和,得分最高的排名被当做是一致性排名;如果存在一个方法产生的排名与一致性排名很相近,那么可以用这个方法代表
这组方法;
Which Network Similarity Measure Should You Choose: An Empirical Study_第1张图片
比较各种网络相似性方法的流程图    
Experiments
数据集:Facebook network的两个数据集, Amazon copurchasing network, DBLP co-authorship network, LiveJournal blogging network两个数据集,Enron e-mail network;对于每个网络,我们人工合成了两个基线网络,用于相似性比较;对于第一个合成网络,随即删除了5%的边。对于第二个合成网络随机添加了5%的边;
相似性度量方法:采用Canberra distance。对于两个数,Canberra distance=|a-b:|/|a+b|;对于两个向量Canberra distance=(xi,yi)的距离的平均值;
网络相似性方法划分:
a:社区级别:对每个网络随机选择200个节点(找到200个社区),通过广度优先搜索(BFS)/不带重启的随机游走(RW)/带15%几率重启的随机游走(RWR)/α-β社 区算法(AB)找到社区,用一个特征向量来表示每个社区结构特性(直径、边缘密度、电导、各种中心性等)。
初始化这些社区的特征向量的两种方法:
1: BFS, RW, RWR, AB :对于每个网络获取的200个社区结构特征向量,然后用SVM进行交叉验证,看这两个网络是否可分离。
2: BFS-Dist, RW-Dist, RWR-Dist, AB-Dist:建立一个完全二分图,如果G0中的任意一个向量在G1中都能找到同等的向量,则成G0和G1相似;
Which Network Similarity Measure Should You Choose: An Empirical Study_第2张图片
f0i和f1i是两个图的社区特征向量,wij是这两个特征向量的Canberra distance距离

b:网络级别:对每个网络建立一个特征向量,计算两个向量的 Canberra distance 距离。
Eigenvalues:邻接矩阵的最大十个特征值
IM-In, IM-Known, and IM-In-&-Known:采用InfoMap社区检测方法,













你可能感兴趣的:(Which Network Similarity Measure Should You Choose: An Empirical Study)