利用图神经网络进行社交机器人检测

目录

目标:

数据:

结构:

数据和代码:

社区发现:


目标:

理解并掌握方法

数据:

外网数据源,github上可下载已处理过的数据

结构:

利用图神经网络进行社交机器人检测_第1张图片

lDidegah(2018年)数据集,包含各种属性,包括替代指标和推文标识、作者姓名、作者标识、关注者数量以及指示用户是机器人还是人类的相关标签。这个数据集包含总共4540个带注释的用户,其中269个是已识别的机器人,包括混合用户。由于带注释的数据集不包含ATSN的推文网络相关的信息,将4540个用户的数据映射到哈桑等人(2017年)使用的altmetrics数据集(dataset-jun-4-2016.tar.gz版本)。该数据集包含2011年7月至2015年12月的870万条推文记录,其特征包括:推文ID;替代指标标识;作者-电影名称;作者-屏幕-姓名-提及;转发;和提及。

最终数据集由457,714个节点组成(每个节点代表一条推文),在由16,264个唯一用户(节点)组成的转发-提及网络中形成31,380条边(转发或提及关系),其中64个是机器人

数据和代码

        (python) 链接:https://pan.baidu.com/s/1QHk8QNjGfNMrB5XRl2FKYQ
提取码:hdpa

社区发现

社区检测是研究复杂社会网络的一个关键特性。社区结构没有通用的定义,但人们普遍认为,它代表一个节点子组,在该社区内连接的概率很高,而连接到网络其余部分的概率很低。根据这个定义,一个社区代表一群有相似兴趣的人。这篇文章使用的是Said et al. (2018)提出的社区检测算法.使用社区发现算法的目的是找到影响力高的节点。

TriangleCount算法“统计每个顶点所在的三角形个数(反映节点连通性,三角形越多,连通性越强)

利用图神经网络进行社交机器人检测_第2张图片

聚类系数cc:

L:vi的相邻节点数,K:集合可能的边数|Ni|*(|Ni|-1)/2

贴近中心度:

贴近度中心度计算一个节点相对于网络中所有其他节点的最短路径的贴近度

d(u,v)表示u和v之间的最短路径

                

                                                                     社区大小和节点度分布

利用图神经网络进行社交机器人检测_第3张图片

左边:X轴是社区大小,y轴是社区数量,社区规模遵循幂律分布;右侧示出了一百个随机节点的度分布,其也遵循幂律分布。

利用图神经网络进行社交机器人检测_第4张图片

(左)每个机器人所在三角形的中心度和数量;(右)各机器人的聚类系数和贴近度中心度


利用图神经网络进行社交机器人检测_第5张图片

Mohammadrezaei M R, Shiri M E, Rahmani A M. Detection of fake accounts in social networks based on One Class Classification[J]. The ISC International Journal of Information Security, 2019, 11(2): 173-183.

你可能感兴趣的:(深度学习,神经网络,数据挖掘,tensorflow)