论文笔记:Detection of Fake Accounts in Social Networks Based on One Class Classification

论文发表时间: 31 July 2019

摘要

在社交网络上发现虚假账户是一个具有挑战性的过程。以往识别虚假账户的方法没有考虑到用户通信的强度,从而降低了识别的效率。在这项工作中,我们将提出一种基于用户相似性的检测方法,考虑到用户的网络通信。

  1. 在第一步中,基于社交网络中相应图的邻接矩阵,计算出共同近邻、共同近邻图边、余弦、Jaccard相似系数等相似测度。
  2. 在下一步,为了减少数据的复杂性,利用主成分分析方法分析每个计算出的相似矩阵,提取一组信息特征。
  3. 然后,利用elbow方法选择一组信息丰富的特征向量。提取的特征被用来训练一个特征类分类(OCC)算法。
  4. 最后,利用该训练模型识别虚假账户。

如果将社交网络中的用户表示为节点(Node),用户之间的关系表示为边(Edge)。下图,我们认为 v1 和 u 的的相似度比 v2 和 u 的相似度更高,因为联系v1 和 u 的节点之间的边更多。论文中将这种现象称为通信强度(communications strength)
论文笔记:Detection of Fake Accounts in Social Networks Based on One Class Classification_第1张图片

2 基本概念介绍
2.1 图分析
2.1.1共同的邻居(Common Neighbors)

Γ ( v ) \Gamma(v) Γ(v)表示节点 v v v 的邻居集合, Γ ( u ) \Gamma(u) Γ(u)表示节点 u u u 的邻居集合,如果节点 v 和节点 u 含有的共同邻居越多,则二者就越相似。

S ( v , u ) = ∣ Γ ( v ) ∩ Γ ( u ) ∣ S(v, u) = |Γ(v) ∩ Γ(u)| S(v,u)=Γ(v)Γ(u)

2.1.2 节点的邻居之间存在的边数(Common Neighbor Graph Edges)

边的数量表示图中两个节点之间关系的强度。

2.1.3 Jaccard Index
2.1.4 Cosine Index
2.1.5 L1norm Similarity
2.2 相关的机器学习方法

One Class Classification、主成分分析方法(PCA)。

3 恶意用户检测的常用的方法

用于在线社交网络恶意用户异常检测的方法大致可以分为三类:

  1. 基于行为的(behavior-based)
  2. 基于图的(graph-based)
  3. 基于机器学习的(machine learning-based)
4 论文提出的方法

该篇论文结合了基于图的和基于机器学习的方法。

用图的方法,将用户表示成节点,用户之间的关系表示为边,从而将我们获得的用户数据构建成图(Graph),也可以称作网络(Network)。

用机器学习的方法,提取用户数据中的特征,根据特征分类。社交网络中的用户通常被分为两类,正常用户和恶意用户,通常我们获得数据绝大部分都是正常用户,所以针对数据集中正例负例失衡的现象,该论文中采用的分类方法是One Class Classfication。

从获得数据集到检测出虚假用户,主要分为两个阶段,第一阶段,数据预处理;第二阶段,训练和发现虚假账户。

phrase1:

Step1:
首先,map social network into grap,进而得出图的邻接矩阵,两个用户之间有边,为1;无边,为0
Step2:
对以前方法的分析表明,任何特性都不能单独区分网络用户。因此,在该方法中利用了一些特征来提高虚假账户检测的准确性。定义相似度度量的目的是优化和提高提取特征的质量。如果提取的某一特征足够精确,那么这一特征就更加有利于我们精确并高效的识别出虚假账户。
Step3:
使用主成分分析来降低基于相似矩阵工作的初始空间的复杂度,并从表达用户之间通信的相似矩阵中提取信息特征。

phrase2:
5 实验
5.1 数据集

Twitter 的用户数以百万计,我们使用可获得的Twitter数据集:https://github.com/Kagandi/anomalous-verticesdetection/tree/master/data.

5.2 实验
  1. 从构建的Graph中选择1000个节点,这样可以得到邻接矩阵(adjacency matrix)
  2. 再通过邻接矩阵计算相似矩阵(similarity matrices),上文已经介绍了论文当中定义的不同的相似函数,根据不同的相似函数,可以计算得到不同的相似矩阵。
  3. 用PCA对每一个相似矩阵降维

你可能感兴趣的:(异常检测)