GEM:Heterogeneous Graph Neural Networks for Malicious Account Detection
GEM,Graph Embeddings for Malicious accounts
同质图中只有⼀种类型的节点和边(例如,只有朋友关系的社交网络),网络结构较为简单。因此,同质图神经网络通常只需要聚合单⼀类型的邻居来更新节点的表示即可(例如,通过在朋友关系下的邻居来更新节点表示)。
但真实世界中的图大部分都可以被自然地建模为异质图(多种类型的节点和边,如下图所示,IMDB 数据中包含三种类型的节点 Actor、Movie 和 Director,两种类型的边 Actor-Moive 和 Movie Director)。
作者:张俊
链接:https://zhuanlan.zhihu.com/p/96932421
来源:知乎
请注意,这里的“设备”可能是一个更广泛的概念。例如,设备可以是一个IP地址、一个电话号码,甚至是facebook中的一个类似页面。
在我们的数据中,我们收集了各种类型的设备,包括phone number,User Machine ID (UMID),MAC address, IMSI (International Mobile Subscriber Identity),APDID(Alipay Device ID)6 and TID)等,从而得到一个异构图。图中节点包括用户节点,设备节点,图中的边包括用户—设备边,用户—用户边
一个蓝色的点表示某账户在某设备上有行为,如登陆、注册。
左边的图是正常账户的模式,右边的图是恶意账户的模式,在某一设备上产生登录了大量不同的账户。
下面这幅图描述的是账户的行为随时间变化的模式,一个蓝色的点表示某账户在某一时间执行了某种行为。
左边的图是正常账户的行为模式,表明每一个新注册的正常账户在未来几天内的行为是均匀的。
右边的图是恶意账户的行为模式,则表明它们只会在短时间内执行操作。
图G=(V,E),V表示顶点,账户和设备都表示作顶点,E表示边。
边 ( i , j ) (i,j) (i,j)表示某时间段账户 i i i 登陆了设备 j j j ;
某时间段账户 i i i 和 i ′ i' i′ 都登陆了设备 j j j,那么账户 i i i 和账户 i ′ i' i′ 之间存在一条边,用表示 ( i , i ′ ) (i,i') (i,i′)表示。
从我们的数据中选取部分构建图,共有210个顶点,包括20个正常账户(蓝色),7个恶意账户(黄色),其余顶点对应6种类型的设备。
用向量 x i = [ x i , 1 , … , x i , p ] ⊤ x_i=\left[x_{i}, 1, \ldots, x_{i, p}\right]^{\top} xi=[xi,1,…,xi,p]⊤表示账户 i i i 一天中的行为,其中,p=24, x i , p x_{i,p} xi,p表示
可以通过 x i T x i ′ x_i^Tx_{i'} xiTxi′计算两个账户的相似度,如果两个账户之间的相似度 x i T x i ′ < θ x_i^Tx_{i'}<\theta xiTxi′<θ,我们就删除掉连接这两个账户的边。 θ \theta θ是一个超参,可以控制图的稀疏程度。