Graph mining assisted semi-supervised learning for fraudulent cash-out detection

Introduction


伪冒的发生模式


伪冒的问题配置



1. 有监督学习方式:LR,SVM, 神经网络

2. 混合的有监督学习方法

3. 通过聚类实现的半监督的学习方法

4. 传统图挖掘和监督学习的混合方法, 以下图为例


模型是如何在反欺诈商户的识别中发挥作用的

(前提1: 我们知道客户在欺诈伪冒场景中的好坏

   前提2 : 部分已知商户的好坏)




MRF估计


问题定义

此处最重要的一点是变量X:

顾客的某个子集和商户的某个子集有直接的,被观测到的是否发生伪冒或者欺诈行为

简单来说 就是:所有发生过伪冒欺诈的顾客扔进,发生过伪冒欺诈的商户扔进

变量X其实就为了构造MRF,对于X,X的元素指向了所有的客户和商户,但仅在商户和客户之间存在势函数


势函数定义


成对马尔可夫性


详情见博客:https://blog.csdn.net/hohaizx/article/details/82868843

论文中提出两种概念 ,prob + potential

1. prob: 作者对商户伪冒概率的定义是: 商户卷入伪冒交易事件的概率,而并不是去定义商户的好坏概率

2. potential : 作者认为在伪冒场景中,商户是中立的(potential = 0.5) 

                       但顾客会存在伪冒倾向(potential),且在二者关系的交易关系存在交易模式的伪冒倾向(顾客a在商户A中大额交易)。三者分别是独立的,但是一旦通过公式组合起来,便生成了“某商户卷入伪冒事件的概率” 

MRF

其中为交易边,softmax形式为

:是当前顾客在当前商户在当前交易类型下的伪冒倾向权重(indicates hemophilic relation)


边的计算(参数 目前未知,是参数估计的目标)

下述为节点的potential prob

依然  和也是未知参数,需要做参数估计

对于顾客而言,如果当前(时刻),那么他的伪冒倾向() (下一次卷入伪冒案件中的potential)应该还是保持不变 , 这同样也是一种马尔可夫过程

对于商户而言,potential 都被设定为0.5

节点公式



通过已标注的商户来进行上述未知参数的参数估计(估计用负样本进行极大似然估计就可以了)


参数估计转化为凸优化问题

你可能感兴趣的:(Graph mining assisted semi-supervised learning for fraudulent cash-out detection)