WSDM2018: 一种基于邻居信息的水军发现算法

阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:WSDM2018: 一种基于邻居信息的水军发现算法

Parisa Kaghazgaran, James Caverlee, and Anna Squicciarini. 2018. Combat- ing Crowdsourced Review Manipulators: A Neighborhood-Based Approach. In WSDM 2018 

 

1.背景介绍

 

许多电子商务和O2O服务平台都提供商品的打分和评价功能。评价和评分能够反映用户对商户提供商品的满意程度。评分信息一方面有助于新的用户选择商品,另一方面对商家起着监督和促进作用。

 

因为网络平台的匿名性和开放性,对商品的评价进行人为操纵显得轻而易举。其中一种方法是通过众包,即付费雇人进行好评。在国外,有Rapidworkers,ShortTask,Amazon Mechanical Turk等众包网站,国内有猪八戒网以及各种各样的积分墙软件提供类似的服务。

 

WSDM2018: 一种基于邻居信息的水军发现算法_第1张图片

某国外众包网站上发布的任务

 

对于传统水军行为,尤其是由机器操纵的水军行为,往往在时间上和内容上有区别于正常用户行为的特征。但是通过众包产生的虚假评价都由一些真实用户发布,所以这类行为相较机器行为较难检测。

 

这篇文章就是利用网络结构特征来检测在亚马逊上通过众包发送虚假评论的用户。

 

作者设计了两个爬虫,第一个爬虫将众包网站上发布过众包任务的亚马逊商品爬取下来,第二个爬虫将上述刷评价商品在亚马逊上的所有评论信息爬取下来。加上一些从正常商品中爬取的用户和评价信息,一起构成最终的实验数据集。

 

由于数据没有标注,作者设计了两种标注方法:如果一个用户评价了两个以上的“众包商品”(大约300个),就认为他们都是水军。因为亚马逊几百万商品中同时评论两个商品的概率太小了。另一种方法直接将评价过“众包商品”的用户都标记为水军。

 

WSDM2018: 一种基于邻居信息的水军发现算法_第2张图片

TwoFace 模型框架

 

2.模型介绍

 

文章提出了一个名为 TwoFace 的算法。该算法模型分为三步:

 

第一步

通过一些种子用户找到更多的可疑用户。种子用户有不同的选取方法,可以是选择那些评价过“众包商品”数量最多的用户,也可以随机选择,也可以选择那些评价次数最少的用户。最后的实验会比较不同选择方法的表现。

 

选择好种子用户后,作者构建了一种 co-review graph,即评价过相同商品的用户会有一条边,边的权重是评价过相同商品的数量。最后基于种子用户在图上进行随机游走(random walk),将种子用户的“影响力”扩散出去。这一步结束后我们会得到一个基于种子用户的可疑用户排行。

 

第一步的想法来源于这样一个设想:评价过相同商品的用户具有更高的相似性。我们假设这些众包用户会接重复的刷评分的订单。通过在 co-review graph 上进行随机游走,我们能发现和种子用户最相似的用户。

 

第二步

这一步是对用户的 co-review graph 进行图嵌入操作。这一步是对上一步的补充,考虑到用户在 co-review graph 上面的距离较远的情形,这种情况下随机游走无法到达。

 

距离较远意味着用户评价的商品没有相似性,但由于众包平台的订单分散性,所以即使没有这样的相似性,也能不能排除其是刷量用户的可能性。如下图所示,用户5和用户10 的距离很远,但是这两个用户与其周围邻居构成的局部图却十分相似。

 

WSDM2018: 一种基于邻居信息的水军发现算法_第3张图片

 

用户的 co-review graph

 

为了捕捉这样的特征,作者借鉴了这几年逐渐流行的图嵌入(graph embedding)方法,将节点与其周围邻居节点的嵌入到一个低维向量空间中。

 

本文使用了 Jure Leskovec 组于2016年 KDD 提出的 node2vec 嵌入方法。简单来说就是对 DFS(深度优先) 和 BFS(广度优先) 搜索的结果进行采样,能够有效保存其邻居节点的结构信息。

 

第三步

这一步使用一些常用的分类器对第二步构建的向量进行有监督的学习。训练集的正样本来自种子集和其随机游走到达的节点,负样本来自普通商品中采样的正常用户。

 

本文选取了逻辑回归,朴素贝叶斯,随机森林,支持向量机和决策树这些经典的分类算法。

 

3.实验结果

 

本文的实验部分验证了之前的几个假设。在种子用户的选择方法上,选择那些连接“众包商品”数量最多的用户要比随机选择用户的效果好。

 

在随机游走这方面,实验证明了选择随机游走之后的节点作为正样本比直接选择种子节点作为正样本效果要好。说明了利用网络结构进行相似度的传播能够捕捉到更多的可疑用户。

 

在分类器的表现上,逻辑回归有较好的召回率(91%),这篇文章更多关注召回率,高的召回率说明其能发现更多的水军用户。

 

上文提到的两种标注方法产生了两个数据集,在第二个更“宽松”的数据集中,目前算法的表现要好于“严格”的数据集。由于“宽松”的数据集将只评价过一个“众包商品”的账户也标记为可疑,表现变好说明一些只评价了“众包用户”的账户可能连接着更多的可疑账户。

 

实验中作者还比较了 TwoFace 算法和基于密集区块(dense block)的检测方法以及基于经典特征的算法。新的算法在召回率上的表现好于这些算法。这说明这种考虑网络结构特征的算法能够有效检测到通过通过众包方式产生虚假评论的水军账户 。

 

4.总结

 

总体而言,这篇文章结合了两种提取网络结构特征的方法,能够有效地检测出“众包攻击”这种独特的攻击方法。文章也有缺点,例如 ground truth 的可信度不是很高。

 

在未来的研究中,该研究方法可以在其他相似场景例如 Yelp 和 App Store  进行进一步验证。也可以考虑加入非网络结构的特征进一步提高算法的表现。

阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:WSDM2018: 一种基于邻居信息的水军发现算法

你可能感兴趣的:(fraud,detection)