反作弊

                                              反作弊

反作弊主要业务流程:

 反作弊_第1张图片

常见作弊方式:

机器作弊:机器刷量、任务分发、流量劫持

人为作弊:QQ群/水军、直接人工、诱导

 

常见作弊手段:

电商:刷单,刷信誉,刷好评,职业差评师

支付平台:洗钱,诈骗

广告:数据造假、刷流量 (引流—广告展示—广告点击—转化)

自媒体、社交软件:刷粉丝、刷点击、阅读量

搜索:seo使用作弊手段刷排名(案例:2015蜻蜓FM “普罗米修斯”、“宙斯”函数,修改转化量、流量在前端展现欺骗投资人,被对手反编译识破)

 

广告作弊涉及的点击类型分类:

1、  按照是否找商品找服务为目的

2、  是否按照是否恶意,有无真实转化为依据

(CPC基于点击计费的模式、CPA基于成交的点击进行收费)

 

点击四大分类:

无效点击(没有形成转化的意愿,仅仅浏览)

恶意点击(必须识别出来)

转化点击(真实意愿点击)

误点(不是以找商品为目的,例如内部人员点击,需要识别出来)

 

人群划分:

误点:员工、广告主自己、竞品销售中介、爬虫

恶意点击:同行、同行朋友、联盟站点、机器

 

反作弊策略应对框架:

数据层:鼠标轨迹行为、指纹数据、案例库、行为数据

特征层:离散指标、连续指标

行为识别层:点击识别模型、异常监测模型、流量识别模型、关系图模型、人群识别模型

策略应对层:规则

 

三层监控指标体系,提前预警:

运营指标监控:投诉率、转化率、撞线速率/频率、消耗速率、通过率

规则监控指标:拦截率、准确率、覆盖率

异常监控指标:IP维度、Cookie维度、计费名维度、广告维度、设备维度、鼠标轨迹维度

 

分类监控、分级响应:

1、  针对监控情况、采用四级响应机制;

2、  红色:非常严重,需要自动化采取短期策略应对,例如临时黑名单机制

3、  橙色:较为严重,短信举报,要求4h内完成分析和短平快策略压制,后续进一步处理

 

机器学习在反作弊应用几个案例:

如关联规则、决策树模型:策略挖掘—规则自动提取

确定建模问题:自动发现规则、辅助策略设计;

应用:挖出的规则,上线到离线反作弊系统

评估指标:支持度、置信度、覆盖率、拦截率

 

流量聚类分级模型,kmeans算法:异常行为识别—流量识别

作用:支持流量分级打折策略

例如分为以下类别,特征描述:

1、  主要为品牌浏览器入口,转化效果较好,用户粘性较高;

2、  电话转化很好,包括搜索行为、点击行为、转化行为都较好;

3、  电话转化良好,没有明显的特征异常;

4、  电话转化率略偏低,详情页其它点击行为略偏少;

5、  详情页停留时间短,转化效果特别差;

6、  电话转化很好,无其它任何转化行为,专门点击商业广告,行为非常异常;

7、  点击率高,无转化,行为非常异常.

 

如半监督或图算法:异常行为识别—基于关系发现:

作弊用户标签比较少,如何召回更多的数量?

借助半监督或图算法发现更多的异常用户·

 

SVM算法:异常行为识别—销售识别

作用:识别用户是否销售

数据来源:行为日志,聊天记录

惩罚系数C,选择RBF函数作为kernel的参数gamma的选择.

粗粒度搜索:

  对大数据集,先选择一个较小的子集做粗粒度搜索;

  选择较大的步长,找到一个最优的(c,g)局部区域.

细粒度搜索:

       在局部区域,以较小的步长,找到全局最优的(c,g)

 

如图论与余弦距离:搜索引擎防作弊

图论:作弊的网站一般需要相互链接,以提高自己的排名,这样在互联网大图中形成一些Clique.图论中有专门发现Clique的方法.

余弦距离:那些卖链接的网站,都有大量的出链(这些出链的特点和不作弊的网站出链特点大不相同).每一个网站到其他网站的出链数目可以作为一个向量,计算余弦距离.发现,有些网站的出链向量之间的余弦距离几乎为1.一般来讲这些网站通常是一个人建的,目的只有一个:卖链接.

在淘宝上,有一种算法叫做“千人千面算法”,首先来看下作弊的几个方面:

1、同IP

也就是说你朋友都不能买你的东西,因为你们两个人早晚是会在一起碰面的,两个人碰面就是IP碰面,所以,买你宝贝的那个人,你们两个人的IP永远不能相见,也就是说你们两个人永远不能相见!

2、性别

假如你的淘宝店铺卖的是连衣裙,老是有男买家隔三差五的在你家买这件宝贝,你觉着正常,男朋友帮买怎么了?我用男朋友的号买怎么了?可是算法认为你是在作弊!你是在刷宝贝!

3、行为

这种行为指的就是假如你在刷宝贝,你没有具体的流程,每一个帮你刷流量的人都是搜索关键词,找到你家宝贝,点击收藏,加入购物车,然后下单,你都觉着不可能,更别说算法了!

4、年龄

你家淘宝店铺卖的是丝袜,行,你男朋友帮你买,可是你找的人都有40岁往上的,谁家40岁的男人帮媳妇在网上买丝袜?最好就是你找18-30岁之间的女性刷宝贝是最正常不过的了!

5、能力

支付宝都是实名认证的,对我们的好多都了如执掌,你卖意大利名牌古弛,你却老是找一些大学生帮你刷单,这就肯定是有问题的,学生能力有限,没有工作,买这么名贵的皮具肯定也是有些问题的!

使用关联规则检测刷单作弊行为

最近发现我们平台上的个别内容提供商使用一些违规的手段,对自己所属的收费内容进行刷单作弊。从其他渠道以很优惠的价格购买代金券,在平台消费自己的项目内容,从而获得结算分成与成本的金额差价。

因为需要对该问题进一步重视和监控,我也在考虑一些检测方法,其中一个就是本文介绍的基于数据挖掘中的关联规则(Association Rules)的算法进行尝试分析。对于关联规则的算法原理在此就不赘述。

家喻户晓的一个利用关联规则的案例是沃尔玛啤酒尿布的案例,目的是发现客户购物篮中经常被同时购买的商品。本例与啤酒尿布案例类似。主要因为内容商使用低价购买的客户账号购买自己的商品,但基于以下分析,本案例中可能会产生较强的关联效应:

(1)对同一批内容商品进行购买,会节约作弊成本。

(2)由于客户帐号有限,必将会出现一个客户账号购买很多内容项目的现象。

而与沃尔玛的案例不同的是,沃尔玛的案例是探索的正向积极的事件,本例是要发现的是负向消极的事件。沃尔玛的案例中要求事件的支持度(support)要较高,即事件能够经常发生才能有意义,置信度(confidence)只要适当即可,不要求过高;而本例因为是需要稽查异常,所以不能要求支持度高,相反置信度一定要比较高,即当某时间发生以后,另一关联的时间也发生的概率要很高才行。

通过初步的设想,提取出某一天的客户订单数据进行建模,模型如下所示:

反作弊_第2张图片

关联规则模型设置如下:

反作弊_第3张图片

因为使用的是事务型数据格式(按交易明细进行记录的,特点是一个客户标识可以有多条数据),所以需要勾选 use transaction format这个选项。此外因为本例需要对全部的CASE进行关联分析,因此没有对数据进行分区。

反作弊_第4张图片

上面已经介绍了本例要求低支持度和高置信度的设置。因为本例只需要发现任意两个内容项目的关联即可,所以只将最大前项数(maximum number of antecedents)为1。

最后得出的模型结果如下:

反作弊_第5张图片

从结果模型上可以看到,两内容项目的关联程度可以高达百分之百,即用户购买了某一个内容项目,那这个用户100%会购买另一个内容项目,可见它们俩之间很可能存在猫腻,而这个规则也正是我想要寻找的。

尽管这些规则的支持度都很低,但刷量作弊属于异常事件,不能要求高支持度。

将模型导出文本,并将这些内容项目进行整理,通过对这些项目的购买清单进行观察分析,发现产生在这些内容项目的订单95%以上存在很强的作弊嫌疑,由此验证,此关联模型对此类作弊行为有较强的检查能力。

反作弊_第6张图片

现阶段只对该模型可行性进行尝试,尚未考虑模型的部署,本文只介绍到此,希望能对朋友们有一定的启发。

使用反作弊算法检测刷单作弊行为

以Amazon的Review算法为例:

001

Verified Purchase。直评已死,这个时候再去刷直评非但没有意义,反而可能会出现如上图群聊中出现的“上好评排名会跌”的情况。

所以要刷就刷VP吧。还记得年初的封号风波吗,这些卖家大多数是因为刷单被姐夫“秋后算账”;船长在之前的分享中有向大家提到一个刷单建议,模仿真实购买行为。

亚马逊希望所有的评论都是诚实的,而在他的监控中,如果我们能做到“仿真”,也就能避开惩罚了。具体如何模仿真实购买行为地刷单,我们根据下文的影响因素一一分析。

002

留评频率与间隔时间。留评频率越高,间隔时间越短,权重就越高。

如果一款产品不断地来好评,这就意味着该产品受欢迎。也就是说,你需要根据自己的产品特性来规划规划刷单的频率,留评的频率,留评间隔的时间。当然,时间和频率的把控同时也需要考虑到产品的销售周期,比如你不能在站点的冬季持续刷泳装的单并留评论,是吧。

既然说到时间和频率,大家在刷单刷评是需要注意,一般情况下,在买家真实购买行为中,账号成交量平均一个月最多10-20单,留评数量不超过10%,在越来越苛刻的评论政策之下,不超过5%是最好的。

也就是说,大家在选择刷单资源,或者自己组建刷单团队时,除了需要规划好在listing上留评的时间与频率,也需要根据成交情况、留评时间与频率筛选合适的买家账号。

003

字数、内容与比例,也就是评论内容的质量。刷单需求越大,刷单者的胃口也被养得很大,卖家们经常会花了很多钱却被随便一个“good”或者“wonderful”的五星敷衍了事,在现在新的算法之下,这类属于低价值的评论是对权重排名没有帮助的。

Review都有专员审核,亚马逊希望review能够真实反映产品的情况,给买家参考,避免产生不良购物体验,客观丰富完整的review内容是能够提高权重的。

现在刷评论的一个标准,要让买家当真,也要让姐夫当真。站在真实买家(产品购买者、使用者)的角度去客观评价这个产品,甚至不全是五星好评;根据客服提供的依据,还需要有有趣且幽默的评论内容并且数量要在最新10个reviews中占一定比例的,比如每10个评论(包括好评、中评和差评)至少1-2个有趣的评论,以此类推。

如果评论的内容不知道怎么下手,可以通过查询竞争对手的review,挑选靠前、内容较丰富并且“helpful”数量较多的VP评论模仿,切记是模仿不是照搬照抄。至于有趣的内容,最好搭配相关的、有趣的图片或视频,特别是童装、玩具这些婴儿的产品,可以利用的素材就更多了。

004

Review中的“helpful”数量。这是个陷阱!点击“helpful”(俗称“点赞”)也是需要买家账号,但如果你不小心用了一些“质量差”的买家账号刷点击,那就完蛋了。

首先,使用质量好的买家账号。上文中船长也有介绍到,真实买家账号成交量平均一个月最多10-20单,留评数量不超过10%,另外还需要注意的是账号使用年限和使用习惯,一般来说,越老的账号越好,但拒绝老僵尸号;并且,买家账号也要防关联,关联条件与卖家账号相同。

接着,用这些质量好的买家账号模仿真实的买家点赞行为。从登录买家账号到点赞,一般是需要经过这些步骤的:

1→搜索:通过亚马逊前台键入你的产品关键词,或者通过你的产品对应品类去搜索,也可以通过品牌名搜索(小卖家不建议直接搜索品牌名)。

2→对比:一页页去找你的listing,查找过程中随意点击几个别人家的listings浏览几秒钟,翻翻评价和Q&A,并在两三个产品页面停留时间稍久一些。

3→点赞:一番操作后找到你的产品,到评论区后也不要马上找到目标review点赞,可以浏览首页或前几页的评论,翻开折叠的回复查看,点开图片或者视频,甚至离开这个产品页面之后再回来浏览、点赞。

005

Review原星级分数,即原来Review星级的分数;这个影响因素已经没法去改变,但不代表原先分数低现在就没法提高,从其他因素着手去优化即可。

006

详情页面被点击次数、买家离开该详情页面次数、买家又再次返回该详情页面比率。其实就是要按照买家正常购买的顺序逻辑,换位思考,你在网购商品的时候是怎样操作的,就按照类似的顺序逻辑去刷单就是了。

除了review算法的改变,亚马逊也更新了“评论服务条款”,进一步保护review的真实性,同时也制定了惩罚政策,简单讲就是,操控评论,后果很严重。

但是,不刷单是不可能的,特别是对于新产品,没有销量就没有评论,没有评论就没有排名,没有排名就没有销量。

上文中船长给大家的建议是“模仿真实购买行为”的刷单方法,虽然复杂,成本也比较大,但是能降低一定的风险。当然,如果你是不刷单的乖乖卖家,除了坐等买家评价,你也该主动通过邮件索评增加真实review。

船长www.amzcaptain.com的【CRM-系统智能营销-索取好评】功能十分成熟了,并且配备英、法、德、意、西、日6语种的索评邮件模板,适应9大站点。

反作弊_第7张图片

创建任务后系统按规则自动发送索评邮件,可过滤黑名单、留过差评、取消订单的买家,支持查看打开率。

【参考】

http://www.cnblogs.com/jiasenhuo/p/9678584.html

https://www.jianshu.com/p/496bc24bf3ac

https://www.sohu.com/a/123944478_576946

http://datakung.com/?p=171

待修改,,,

你可能感兴趣的:(机器学习)