算法系列 - 广告反作弊概述

以下所有内容均整理于各种博客

文章目录

  • 一、广告名词解释
  • 二、广告作弊手段
  • 三、广告反作弊规则方案
    • 3.1 用户标识
    • 3.2 用户行为
  • 3.3 广告来源
  • 四、广告反作弊机器学习方案
  • 五、参考文档

一、广告名词解释

网络营销之所以越来越受到重视一个主要的原因就是因为“精准”。相比较传统媒体的陈旧广告形式,网络营销能为广告主带来更为确切的效果与回报,更有传统媒体所没有的即时互动性。很多企业借助于精准的网络营销成为人尽皆知的知名品牌。众多的成功案例吸引着更多的企业计划投入到网络营销中的大潮中来。那么我们在做网络营销前应该要了解哪些基本知识呢?博大精微数据库营销今天开始为您一一讲解。首先我们来了解一下网络营销中的几个常见基本术语:CPA、CPS、CPM、CPT、CPC

他们的英文全称与基本含义分别是:

1.CPA(Cost Per Action) 每行动成本。CPA是一种按广告投放实际效果计价方式的广告,即按回应的有效问卷或注册来计费,而不限广告投放量。电子邮件营销(EDM)现在有很多都是CPA的方式在进行。

2.CPS(Cost Per Sales):以实际销售产品数量来换算广告刊登金额。CPS是一种以实际销售产品数量来计算广告费用的广告,这种广告更多的适合购物类、导购类、网址导航类的网站,需要精准的流量才能带来转化。

3.CPM(Cost Per Mille) 每千人成本。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费。

4.CPT(Cost Per Time) 每时间段成本。CPT是一种以时间来计费的广告,国内很多的网站都是按照“一个星期多少钱”这种固定收费模式来收费。

5.CPC(Cost Per Click) 每点击成本。CPC是一种点击付费广告,根据广告被点击的次数收费。如关键词广告一般采用这种定价模式,比较典型的有Google广告联盟的AdSense for Content和百度联盟的百度竞价广告。

通过以上信息我们知道:

(1)CPT和CPM只在第一步收取广告费用,即媒体只需要将广告对广告受众进行了展示,即可向广告商收取广告费用。

(2)CPC只收取第二步费用,消费者看到广告后并进行了点击行为以后,媒体向广告商收取广告费用。

(3)CPA和CPS处于第三步,即消费者有看到广告后并点击了广告,进一步了解活动情况后在广告主的网站完成某些特定行为(例如付款消费,填表注册等)。

二、广告作弊手段

古语说:无利不起早,所有的作弊行为都是基于一些利益导致的。

结合互联网广告的结算方式和角色诉求,常见的作弊方法有以下几种:刷请求,刷曝光,刷点击,刷留存,刷激活

对应以上的结算方式

CPD和CPM广告一般对应的刷量方式就是刷请求,曝光。

CPC一般要对应刷点击,

CPA,CPS需要刷留存,刷激活等行为。

目前已知的刷量方式有以下几种:

机器模拟:使用机器或程序来模拟广告行为,或者通过木马和肉鸡模拟用户的广告行为。为了使点击行为不被规则类发现还会控制ip分布和时间。机器模拟有如下的方法:

模拟器:BlueStacks, AndyWin, GenyMotion

Spoofer: 不断的修改机器的IP , IMEI, MAC等

Proxy: 网关,修改ISP, IP, UA , 设备类型等

苹果: 没有模拟器,主要通过硬件和软件模拟

激励流量(incent Traffic ): 真实人流量,但是转化率差的流量。

其实对于请求,曝光,点击等行为本质上是一样的,都可以使用以上的方式进行请求,不同的地方大多是不同的服务地址。

刷激活方法:作弊广告渠道商采集了非常多的设备信息,他们会疯狂往对方广告点击日志服务器发送设备点击信息,当激活日志服务器采集到对应设备的激活,就会认为是该作弊渠道商的。

用户户无意行为:媒体或网盟的小站长在页面挂满广告或诱导小白用户误点击或刷新页面也会产生作弊数据。

人工作弊:真的雇人用真实的设备进行广告的各种行为操作。

还有一种不能算作作弊手段,但其依然是无效流量应该被排除,那就是搜索引擎。各家搜索引擎大量爬取着整个网络,依然会消耗巨大的广告预算。

三、广告反作弊规则方案

反作弊工作需要事前预防、事后追溯、人工排查、智能算法等方式多管齐下。下面从“ 用户标识、 用户行为、 广告来源” 三个角度讲解反作弊的基础理论和方法,基于这些理论和方法,我们才能更好地去完善反作弊算法和人工排查。

3.1 用户标识

一般是根据IP、 cookie(或设备ID)作为分辨用户的依据,统计某些用户是否存在高频次或高频率曝光或点击。

有些媒体会通过机器人来变换IP,干扰视线,这种情况下就必须综合考虑浏览器指纹等信息来识别作弊流量。比如: 当IP或者cookie都不一样,但是这群IP或者cookie的浏览器型号、分辨率、用户窗口大小、操作系统版本号、设备品牌都相同时,就需要引起特别注意。

3.2 用户行为

广告浏览/点击对用户的广告浏览频次/频率和点击的频次/频率进行分析。常见的作弊行为模式包括:

  1. 同一用户、同一时间在多个广告位产生了浏览或点击行为,或短时间内在同一广告位产生多次曝光或点击;

  2. 同一用户的广告浏览或点击时间间隔过于规律;

  3. 曝光数和点击数在某个时间点暴涨;

  4. 用户未浏览广告就直接产生了点击行为,通常表现为出现大量无曝光的点击;

  5. 用户浏览广告的面积和时长数据异常,可用广告可见度(Viewability)衡量和分析;

  6. 用户点击广告的位置过于规律或过于集中,一般用广告位热图来观察分析;

  7. 用户行为的各环节(浏览广告->点击广告->到站->转化)遵循严谨的时间先后顺序,如果点击广告的时间早于浏览广告的时间,或浏览和点击行为之间的时间间隔异常,一般可以判断为作弊。

到站情况综合考量用户留存、停留时间,访问深度等指标,用于分析转化用户的质量。同时,还得关注用户的站内交互情况(点击、滚动、输入等操作)。和广告点击作弊一样,为了制造用户活跃的假象,作弊的媒体供应方可能会利用机器产生大量页面点击,同样地,我们可以利用点击的区域、次数、频率、页面窗口大小等指标去伪存真。

3.3 广告来源

对到站流量进行来源页面(一般叫refer)的侦查。将refer数据与投放媒体进行匹配,如果出现以下情况,则可以判定为作弊流量:

1.出现大量无refer的广告流量:一般是通过非法手段直接刷广告点击代码,而不是通过媒体页面上的广告点击跳转。

2.refer与所投放的媒体不对应,例如要求投向A网站,refer却出现大量B网站

四、广告反作弊机器学习方案

反作弊最重要的是识别作弊用户,即确定作弊用户的行为规则或规律,也就是行为异常点,而找异常值的方法论很多:
1.统计学方法对异常值的检测(3σ探测方法、四分位数展布法等)
2.基于距离的异常值检测
3.基于分类模型的异常值检测,这即是通过机器学习的方法。(根据已有的数据,然后建立模型,得到异常行为的模型特征库,

然后对新来的数据点进行判断:贝叶斯模型、神经网络模型、决策树、SVM等分类模型)
由上我们可以看出机器学习只是反作弊的一种实现途径之一,至于选择哪一种途径实现反作弊还是要看具体的业务场景和实现成本。
还必须要指出的是这样找出的异常行为点,并不一定就能够作弊用户的识别规则,还需要对异常行为点做事后的验证。

如果确实要用机器学习做反作弊,我们还是要按反作弊的正常流程走,只是在各个实现过程运用机器学习。

首先,我们要先了解会有哪些作弊行为:
1.流氓软件后台展示。
2.不断变更设备信息,模拟用户行为。
3.设备伪装,主要通过篡改设备ID号,并伪造虚假的网络环境。
4.伪造点击日志

其次,看一下作弊行为可能有哪些表现:
1.广告CTR异常:主要指虚拟点击或恶意点击,即Click/PV过高比例,或者起伏很大。
2.广告访问IP分布异常:少量IP产生大量点击或者曝光,及用户IP对应物理地址变化异常。
3.URL,访问者指纹信息(浏览器,操作系统等)异常:例如大量的点击或者曝光数,都来自于同一版本的浏览器或操作系统,或者占比过高。
4.广告点击没有对应的曝光请求(这个就不建议用机器学习了,不过用户特征足够多的话,也可以做实时预测,但预测的准确率可能没有事后线下匹配的准确率高)。
5.激活与点击时间差过短;
6.广告访问时间分布异常。
7.户机对应异常
8.请求量异常

再次,根据作弊行为的表现特征获取反作弊策略(这里就可以用到机器学习的方法)和历史黑名单库;其中历史黑名单库可以有设备黑名单库和ip黑名单库等

五、参考文档

  1. CPA、CPS、CPM、CPT、CPC 是什么
  2. 互联网广告作弊与反作弊综述
  3. 震惊!广告竟然也有反作弊?
  4. 浅谈广告反作弊
  5. 如何用机器学习做广告反作弊?

你可能感兴趣的:(反作弊,数据结构/算法,机器学习/深度学习)