互联网的发展改变了人们的生活习惯,人们花在互联网上的时间已经超过看电视的时间。相应的,互联网广告也超越传统媒体,成为影响力最大的广告渠道。
互联网广告成为主流
据实力传播发布的《2015全球三十强媒体主》报告:谷歌的广告收入比排名第二的迪士尼高出136%,之前一年这一数字为115%。其广告收入甚至超过了第二和第三名(有线电视运营商康卡斯特)广告收入总和。
榜单中的五家纯互联网媒体主:谷歌、Facebook、百度、雅虎及微软,广告收入总和达710亿美元,占全球数字广告收入的68%,而我们熟悉的CCTV在榜单中只位列第20名,低于排名14的百度。
互联网媒体们赚得盆满钵满,广告主们仍然在继续增加预算。
根据《2015中国互联网数字营销趋势报告》,网络广告支出预算占总预算六成以上,数字营销(互联网广告)已经超越电视渠道成为广告主最为重视的投放途径。
和传统的电视广告相比,互联网广告更加灵活,可以和用户互动,甚至可以直接促成用户点击、注册和下单,这些都是传统电视广告完全不能比拟的。
互联网广告作弊乱象
互联网广告繁荣的同时,也滋生了一系列乱象。
网络广告行业组织交互广告署援引的数据称,约36%的互联网流量被认为是虚假的,是由黑客控制的计算机生成的。所谓的僵尸流量欺骗了广告客户,因为通常情况下只要广告显示出来——无论是否被用户看到,广告客户就需要付费。
行骗者利用虚假流量哄抬网站流量,通过中间商向广告客户收费。安全专家指出,行骗者身份很难界定,他们通常远程操控网站,例如他们可能人在东欧地区。
根据全美广告商协会(Association of National Advertisers)的估计,虚假点击在今年将会给广告主们带来72亿美元的损失,这一数字比2015年的63亿美元增长了将近10亿美元,虚假点击量占整个网络广告点击量的比例超过了十分之一。
调查者们重点监测了49个品牌的网络广告,包括麦当劳、PlayStation、福特、惠普、沃尔玛、联合利华、戴尔、IBM及万事达。结果显示,四分之一的品牌广告的虚假点击率在9%以上,广告主们的损失平均达到了1000万美元。
甚至连媒体平台也会主动造假:
原WE队员微笑在斗鱼直播时,其显示观看人数竟然超过“13亿”!而2015年中国全国人口数量才13.6亿;
2010年世界杯期间,视频网站酷6网公布了世界杯期间日浏览量(PV)峰值达到3.99亿,日独立用户峰值为5233万,而后被爆出酷六首页上竟有多达5次的PV统计;世界杯专题页面上,打开一个日历嵌套页面,竟然也被计入一次PV统计。
互联网广告作弊日益成为一个让广告主们头疼的事情。
如何鉴别广告作弊
目前数字营销领域的广告大致分为两大类:
品牌广告以大企业的品牌宣传为主,多以千次曝光的形式计费,广告主追求的是长期的品牌溢价;
效果广告则多以单次点击或单次行为收费,更多关注广告投放后短时间内有没有实际转化和收益。
在实际投放中,广告主往往希望投放的结果是两者兼得品效结合,希望一次投放能保证时间、曝光、点击、地域、人群、设备、转化(注册、购买、问卷等行为)等多个指标。每一次广告曝光都涉及媒体、投放中间平台(DSP、adnetwork、adexchange等)和看广告的人这三个主要环节,广告主将一笔预算委托第三方平台进行广告投放后,其他环节对他们来说就是非透明的难以掌控的,这种信息不对称滋生了很大的数据作弊空间,其中的利益相关方可能有目的性的通过欺骗性手段实现广告效果。曝光作弊、点击作弊、转化作弊的行为并不鲜见,这也是广告主投放广告时的两点核心困惑。
对广告主而言,可以通过简单的数据分析方式发现一些明显的异常点。一份疑似作弊的投放数据报告有如下特征中的某一点或某几点:
点击或曝光数据中的异常峰值
点击或曝光出现峰值时转化数据并没有增长
点击或曝光出现峰值时到站流量反而下降
点击或曝光出现峰值时到站跳出率增长
投放的媒体属性和点击的地域属性不符(如投放某地域门户网站但点击数据集中于其他城市)
点击时间曲线和媒体的流量曲线不符
各广告位的CTR与广告形式的平均CTR不符(如横幅广告位CTR大于1%)
……
通过自动化的程序模拟点击是最常见也是成本极低的一种点击作弊方式,广告主可以通过分析点击数据日志区分真人点击和机器点击。
要确定是否是机器点击,通常可以通过以下两个维度甄别:
1. 点击请求的Headers异常:
Hearders请求中的Referer和Useragent是最直观判断机器行为的方法,在反爬虫策略中也应用广泛。机器行为模拟的点击请求由于没有正常访问路径,Referer可能为空,Useragent可能不是正常浏览器的Useragent。但Hearders非常容易伪装,这一策略只能甄别那些初级作弊者。
2. 点击行为分析:
机器点击具有一定的连续性,可以通过判断同IP同设备的连续点击、同IP段的大量点击、同IP连续点击间隔时间等进行判断。段位稍高的作弊者会通过改变IP地址、改变cookie地址、低频率点击等方式掩盖程序自动点击的特征,在这种情况下需要结合到站后的点击行为轨迹进行综合分析。
除了点击作弊之外,现在的网络广告作弊甚至能做到虚假转化。
广告主最看重的效果数据就是点击后的转化效果,比如用户注册数、商品下单数、参与活动的人数等。转化作弊即在注册、激活、下单等不同场景下通过自动化程序有针对性的模拟真人行为。
以转化作弊中的机器注册为例,除了传统的频率、次数的防御以外,目前有效的分析维度有:
注册者的URL访问轨迹:机器注册可能出现到站后只访问注册URL频繁注册的行为。
注册者是否查看了页面上的静态资源:机器注册在访问时只关心网页上的文字,在没有验证码的情况下不会加载页面上的CSS或JS信息。
不同账号同密码注册
注册者从到站到注册间的时间间隔:真人通过点击广告到站后往往在注册前会有较长
时间的浏览过程,而机器行为则会在到站后直奔主题,连续两个点击之间时间非常短。
从以上的例子可以看到,虽然广告的投放带来大量的新注册用户,但这批新注册用户可能充斥着僵尸用户,实际的留存率极低。广告主是数字营销领域作弊链中最大的受害者,因为有各种作弊手段的存在,广告主损失的不仅是大笔的广告预算,还有虚假转化带来的各种营销活动的虚假繁荣。
岂安科技的解决方案
网络广告作弊是一个很复杂又很庞大的事物,也没有完美的解决方案。
目前,解决网络广告作弊的思路大致有两种:
媒体平台加强反作弊算法,提高机器人识别率;
广告主自己对流量和转化进行甄别评估。
岂安科技基于第二种思路提出了一种解决方案:
无论广告是被虚假点击还是虚假转化,最终还是要回归到广告主的平台上。如果广告主使用岂安科技的业务风险分析平台WARDEN,就可以对流量进行全方位的监控,从而识别虚假流量、恶意注册和虚假订单,评估广告的真实效果,从源头上杜绝广告作弊的可能性。
反爬虫
文章来源:http://bigsec.com/