她设3关揪App刷量 10分钟识别92%假注册

“原本以为App推广作弊情况占20%,我认了,没想到结果是80%。”

 “量江湖”创始人赵晔

文| 铅笔道 记者 赵远

导语

2015年3月,一家合作的O2O平台找上门来,径直将用户数据摔在桌上。赵晔惊讶地发现,通过某渠道获取的用户,80%为虚假用户。面对O2O平台的责问,她无言以对。

2013年,赵晔创办北京比邻弘科科技有限公司,从事大数据营销,为广告主抓取精准用户。她与新浪微博合作,将该平台的广告转化率由3‰~5‰提升至7%,最高能到18%~19%。

当她准备将这套模式向App推广复制时,却陷入困境。彼时,App推广作弊泛滥,并已陷入“狗咬尾巴”的怪圈。

疯狂的作弊推广摧毁了赵晔原本的产品构想。她调转思路,瞄准“反欺诈”方向,成立“量江湖”项目。

“量江湖”系统通过分析近百项用户数据,如IP地址、SSID(无线网络名称)等,鉴别真假用户,帮助企业了解真实用户的需求。

产品运行过程如下:

截至目前,“量江湖”已与“去哪儿网”等108家企业建立合作,共检测6000多万用户,95%的检测可在10分钟内完成,准确率超过92%。

注: 赵晔已确认文中数据真实无误,铅笔道愿与她一起为内容真实性背书。

跳出作弊怪圈

2013年的大半时间,用户在新浪微博上看到什么样的广告,赵晔说了算。

彼时,她与新浪微博合作,为广告主抓取精准用户,做大数据营销。“花在错误受众身上的广告费用,实在太浪费了。”

她依照社会学特征、消费习惯和兴趣爱好三个指标,建立用户模型,有选择地将广告库中的上百条广告推送给相应用户。“我们与新浪合作后,广告转化率平均达7%,最高能到18%~19%,而它此前的转化率只有3‰~5‰。”

在微博攻城略地后,赵晔准备将这套模式向App推广复制。她与七八十家App建立合作,为它们“抓”用户。

结果,她发现App推广作弊泛滥,并已陷入“狗咬尾巴”的怪圈。“免费软件要盈利,只能依靠流量吸引广告主。某些声称每天有20万独立访客的软件,真实用户可能只有2000人。软件所有者自己给自己造假。”

疯狂的作弊摧毁了赵晔的产品构想。她依靠分析用户数据、提高广告转化率盈利,但如果有一半的用户数据是假的,“我们将毫无价值”。

两条路摆在她面前:同流合污,或者冲破怪圈。

两家国外公司让她看到“反欺诈”的发展方向。2014年底,深受作弊困扰的赵晔召集员工商讨对策。查询资料时,两家反欺诈公司Palantir和Sift Sciences跳入她的视野。“它们依靠机器学习和大数据实现反欺诈,而这样的技术,我们也已掌握。”

调研国内公司后,“反欺诈”的产品方向进一步明确。“去哪儿、乐视和墨迹天气等公司,均为产品推广部门并列设置了运营数据部,专门甄别推广所获用户的真实性。”

2015年3月,一家O2O平台找上门来,径直将用户数据摔在桌子上。赵晔采用某渠道获取的用户,80%是虚假的。面对O2O平台的责问,她无言以对。

作弊泛滥到她不敢想象的地步,“原本以为作弊情况占20%,我们也认了,没想到结果是80%”。

赵晔决定跳出App作弊怪圈,成立“量江湖”项目。

三层体系识别用户

一台电脑前,摆放着100多部手机,它们统一启动、运行、退出App。这是刷量作弊的场景,赵晔完全不陌生。

项目开始运作,她先假装用户,与四五十家刷量公司取得联系,积累作弊方法。

机刷是推广作弊最常用的手法,所占比例超过50%。“以前的机刷使用同一个IP,但现在的机刷变得很复杂,运营人员使用肉眼根本无法识别。”

机刷之外,还有肉刷和积分墙作弊。肉刷因需要人工操作而得名;而积分墙作弊是指App推广人员以金钱等利益引诱用户下载,“这种方式获取的用户并非真实用户”。

而在“量江湖”上,用户数据进入系统后,首先被标记“数字DNA”。“数字DNA是综合IP地址等设备参数,重新生成的设备编码。它构建起反作弊体系的坐标系。”

标记完成,闯关游戏开始。

第一关,用户数据到达“初滤识别层”。初滤识别层过滤明显的虚假用户数据,几秒内即可完成。“如果使用同一个IP地址刷量,那么这种不用心的做法肯定会在这一层被揪出来。”

接着,用户数据被传送至第二关“再滤识别层”,开始进入“量江湖”的核心地带。“初滤识别层只是比对设备信息,谁都做得了。但是现在作弊手段日益复杂,第一层只能检测出5%~20%的虚假用户。”

“量江湖”建立用户行为数据库。赵晔依靠自有渠道、运营商渠道和移动广告渠道获取了5亿以上的用户行为数据。正常用户的群体行为分布,赵晔一清二楚。“检测10万用户,如果发现使用电信的用户比使用移动的还多,那么这批用户就值得怀疑。”

95%的作弊数据会在前两关折戟,而剩余的“疑难杂症”则进入最后一关“终滤识别层”。“量江湖”将调动大数据综合评定各项指标,并与异常行为特征一一对比,这一过程需要耗时三天。

三关过后,用户被分别划分为正常用户、可疑用户或异常用户。

 “量江湖”可视化识别结果

产品研发完成,进入试运营。2015年7月,赵晔找到十六七家公司,免费提供试用机会。

“量江湖”将SDK接入合作方的App,“我们的SDK不收集用户敏感信息,并且接入便捷,熟练程序员在一小时内即可完成操作”。用户数据通过SDK传输至“量江湖”的识别系统,识别结果通过SaaS实时显示给合作方。

10分钟识别92%异常用户

试运行一段时间后,赵晔着手优化产品性能。

首先,她缩短检测时间。分层识别系统发挥了优势,“95%的用户数据只需经过两层识别,所以缩短这两层的识别时间最有效果。”3个月后,通过这两层的识别时间由四五个小时缩短至10分钟。

接着,她提高检测准确率。“量江湖”包含IP地址等上百个识别项,并且为每个项设置了不同的权重。加权运算后,生成识别“值”。依照“值”的大小,用户被划分为正常、可疑和异常用户三类。

准确率的提高依赖算法的调整。“设置无规律SSID(无线网络名称)的用户,会被系统怀疑。但如果合作方反馈的数据表明他是正常用户,我们就会降低这个项目的权重,使识别错误率越来越低。”

2015年10月,异常用户的识别准确率增至92%,赵晔有了信心,开始与“去哪儿网”合作。

识别真实用户是赵晔的筹码,“‘去哪儿网’可以了解真实用户的需求”。

这首先有利于“去哪儿网”的业务运营。“我们不仅会指出某部分用户是真实的,并且会指出哪些用户有购票倾向。对于这部分用户,他们可以重点运营。”

产品运营同样获益。“运营者为产品增加某项功能后,也许真实用户在减少,但虚假用户掩盖了这种状况,运营者可能被迷惑。剔除虚假用户后,真实用户的情况才能对产品运营施加正向作用。”

截至目前,“量江湖”已检测6000多万用户,95%的检测可在10分钟内完成,准确率达92%以上。此外,“量江湖”已与近30家大公司、70多家小公司建立合作,面向企业的付费服务费每年由6万到120万不等。

未来,除识别真假用户外,“量江湖”还将进一步细分,做更精细的用户画像,为App运营者提供基于用户价值识别的的运营数据服务。

/The End/

编辑   王  姝      校对   罗正臣

求报道

你可能感兴趣的:(运营,产品)