风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

    • 1、常识知识
    • 2、个例分析
    • 3、分布排查

智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善、强大,人们在衣、食、住、行、工作、生活中面临的方方面面问题,似乎都可以在移动设备端找到答案。这也直接导致了人们越来越依赖于移动设备,大量的时间与关注力都花费到了手机上。据统计,国人每天平均使用手机时长超过100分钟,每天使用手机时长超过10个小时的更是大有人在,吃饭、睡觉、交通出行都是机不离手,眼不离屏已然是大部分人的普遍状态。对大部分人来讲,手机才是其最忠实的伴侣,真正了解其人行为习惯、喜恶偏好、日常作息的,非他的手机莫属。
随着这种趋势应运而生的是大量的移动设备数据服务商,实时监控着我们移动设备上各种应用的安装、卸载、活跃以及位置打点信息。在信贷风控领域,移动设备数据早就成为了数字化业务中不可或缺的数据底座,大大小小的信贷平台,只要有数字化业务,都在直接或间接地把移动设备信息作为一个重要维度去刻画客户。目前行业内对移动设备数据的挖掘和应用虽然早已过了“立柱架梁”的阶段,还还远达不到“积厚成势”的程度,所以本文做个初步探讨,讲一下如何从APP数据中进一步挖掘出更多有效信息,用于数字化建模。
目前提供移动设备APP数据的厂商大体分为两类,一类是做SDK服务的厂商,像极光、友盟、个推等等;一类就是基于流量监控的运营商,像移动、联通等,每类厂商的数据都各有优劣。像SDK厂商数据,优势就在于APP信息全面,对于安卓设备来讲,只要嵌入了其SDK服务的APP活跃了,就可以把设备中所有的APP信息统统上报,所以数据服务商那里掌握着大几千万的APP映射关系,这也为APP数据的挖掘提供了广阔的空间;其劣势在于,覆盖度低,主要表现在三个方面,一是只覆盖部分设备,具体而言就是只有这个设备上使用了嵌入其SDK服务的APP,厂商才能获取到该设备的数据,如果一个设备没有安装嵌入其SDK服务的APP,那该设备对厂商来讲就是个盲点,目前没有一家SDK服务商一家独大,SDK服务能覆盖个市面上十万、百万的APP就算有规模了,而这个数字和目前过亿款的APP相比,实在不多;二是活跃上报频次低,一般只有当嵌入其SDK服务的APP活跃时,厂商才能接收到上报的信息,这就导致对于那些不覆盖主流APP的SDK厂商来讲,很多设备一个月也就能看到几次上报信息;三是挑设备,对于IOS设备,由于其安全级别比安卓更高,厂商就只能看到嵌入了其SDK的APP的信息,而不能扫描整个设备列表,导致设备上的其它APP信息完全获取不到。对于运营商来讲,其优势在于覆盖度高,只要该设备在使用此运营商的流量,那这些信息都会被详细地记录下来,虽然在使用WIFI网络情况下的设备信息无从得知,但这个数据全面性相比SDK可算是高多了,但其主要的劣势也比较突出,就是拨测的APP属实有限,目前来看,运营商也就拨测了2万多款APP,除了这2万多款APP,我们可以详细知道设备在哪个时点用了多长时间,其它APP的信息就全然不知了,这相比全量上亿的APP也就只是九牛一毛。
这就是目前我们面临的实际数据情况,这种情况下,想要做到全知全能,无比精细是完全不可能的,甚至想要做一些比较精细化的探索目前阶段也是非常困难的,挖掘工作再深入,也必然逃不出“可能”、“大概”的概率性问题。所以我们的工作就是要在这种现实情况下,尽量挖掘出更多概率性更高的、可用的有效信息。
变量设计通常来自两个思路,一是根据常识知识设计变量,二是根据客户的个例调查,发现异常特征,并提炼形成具有普遍性的变量。从这样正反两个思路出发,最终交汇才能发现并设计出较好用的变量。当我们能看到客户的APP详细列表数据的时候,还可以使用第三种较为特殊的分析方法,即查看APP分布的方法来排查出能识别优质客户或高风险客户的APP,并总结形成可用变量。我们就从这三个思路出发,看一下在实际业务中,如何设计出较为好用的APP变量。

1、常识知识

从常识知识出发设计变量,就是利用我们平日的常识认知、经验知识、结合分析过的客户画像、调研报告等等来从APP数据中挖掘可用信息。我们可以从好、坏两个维度出发,从资质、品质两个维度来设计变量。
对于好的维度,从资质角度来讲,一般有稳定工作、特定职业、或有特殊身份的客户我们认为资质较好。怎么判断客户有稳定工作呢,可以从这么几个维度判断:

  • 企业微信、钉钉、飞书这样的APP定期活跃;
  • 安装有发放企业福利的APP,比如东方福利网、给到等;
  • 使用办公类的APP,比如发票报销、思维导图、腾讯会议等;
  • 使用个人所得税APP报税等等;

特定职业怎么去发现呢,APP里面线索也很多:

  • 安装有以教师版、教师端、医生版、医生端结尾的APP;
  • 很多公务员有特定的公务出行APP,比如公务之家等;
  • 大型企业内部专用的APP,比如中国石油员工宝、中油e学等;

特殊身份,包括党员、退役军人、高端差旅人士等都是优质属性:

  • 党员,最常见的的学习强国APP可以单独一类;
  • 其它党员类APP,比如某某党建平台、红旗飘飘等;
  • 退役军人,迷彩网、退役军人之家APP安装等;
  • 商旅人士,飞常准、各种商旅、航旅类APP等;

对于好的维度,从行为品质维度上也可以挖掘出很多好品质,比如勤于学习、热爱运动、热心公益、自我管理等等,可以从以下思路进行APP的挖掘:

  • 勤于学习:网易公开课、CSDN学院、资格证书等APP;
  • 热爱运动:Keep、Fit等APP的使用;
  • 热心公益:各种志愿者、爱心包裹、社会义工类APP;除此之外,用于核酸采集信息的“采集”APP也是一个很好的线索,安装了这类APP的不是热心公益,就是医护人员;
  • 自我管理:像是时光序、小番茄等时间管理类APP使用,Forest专注、时间锁等手机使用时长管理的APP使用,冥想星球、潮汐等冥想类APP的使用、定投理财类财富管理类APP的使用等等;

对于坏的维度,我们同样从资质和品质两方面去挖掘。
坏的资质同样可以从不稳定性职业、特殊身份两方面入手去挖掘:
不稳定性职业有以下这些线索:

  • 司机,比如以司机端、司机版结尾的APP;万顺车主、首约司机等司机用的APP;
  • 外卖快递员,比如快递哥、美团众包等等APP;
  • 房屋中介,比如幸福里经纪人、移动经纪人APP等;
  • 保险销售,比如神行太保APP等;

比较高危的特殊身份有以下这些线索:

  • 社区矫正人员,数字化时代,很多社区矫正和服刑人员也开始被施行数字化管理了,市面上可见很多款社区矫正类的APP,比如心岸、浙里矫、音容社矫等;
  • 重病人员,比如与癌共舞、癌度、乳腺癌之家等等这样能够大概率识别得了癌症的人群,对于重病人群,我们可以捐助,但不适合给他们商业性贷款,而且,在我们之前的实际业务经验中,会发现一些严重逾期客户在一段时间后直接注销户口了,排查后发现这些人很多借款的时候打点在医院附近,很可能是重病晚期的人在临死前贷了一笔,这种情况也不能不防。
  • 心理疾病,像心药医、抑郁症治愈日记等等APP可以大概识别;

对于坏的品质,就比较广泛了,可以从涉及黄赌毒、诈骗、不良行为几个方面入手:

  • 黄:涉黄类APP因为和监管审查不断的拉锯,所以更新换名非常快,可以考虑用关键字匹配的方式来识别此类app,比如“狼友、色欲、性感、午夜”之类的;
  • 赌:涉赌类APP同样变化无常,同样可以以关键字的形式去识别app,比如“葡京|娱樂場|百家乐|百家樂|威尼斯人”等等;
  • 骗:最直接要防控的就是骗贷,可以用“撸卡、撸贷、征信修复、撸口子、上岸之家”等关键词识别APP;
  • 虚拟定位:关键词“虚拟定位、位置修改、位置伪装”等等;
  • 应用分身:关键词“应用双开、虚拟分身、分身大师”等等;
  • VPN:关键词“神器、网络梯子”等等;

当然还有很多欺诈特征可以识别,这里就不一一列举了。
仅仅依靠常识来设计变量,毕竟是有局限性的,我们应该充分调研外部资料,获取外部信息来帮助我们补充完善变量的设计思路。比如,在一篇永安在线对黑灰产的调查研究报告中,就详细列出了市面上常用的黑灰产APP工具有哪些,而这些信息可以很大程度上帮助我们完善坏行为变量的设计,并拓宽变量的设计思路。
风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量_第1张图片
再比如在一篇列举欺诈APP的文章中展示了很多涉嫌诈骗的APP,虽然我们很难把这些涉嫌诈骗的APP都理全,但从这些APP中我们可以发现一些规律,比如很多涉诈APP名字都会用点号把汉字或字母隔开,那我们就可以根据这个规律提炼出一些挖掘APP的正则规则,把疑似涉诈的APP找出来。这些APP就可以在一定程度上把易于受骗,行为异常的客户体现出来。
风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量_第2张图片
总之,基于常识认知,沿着一个逻辑框架枚举出所有变量设计的思路,并通过广泛地调研各种行业资料和信息进行完善补充,是通过常识知识构造变量的基本做法。

2、个例分析

常识知识可以帮我们搭起一个较为完善的变量设计框架,但很难尽善尽美。个例调查,就可以让我们从思路的另一端出发,从个例客户的行为线索中提炼具有普遍意义的变量,让变量设计框架进一步趋于完善。
个例调查可以从逾期较为严重的客户着手,但更好的方式是能够根据贷后催收记录,把逾期客户根据不同的逾期原因进行分类,在明确了一个客户为什么逾期之后,再有针对性地去寻找他的行为线索。
比如,我们针对一个因赌博而严重逾期的客户,调查了他的APP列表,从他的APP列表中我们看不到任何网络赌博类的APP,但有一个比较小众的APP引起了我们的注意,叫做“默往”,经查询后发现默往是一个私密性非常高的聊天交友软件,进一步调查后,我们发现了这样一段内容:

风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量_第3张图片

当我们查阅了更多新闻后,发现默往可以说是一个骗子、网络赌博、炒币、黑灰产、涉黄的聚集地,类似默往的这种小众私密聊天软件还有蝙蝠、Instagram等等。当然我们并不是说,使用这种小众私密聊天软件的都是坏人,但安装了这种软件的客户值得我们警惕。我们可以把类似这种私密聊天软件都整理起来,或单独做一个变量,或用它和其它维度组合使用。
我们再来看另一个称自己做生意失败的案例,从这个客户的APP列表中也没有发现什么特别异常的东西,但同样找到了一个小众的APP,叫共信鼎。调查后发现,共信鼎就是传销,我们有理由怀疑这个客户所谓的生意失败,可能就是让这个传销把钱搞没了。
风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量_第4张图片
这同样给我们提供了一个变量衍生的思路,可以把类似这种涉及传销的APP整理归类,做变量的衍生。
除了这些蛛丝马迹的客户线索,我们也调查到一些特征比较明显的客户特征,比如有个客户我们发现他的列表中有这样两类APP:
风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量_第5张图片
一个是涉黄类的APP特别多,而且很多这类的APP从名字上看并不明显,但我们能把握一个明显的特征,就是很多涉黄APP会以“视频”,“社区”结尾,那我们就可以设置这样的规则,找出所有以视频、社区结尾的APP,并排除主流的社区、视频APP,当做一个疑似涉黄APP类别进行衍生变量。另外,当他安装了大量涉黄APP后,就不得不考虑把这些APP做一个隐藏,不让人轻易发现,从而也就有了第二类APP线索,应用隐藏类APP,这同样给了我们做变量衍生的线索,单独或组合使用。
个例调查就是这样从实践中来,到实践中去,以实践指导理论的方法论。

3、分布排查

分布排查,也可以说是一种实践调查的方式,是一种针对APP列表数据的比较特殊的方法。具体来说就是遍历所有客户所有安装的APP,看一看每一款APP到底有多少人安装,安装了这一款APP的客户整体风险表现是怎样的。通过一定的筛选条件,把覆盖一定人群,并且风险表现有明显区分度的APP都展示出来,再做具体分析。
通过这种方法,可以进一步弥补我们之前遗漏的APP类别或是完善已整理类别中的具体APP。比如我们通过这种方式,发现了一些涉及炒虚拟货币或挖矿的APP会覆盖一定的客群,且客群资质较差。

以上就是对APP数据挖掘思路方法的简单介绍,是一种理论结合实践的工作思路。以上所讲的这些也只是一个思路方法,和具体实践还有一段距离,而这段距离就是按照这个思路方法所进行的大量的调查研究、信息收集、整理汇总和实践检验,并注意与时俱进,将随时代变化而应运而生的最新APP纳入考虑范围,如此才能不断从数据中挖掘出真正有效用的信息和知识,从而不断完善信贷中的风控逻辑。

你可能感兴趣的:(风控建模,人工智能,大数据,风控建模)