##我的风控系统搭建

我的风控系统搭建 - http://www.jianshu.com/p/80cee9866059

风控系统搭建
引言

各行各业,各个领域,各个渠道,都需要有一系列的完整的风险控制,以保证事情向好的方向发展,而免受不可预估的经济和财产损失而绰手不及。这时候一套完备的风控系统应运而生,以解决实际在生产业务中的各种难题。作为事物的主体,可以采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或减少风险事件发生时造成的损失。这就是风险控制。

与金钱打交道的金融行业,风险控制更加重要,金融的本质就是风控。因此,可以看到,各种金融机构都会有大量的风控人员,通过各种调查征信、模型规则、授信审核来保障业务顺利运行。而支付、P2P、供应链金融等互联网金融,大部分交易都在线上进行,因此交易各个方面的风险控制更加信息化。大数据的兴起,为风险控制提供更好的技术手段。

风控的设计范围

第三方渠道支付来源

企业资产营收情况(做风险评估)

个人征信借贷

借款人征信、评分、授信、还款逾期、催收、羊毛党、黑客攻击

地产逾期未还款风险评估(未来会加强对地产的通过政策手段来干预)
在实际的实时交易中也会催生出来其他的防范分类出来:

账号:垃圾注册、撞库、盗号等

交易:盗刷、恶意占用资源、篡改交易金额等

短信:短信轰炸

现阶段需要解决的问题

通过系统级的定义,需要区分出来那些是属于高危风控时间,注册、登录、转账等,需要对这些时间做实时的监控加强风险防范。

对于什么样的事件会列入高风险时间,需要通过一些列的统计范畴来区分,以那些维度出现的数据作为基准来权衡,

出现了恶意的风险后,对于善后的风险我们能做什么,能给我们带来多少的问题,能解决现阶段的什么问题。

自动化以后,还需要人工干预规则加入,这样可以避免有做不尽职责的地方,能够及早发现问题,对于一些灵活的数据多次做重复重新组织规则,增加对风控引擎的算法。

支持历史数据的回溯,能够发现以前的一些风险,找到有参照的数据。做基础的数据对比,防范于未然。

风险的口径把握:登录频率、登录次数、交易次数、关闭订单次数、时间频率出现高的、单用户操作习惯等,最近统计等,对一系列的数据做重组排序。

解决内审介入前已经有了一套成型的应用体系,不用为了准备复杂的资料和文档而烦恼,很快得解决了历史数据的风险把控问题。

风控平台的几个重要模块

个人中心数据:个人数据绝对了企业的生存,更应该加强风险防范和评估。

用户历史日志分析:记录用户的实际交易操作行为。

平台交易数据:对于用户的交易来说,记录每一笔资金的灵活变动,及时做风控调整。

个人信贷征信:解决在投资方之间的一个信誉度不同给予的特殊行为,此模块和个人征信挂钩。

社交数据:记录了用户的一些常用社交圈行为。

行为方数据:记录从各种渠道的实际发生的交易数据。

运营方行为:根据用户的实时交易数据可以有效控制一次活动中单词投入的总预估和实际的达到的效果。

对账中心:如何保证出账和入账的准确无误差,需要在风控系统中引入对账系统和第三方支付系统的授权保护,防止出现异常掉包情况,在必要的时候需要用户自行下载对账单和实际发生的交易数据做比对,找出有问题的和需求方做确认核查。

业务需求
事前事中事后切入(在到达银行和银行之后的快速数据响应能力)

规则扩展性和表达能力(规则和模型的重建)

高速

高效、高性能

数据可用一致性

侵入性(长期来看,需求不高)

风控系统的高性能处理

(1、线程利用率

(2、I/O利用率

(3、同步/异步消息处理

(4、风控模型的选择

前期准备

拿到足够多的数据做支撑

做足够灵活的分析平台去分析数据

产出风险事件进行阻拦风险

量化风险拦截的价值和不断分析案例进行策略优化

风控技术评估研究

日志选择:以增量日志方式记录存储,hadoop或spark做分析,集群同步到客户端机器上,做同步策略,不同纬度的数据做统计加工计算。

实时监控:监控在每一个环节的交易量和高风险操作,做阀值报警,以默认的规则做处理。

dns防范:防止http对dns的拦截,手动纪录中断被拦截掉的交易流,转向存储中心系统做处理给予用户提示。

报警提醒:在发生重大灾难的同时需要有一套完善的体系提醒风控人员近入作战,以短信或电话的形式发起通知给用户。

数据灾难:数据的历史纪录应该有完整的备库纪录,这种操作不是必须的但是必要的,防止管理员因为误操作导致的数据灾难不容小视,启东应急方案进行恢复。

日志选择:需要在原有基础上做集群数据分析后,统一有一个入口的分析平台做汇总,对不同维度的计算规则做排重,这里我们可以使用elk的方式把数据清洗完成后,做相关的分析调研,实时读库的方式不可取,增量数据库只保留历史的数据,可以对时间做相关的约定,查询的平台统一做相关的调控。

方案的选择和实施
针对现在的数据规则,需要对现有的各方数据做分析指标,做数据仓库,从不同的数据中计算对应的需要风控形成各种渠道的报表数据。如何通过查询海量的历史数据来支撑规则的运算,从分析的角度来看,又是一个IO密集型的应用;利用OLTP(online transaction processing )和OLAP(online analytical processing)做相关的维度计算,主要针对用户、功能、数据片、存储空间、DB设计来做维度计算和方案的优化调整。

大到用hadoop做数据集群算法分析,也可以用spark、storm来做。
简而言之就是分布式框架,那么什么是分布式框架?

分布式计算框架实现了什么?简而言之,基于分布式计算框架的应用,就是一个分布式的应用;那么分布式的应用解决了什么问题?简而言之,就是将请求处理的业务逻辑和所需资源合理地分布到N台服务器上,这里就不在过多介绍。

基于C/S模式的原理,从client到server端的应用,采集需要的数据。Server之间通讯是有开销的,只不过这个开销是MS级的。系统在定位也是基于百万级的应用。

以分层的概念,针对每部的风控模块,需要在特定的时间做调整。缓存的应用:如果是历史级别的数据,可以采用redis、cache来做,防止减少对于I/O的读写操作,减少存储压力的开销。基于款时间的维度对应的风控系统计算,需要我们在处理的同时考虑数据的节点,分批次处理。对于变化多端的数据,建议利用高可用性能存储设计,基于DB设计即可,数据结构要基于范式(NF)设计,不可有冗余免得频繁返工。

数据分离的优先选择

数据库读写分离机制:在初期,风控系统一般都极为简单,此时侯一般通过数据库主从复制/读写分离/Sharding(或slave进行)等机制来保证交易系统的数据库和风控系统数据的同步及读写分离。风控系统对所需要的客户/账户数据、交易数据一般都只进行读操作。

缓存/内存数据库机制:不管是交易系统还是风控系统,高效的缓存系统是提升性能的大杀器,一般会把频繁使用的数据存放到Redis等缓存系统中。例如对风控系统,包括诸如风控规则、风控案例库、中间结果集、黑白名单、预处理结果等数据;对交易系统而言,包括诸如交易参数、计费模板、清结算规则、分润规则、银行路由策略等。对一些高频交易中,基于性能考虑,会采用内存数据库(一般会结合SSD硬盘)。

RPC/SOA架构:要降低交易系统和风控系统的耦合度,在初期系统服务较少的情况下,一般直接采用RabbitMQ/ActiveMQ之类的消息中间件或RPC方式来实现系统间服务的调用。如果系统服务较多,存在服务治理问题,会采用Dubbo之类的SOA中间件来实现系统服务调用,这个期间我们需要支持用异步消息完成rabbitMQ的消息的push/pull处理机制来处理违规数据和异常数据提取。

实时风控系统的挑战和面临问题

性能:性能是考验一个平台的重要指标,再优秀的平台没有一个良好的性能,也是不完善的。需要在特殊场合采用最合理的架构模式设计。

扩展性:多数的平台系统是基于基础平台分析而来,这时候需要在现有的系统上做兼容,不能破坏原有系统的流程,也要兼顾老系统的业务支撑,在现有系统上做风控调整预估,。才能更加合理安排,需要系统在短时间内对于业务逻辑的扩展进行较好的支持,是系统建设中的一个挑战。

大数据:特指在分析过程中需要用到海量的数据用户辅助分析,如何提取海量数据中有价值的信息,松耦合地嵌入到实时分析过程中,是系统建设中的一个挑战,这个时候我们需要综合考虑在实际业务中的数据兼容模式。

防欺诈手段:在平台内部需要有一套完善的防欺诈手段系统维护机制,保证用户的资金不受损失,在这个基础上我们应该对现有的互联网环境做风险预测,给予一定的建议,发现问题技术纠正用户选择和引导。

还款、预付款能力开发模块:需要在现有模型的基础上来对单签用户的借贷后的一系列还款行为做评估,通过一系列的数据来体现,通过运数据计算来对用户做相关的制约。

风控对账流程

1、下载(获取)对账单,用来与系统内账单进行比对,这其中是把自己的对账系统和远程机下载下来做副本比较。

2、上传对账单,针对系统内部的对账系统做比对。

3、对账单解析,以为可能接多个渠道,每个渠道提供的对账单格式不完全统一,定义一系列的数据格式文档,DOM的对象以及字段的说明,针对有效的情况做说明。

4、获取系统账单,并与对账单进行匹配(查看对应的匹配度)

5、输出结果,一般正常是平账,异常结果如下,会显示相关的对账失败和有少账的情况在内。

6、差错处理,一般有以下几种异常结果

A、多账:即对账单中存在但系统账单中无的账单,一般是因为调单或重订单2次支付造成,这个是需要手工处理的。

B、短帐:即对账单中不存在但系统账单有的账单,这种概率极低。如有,那找对方算账,和对方核算是否在交易过程中,产品或实际售卖情况中出现了变更导致前后下单不一致的情况,及时把出现差异的给补上去。

C、金额不一致:这种比较特殊,即对账单和系统账单都存在对应的订单号,但金额不一致。这种概率极低。

风控系统的优点

使用风控系统后,能在一定程度上减少对于不可抗力因素的损失,避免因为历史原因导致的资金流问题,可以定期排查系统的异常情况,及时做上报,对比历史数据行程标本,在以后的应用中更加灵活运用,主要涉及以几个方面:

1、减少历史数据的频繁操作和导入,避免误操作

2、增加系统安全性,保障资金的回溯安全,有来有往更加清晰

3、代码的冗余性得到改善,避免相似的统计指标频繁修改和变动,数据原子性得到保障。

4、人工干预减少,更加准确定位问题所在,定时进行上报及时解决风险控制种突发点各种异常情况。

风控的流程化

云计算:风险的分析注定了是一个大计算量的分析,而云计算的发展,正好解决了这个核心问题,利用云计算的技术优势,解决数据分析的核心难题,所以,风险的系统一定要建立在云平台上,采用进一步发展的空间;借助于云计算的性能和大数据的准则,可以管你更为直观看到潜在存在的问题,及时解决。

数据的客观性:任何一个风控系统都不是空穴来风,必然有其存在的意义。一个完善的风控系统背后必然有一个数据平台仓库作支撑,以保证数据的分析准确性,才能在突发有效的时间内给予判断,保证数据无误差。

第三方金融交付:与此同时,们还需要密切关注第三方金融机构对于转账交易流水的变化,在危机关键时候能快速做出决策,检测在高频访问操作中的安全性,密切关注对接银行以及合作的机构的稳定性,以防出现不必要的损失。做到万无一失,及时监控跟进,保障资产安全。

内控规避:在内部做相关的监控调整,防止有一些不当的事情发生,减少这方面的损失。内部控制进行相关的设置。在内部记录违规操作,防患于未然,对应个人也需要做一个相关约束,提高从业人员的自律性。

风控案例分析

网约车,并不是一帆风顺

从13年到目前,打车网约车的出现不适空穴来潮,可以说在这次洗牌的过程中带给了用户的许多便利,也催生出来一些新的问题。对于单车是方便了很多人,那么从风控的角度来讲如何解决风控的问题:

单个用户早期出现了系统的遗留问题,二这些问题导致的就是平台的资金外漏,一个用户可以使用一张身份证,可以不受车辆的管控,刷羊毛党应运而生,这些事情屡见不鲜,最为麻烦的是由于在这个环节中人是一个主导因素,我们不能制约用户的行为,需要在优先的时间里找到这些作弊的人,对这些作弊的人做对比,形成有共识的数据参考价值,形成规则把这些人拒之门外,防止免收以外的灾难。

对这类数据我们会形成一系列的参考模型,从模型中取出样本,做了一系列的常规算法,分析他们的出现原因,在最短的时间段内进行数据回流,防止了更多的不必要的麻烦。这件事情不是偶然的,只是心怀不轨的人早早掌握了这一点的规则,才会出现此类问题,风控系统在这个决策中起了至关重要的作用,一但风控调度平台及时发现问题,就可以解决免收的损失。比如:微信的发券问题,可以减少对于单个用户的重复抢单问题,合理安排优惠券的发放。

p2p的重灾区,人满为患,瞒天过海

早在16年就报出来了关于p2p的一些因素,对于个人而言,能不花一分钱拿到平台的钱是一件好事,这事大家都愿意干的事,对于企业而言是一种损伤,而有的注册送券的单价又比较高(充1000送200、注册就送)此类活动也很多,我们希望在优先的时间段内获取数据样本,对这批数据做匹配比对,今儿完善系统平台的稳定性,需要有一定的数据做支撑。

比如:一部分利用了平台的漏洞刷羊毛,注册一批账号拿到一批特殊的身份证,对平台进行无限制的轰炸,而实际上这些数据在后台记录在案,需要按时给予用户反馈,实际上是暗箱操作。我们需要借助风控系统在交易的注册口径来做劫持,这个操作可以是隐士的。当系统检测到不同的账号对统一平台进行了不同的操作后,会先后检测把这批数据汇总进入一个queue中,形成一个闭环,从中抽取有特征的数据。我们做一个假设:当前的一批用户注册返券的钱>单日平台的发放,检测有异常的用户行为,风控系统会通过监控策略通知给内审和相关的运营人员,做资料审批,对这批用户进行账号冻结。

系统在轮询过程中,对这批用户有问题的进行复查。在处理异常的口径中防止数据的重复扣减,对于系统的交易数据,我们总是希望能实时反馈给对方,以免引起不必要的麻烦,在系统中找出有欺诈行为的数据,防止用户违规操作,上报给相关部门。

征信的数据平台

在实际的贷款和借贷方面,我们对用户做了征信考核,符合征信的按积分系统建立,优先考虑征信信誉良好的,而那些征信不完整的有残缺的则会在第一时间拒绝给用户发放,这个体系的建立是为了解决在实际的交易过程中对个人的一个约束,从最下层给用户一个限制。免得收到不必要的后期麻烦。

大数据的广泛应用

未来借助大数据的算法和人工智能的科技前瞻,我们或许可以更为准确的知道在数据领域内可以自动模拟计算当前发生交易的一些防范,在数据模型的运用下,反欺诈显得尤为重要。

基于大数据风控,可将传统消费金融前端销售依靠大量地人工推荐(平台前后监控)、后台依赖人工作业的重人力模式,升级为依赖系统和数据自动决策的在线实时自动信贷工厂模式。相比用抵押物、收入流水证明等粗放式的传统风控方式,通过基于大数据线上信贷审批系统将进一步提高信贷业务审批效率。数据风控的优势就在于降低了获客的变动成本,通过智能化、批量化实现规模化。同时,数据风控在反套现、反欺诈,打击黑产方面也有越来越重要的现实意义。

在未来,我们还可以对分控分销到不同平台上,只要用户有违规的操作就在调度中心第一时间得到相应,也解决了企业的一些痛点。我们可以更精准的定位问题所在,加强对于日志的一些分析举措。场景消费下,我们可以快速解决出现的问题,从中为用户解决现有的一些问题,带给了自身的有价值的精确数据。

此外,还需要提高平台对接致命电商的抓取数据的能力,我们可以试想如果一个用户的违规操作在某个平台上,那么数据上报给已经合作的平台,进入监控系统,借助云平台结算规则,在短时间段内冻结账号,在这种情况下可以更加小范围缩小受损者的利益。更加准确定位问题所在。在一定程度上杜绝了此类违规乱纪的现象的发生。

反欺诈、套现的实际意义

数据风控在反套现、反欺诈,打击黑产方面也有越来越重要的现实意义,数据风控的优势就在于降低了获客的变动成本,降低了人工干预的成本。可以实现自动化基于传统数据分析,使得线上的交易无所遁形,保证交易环境的干净,也使得更加纯粹,只是用户和平台之间的一个沟通的窗口。在完成交易前和交易后数据更加清晰明了,可以根据不同季度的数据制定相关的目标和计划,改善运营情况。未来,对于风控在风险控制上回更加清晰,实现了不同渠道间的数据交换。

改善了良好的网络环境,也督促其他平台间的监控管控作用。在实际的应用中会更加准确无误,约束对方的行为操作,减少企业的成本,而作为风险控制的管控,我们可以减少此类事情的发生,在第一时间给予了响应。针对系统的重灾区,尽量增强防范意识,更加清晰明了,直观体现出对应的价值。在未来远程开户在现在成为一种可能,我国的直销银行的发展和未来包括消费金融在内的各种线上的金融获客业务也会发展,更加直观纯粹,也节约了办公成本。

总结

综上所述,是个人对于风控系统的一个总体的说明和部署结构情况,可能在实际情况中会遇到很多问题,但是这是一个完整加以系统中不可缺少的一部分,在出现突发问题之前风控系统介入其中进行调节,解决了内外的交易系统问题,使得少了很多后期的沟通和维护的成本,也是缺一不可的,可见一个完整的风控系统对企业的重要性,也反应风控在未来企业的合作中会越来越重要,在实际的应用和交易中也会逐渐发挥其作用。

你可能感兴趣的:(##我的风控系统搭建)