金融行业是经营风险的行业,风险控制能力是金融机构的核心竞争力。通常而言,金融机构一般是通过给客户的信用状况评分来计量贷款违约的可能性,并通过客户的风险水平进行利率定价。
传统的信用测算主要是利用历史借贷数据和财务数据对借款人的违约风险进行分析和判断,这种方法尽管在很长一段时间内被广泛的金融机构所使用,但此方法的评价标准单一,评估结果不够全面,同时存在一定的滞后性。近年来,金融机构纷纷寻找新的手段,借助新的技术,尝试构建新的信用风险评估模型。
随着大数据处理技术、人工智能等计算机科技和互联网技术的出现和升级而产生的一种基于数据挖掘、机器学习等大数据建模方法的信用评估体系,目前被金融机构广泛运用到贷前信审、反欺诈、贷后管理和追偿清收等环节中。
大数据是指“无法在一定时间范围内用常规工具进行捕捉、管理和处理的巨量数据集合”。与传统数据集合相比,大数据不仅仅体现在规模大和复杂性,更为重要的是,大数据往往包含了大量的非结构化数据,包括图片、视频、语音、地理位置等,具有维度广、时时更新等优势。金融业,特别是银行业,近年来由于业务积累和渠道搭建,聚集了大量数据,成为大数据应用的重要领域。
数据源 |
分类 |
内容 |
行内数据 |
行内客户信息 |
基本信息、评级信息、财务信息、信贷信息、产品信息、北京信息等等 |
数据源 |
分类 |
内容 |
行外数据 |
海关数据 |
工商、 企管、 年报、 报关单、 税单、 提运单、 原产地等等 |
其他数据 |
第三方平台数据 |
(1)数据使用效率低:数据的加工和使用超强依赖IT人员,不能提供自助式数据服务。
(2)外部数据杂乱:外部数据源可信度低,如何将这些外部数据整理、加工成可供行内正常使用的真实、准确的数据需进一步探索。
(3)数据复杂:复杂体现在类型多种多样,还有数据量大,需要专业技术处理。
(4)存在大量的数据孤岛:数据孤岛不经体现在银行内部各系统,而且也体现在与银行外部,例如海关等等第三方机构,导致数据不能有效的共享;跨系统的、综合性的数据搜索、分析困难等。
显然,上述数据管理方面存在的问题难以单纯靠人工解决,那么如何有效地整合和利用银行积累起来的大数据资源,让大数据资源更高地为银行的信用评估服务,这就需要搭建综合型的大数据风控平台。
海关外贸企业大数据风控平台是一款依托官方数据集大数据处理、OLAP分析、在线分析、离线分析、数据挖掘、数据模型、人工智能风险预测模型、数据结果可视化展现于一体的贷前、贷后全流程监控,模型自由组合,自由配置,深度挖掘数据背后的风险综合性大数据分析平台,它提供了基于hadoop存储、数据立方体预计算的OLAP可视化分析功能,使用户通过托拉拽的简单操作即可在亚秒级的时间内完成多维度、全方位的数据分析,并以多种可视化方式展示分析结果,集成了主流的数据挖掘算法和人工智能,帮助用户快速建立数据挖掘模型。。
(1)海关外贸企业大数据风控平台能够处理的数据种类多,维度更广,能够为信贷缺失的群体提供基本金融服务。
(2)海关外贸企业大数据风控平台不仅仅关注历史财务数据,还更加关注外贸企业主体的贸易行为数据,能够在充分考察贸易企业行为背后的线索和线索之间的关联性基础上进行数据分析,降低贷款违约率。
(3)海关外贸企业大数据风控平台对模型可以不断迭代和动态调整。机器学习技术使得大数据风控平台的风控模型可以将原始数据转化成指标需要进行不断的迭代,不同模型的权重值可以根据样本进行动态调整,反过来也能不断改进模型的评测效果。
常见的大数据分析平台架构有Hadoop、Spark、Storm、Samza等,而基于Hadoop构建大数据风控平台具有分布式云存储和云计算能力,提供了核心分布式数据仓库、分布式列数据库解决方案,还具有良好的扩展性,常用在银行大数据风控平台建设中。本文基于Hadoop搭建大数据硬件系统,结合JAVA开发,实现海量数据的分布式存储和处理。
海关外贸企业大数据风控平台的软件设计理念和技术,能够解决海量数据容纳问题、多业务数据源整合问题、多数据格式转换问题等,如图5所示。
(1)整个系统软件部分可基于JAVA开发,运行在Windows和Linux操作系统上,节点同时运行在物理机、虚拟机、Linux、Windows上。
(2)所有后台数据服务程序可直接运行在JVM上,实现灵活、高效的分布式运算。
(3)用户使用管理功能可基于J2EE开发,WEB用JSF2.0实现,可扩展性强,便于二次开发。
(4)采用分布式存储和搜索技术,数据集中平台最根本的要求是处理海量的数据,高效融合结构化、半结构化、非结构化数据的管理。
是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户高效提供各种数据服务。它可以将企业内外割裂的数据进行汇聚、治理、建模加工,消除数据孤岛,实现数据资产化,为企业提供精准客户立体画像,助力企业实现数据驱动业务,银行数据中台架构图如下所示:
(1)企业画像模块——结合工商,税务,海关信息,判断企业类型,行业风险,经营风险,司法风险,对企业画像。
(2)关联交易模块——通过贸易企业、收发货人、贸易国别地区、原产地等数据,判断关联交易风险。
(3)贸易真实评测模块——通过贸易合同、物流运输、报关纳税、原产地等多维度数据,判断企业贸易真实性风险。
(4)历史情况分析模块——依托进出口贸易数据,对企业历史贸易情况做统计分析,判断企业经营,信用风险。
(5)是否合规决策模块——将海关专家经验、政策法规与大数据、人工智能技术相结合。判断企业贸易合规风险、纳税风险。
Socket方式是最简单的交互方式。是典型才c/s 交互模式。一台客户机,一台服务器。服务器提供服务,通过ip地址和端口进行服务访问。而客户机通过连接服务器指定的端口进行消息交互。其中传输协议可以是tcp/UDP 协议。
而服务器和约定了请求报文格式和响应报文格式。如图一所示:
目前我们常用的 http调用, java远程调用, webserivces 都是采用的这种方式, 只不过不同的就是传输协议以及报文格式。
这种方式的优点是:
1 易于编程,目前java提供了多种框架,屏蔽了底层通信细节以及数据传输转换细节。
2 容易控制权限。通过传输层协议https,加密传输的数据,使得安全性提高
3 通用性比较强,无论客户端是.net架构,java,python 都是可以的。尤其是webservice规范,使得服务变得通用
而这种方式的缺点是:
1 服务器和客户端必须同时工作,当服务器端不可用的时候,整个数据交互是不可进行。
2 当传输数据量比较大的时候,严重占用网络带宽,可能导致连接超时。使得在数据量交互的时候,服务变的很不可靠。
风控报告的产品目的是提供给风控业务人员查看详细的风险内容,对象主要包含反欺诈人员、风险审批人员、模型人员、策略人员等。
风控决策引擎的规则、评分卡、表达式主要用于数据的决策计算,风控决策引擎每完成一次决策就会输出相应的决策结果,通常这些决策结果都是简单的判断结果,目前市场上决策结果主流划分有“通过、拒绝、人工审核”。风控人员对于风险的洞察如果只是基于决策结果还远远不够,风控报告承载的详细风险也是风险审核的重点。
风控报告是除接口外,决策引擎对外输出结果的另一渠道。风控报告的核心是服务风控业务,本质是展示风险内容。充分考虑风控报告使用的业务场景,风险内容的展示只是基础,还涉及报告的下载以及风险内容脱敏、变更。风险内容根据不同的数据来源渠道通常分为业务信息、三方信息、决策信息、名单信息、关系网络信息,根据智能风控策略模块分为产品信息、个人信息、准入信息、黑名单信息、反欺诈信息、评级信息、额度价格信息、风险监控信息、催收评级信息、盈利预测信息等。拿市场上最常用的风控报告内容的布局来说,通常风控报告的顶部是产品信息、基本信息,然后是根据风控策略流程的顺序分布的决策信息,包括规则、模型的结果信息,最后是根据策略模块显示的原始详细信息即原数据信息。如图所示
对于大数据量的交互,采用这种文件的交互方式最适合不过了。系统A和系统B约定文件服务器地址,文件命名规则,文件内容格式等内容,通过上传文件到文件服务器进行数据交互。
最典型的应用场景是批量处理数据:例如系统A把今天12点之前把要处理的数据生成到一个文件,系统B第二天凌晨1点进行处理,处理完成之后,把处理结果生成到一个文件,系统A
12点在进行结果处理。
这种状况经常发生在A是事物处理型系统,对响应要求比较高,不适合做数据分析型的工作,而系统B是后台系统,对处理能力要求比较高,适合做批量任务系统。
以上只是说明通过文件方式的数据交互,实际情况B完成任务之后,可能通过socket的方式通知A,不一定是通过文件方式。
这种方式的优点:
1 在数据量大的情况下,可以通过文件传输,不会超时,不占用网络带宽。
2 方案简单,避免了网络传输,网络协议相关的概念。
这种方式的缺点:
1 不太适合做实时类的业务
2 必须有共同的文件服务器,文件服务器这里面存在风险。因为文件可能被篡改,删除,或者存在泄密等。
3 必须约定文件数据的格式,当改变文件格式的时候,需要各个系统都同步做修改。
3.4数据库共享数据方式
系统A和系统B通过连接同一个数据库服务器的同一张表进行数据交换。 当系统A请求系统B处理数据的时候,系统A Insert一条数据,系统Bselect 系统A插入的数据进行处理。
这种方式的优点是
1 相比文件方式传输来说,因为使用的同一个数据库,交互更加简单。
2 由于数据库提供相当做的操作,比如更新,回滚等。交互方式比较灵活,而且通过数据库的事务机制,可以做成可靠性的数据交换。
这种方式的缺点:
1 当连接B的系统越来越多的时候,由于数据库的连接池是有限的,导致每个系统分配到的连接不会很多,当系统越来越多的时候,可能导致无可用的数据库连接
2 一般情况,来自两个不同公司的系统,不太会开放自己的数据库给对方连接,因为这样会有安全性影响