银行需要全方位、多角度地去评价客户,确认客户“信用”,才能放心把钱“借”出去。随着数学和统计技术在传统金融行业的广泛应用和推广,银行业也采用“定量”形式分析判断不同客户的信用等级,从而来决定客户可获取的授信额度、首付额度或利率优惠程度等,以科学手段准确计量客户“信用”避免因借贷双方信息不一致而引发的信用风险损失
银行进行客户信用评级的数据来源于内部系统产生的数据或外部数据,如图示:
从客户第一次开户开始,其与银行的每一次交互都将在银行信息系统留存,例如存款、转账、还信用卡、还贷、销户或购买理财等,每一次活动的时间、方式、地点、账户、金额、交易对象等等,都完整保存在银行数据库中。这些积累的数据,是银行非常宝贵的资产。与客户信用评级相关的数据,通常包括以下几个方面:
1.客户基本数据:银行通过不同形式、不同时间、不同地点所记录的客户名称、证件编号、联系方式、营收情况、学历、就业情况、客户关联人信息等
2.贷款或信用卡账户信息:包括账户号码、余额、开销户时间、额度、额度调整历史等
3.交易历史:即贷款放款、还款计划及实际还款、现金提取、信用卡刷卡、还卡、换卡等各类事件的具体时间、地点、方式等详细记录
4.担保信息:即贷款抵押物基本信息、估值或评级信息,担保人信息等
除上述外,信用卡或贷款产品的营销活动等数据,也与客户评级有关
外部数据来源广泛,以人行征信数据为例,其包含客户基本信息,如姓名、性别、证件编号、婚姻情况、联系方式、住址等;借款人的信用历史,如逾期情况、贷款尚未结清信息、担保信息、异常交易信息等;还有一些个人非银行信息,如住房公积金信息、社保信息等
目前,各家银行都已建立ODS或数据仓库等数据平台,其包含信息能满足银行各条线的业务需要,为开展各类管理、经营决策提供数据基础。然而,客户信用评级数据作为数据平台的一部分,通常混合于其他数据之中,因此,有必要仅针对信用风险管理或信用评级的需要,面向信用风险管理应用开发,单独建立信用风险数据集市
数据来源于各类生产、业务系统,经由数据仓库,进入信用风险数据集市中。风险数据集市则按照上层应用的需要,进行数据整合和存储。一般来说,信用风险相关的数据经过拆分、拼装或重组,以主题形式存储在信用风险数据集市中
数据挖掘是从大量、有噪音的数据中,发现潜在的规律和价值,以辅助提高管理、决策能力。银行通过对外部数据及信贷等业务中产生的数据进行提炼分析,开发模型,对客户进行信用评分,以服务于信贷管理,增强风险控制能力
第一步:样本抽取
银行积累的客户评级相关数据量极其庞大,出于数据处理速度及模型开发效率考虑,通常抽取一定量的数据作为样本,开发模型。常用的样本选择方式有两种,随机抽样和分类抽样。随机抽样即随机选择样本,认为样本可以代表整体情况。例总贷款账户数是5000,不良贷款账户数是100,占比1/50;那么随机抽取100个贷款账户,其中包含2个不良贷款账户。而分类抽样则需要先分类,确认各类样本的数据量,再分别进行随机抽样。例如上述例子中的账户样本选择,首先据担保情况进行分类,有无担保比例分别为3:2,则再分别随机抽取60个有担保的不良贷款账户和40个无担保的不良贷款记录
第二步:变量选择
明确因变量和自变量。其中因变量为表现变量,即模型结果“客户信用情况”;自变量为与之相关的因素,它的预测能力决定于它与因变量之间相关关系和逻辑因果关系。通常与信用等级相关的因素包含客户学历、工资、年龄、额度使用情况、现金提取次数、还款时间等
第三步:模型分组
模型分组的意义在于区分不同行为模型和数理关系,以提高模型预测精准度。例如,学生和在职人员的还款能力是有差异的,但是某类自变量和坏账率的表现上,趋势十分相似,所以讲模型分组,将避免相互之间的模型因素的干扰和影响
第四步:模型设计
影响模型结果的变量非常复杂,因此需要根据单个变量的实际预测能力进行筛选,剔除没有预测能力的变量,以缩小变量范围
常见的模型算法有线性回归分析、非线性回归分析、逻辑回归模型、神经网络模型、决策树模型等。在实际的模型选择过程中,需根据模型性质、分析人员经验等多方面因素综合考量
第五步:模型检验
模型检验,在于衡量开发的信用评分模型能力。常用的检验报告有以下几类:
交换曲线;K-S指标;区分度;拟合度曲线
其中前三者的表现效果为:“评分越高,则好账户出现的越多”;而拟合度曲线,则用于对比预测情况与实际情况差异
信用评分对银行的经营效益有着重要作用,信用评分模型应用效果,很大程度上也取决于银行的内部管理及信贷政策。技术和管理相结合,双管齐下,一定是控制客户信用风险的最优方案