信用评分模型开发-基于R语言(2)

数据的获取与整合

2.1 信用评分卡的数据来源

一般而言,信用评分卡的数据主要可以分为如下几组:

  1. 人口统计特征,这个使用户的基本信息,包括,家庭收入,性别,年龄等
  2. 征信机构的数据,比如人行征信
  3. 交易数据,这一部分就很多的,购物信息,金融交易信息等等
  4. 其他产品所有权和使用记录,客户可能会在其他的金融机构同样有使用产品

通常,所有权和状态变量用二元表示(0,1),交易可以提供两个类型的数据:频率和汇总值。频率记录了特定事件的发生情况,例如一个客户在一定时间内使用淘宝的次数。汇总值是账户余额或者交易值的计算和汇总统计,例如,客户每天的平均交易金额。

汇总值有几类,这里可以做一个总结:

  1. 计数,有过多少次贷款 ,有过多少消费记录
  2. 求和,总的消费金额
  3. 占比,贷款额度与年收入的占比
  4. 时间差,第一次开户距今时常
  5. 波动率,过去三年每一份工作的时常标准差

有的时候,用户会有多条记录,因此需要用汇总值来处理,将多条记录转变成为1条记录

2.2 数据整合

为了整合不同来源的数据,通常有两周操作方式:合并与联结

合并是用一个常用的关键变量,例如客户ID,合并不同来源的数据

联结是指将相同字段的不同记录合并到一起

2.3 完整性检验

数据获取并且整合之后,需要进行一些列完整性检验,包括

  1. 行的唯一性,一个ID只能有一条记录
  2. 范围与取值,每一个特征都需要有一个清晰的取值范围
  3. 缺失值,
  4. 样本是否能够代替整体

你可能感兴趣的:(信用评分模型开发-基于R语言(2))