Pyspark+tensorflow-信用贷款数据分析实战(一)——了解数据

1.了解数据

本数据为一家银行的个人金融业务数据集,可以作为银行场景下进行个人客户业务分析和数据挖掘的示例,这份数据中涉及到5300个银行客户的100万笔交易,涉及700份贷款信息,近900张信用卡的数据。通过分析这份数据可以获取相关的业务知识

例如:1.提供增值服务的银行客户经理,希望明确哪些客户有更多的业务需求。

​ 2.风险管理的业务人员可以及早发现贷款的潜在损失,根据客户贷款前的属性、状态信息和交易行为预测其贷款违约行为?

1.1数据字典(表的结构)

1.1.1 Loans 贷款表

  • 一条记录代表某个账户上的一条贷款信息
名称 标签 Explain
loan_id 贷款号 主键
disp_id 权限号 外键1:对应disp表的主键
account_id 账户号 外键2:对应accounts表的主键
date 发放贷款日期
amount 贷款金额
duration 贷款期限
payments 每月归还额
status 还款状态 A:合同终止,没有问题;B:合同终止,贷款没有支付;C:合同正在执行中,目前正常;D:合同正在执行中,欠款状态
  • 根据贷款数据,状态为B和D的账户为违约账户;建立模型时,就可以将status作为变量Y

1.1.2 Accounts 账户表

  • 一条记录描述了一个账户的静态信息
名称 标签 Explain
account_id 账户号 主键
district_id 开户分行地区号
date 开户日期
frequency 结算频度 月,周,交易之后马上

1.1.3 Clients 客户表

  • 一条记录描述了一个客户的特征信息
名称 标签 Explain
client_id 客户号 主键
sex 性别
birth_date 出生日期
district_id 地区号 客户所属地区号

1.1.4 Disp 权限分配表

  • 一条记录描述了客户与账户之间的关系,以及客户操作账户的权限
名称 标签 Explain
disp_id 权限号 主键
client_id 客户号 外键1:对应clients表的主键
account_id 账户号 外键2:对应accounts表的主键
type 权限类型 身份为‘所有者’才能进行增值业务

1.1.5 Orders 支付命令表

  • 一条记录代表一个支付订单信息
名称 标签 Explain
order_id 订单号 主键
account_id 发起订单的账户号 外键1:对应accounts表的主键
bank_to 收款银行 每家银行用两个字符表示
account_to 收款客户号
amount 金额
K_symbol 支付方式

1.1.6 Trans 交易记录表

  • 一条记录代表一个账户上的一条交易记录
名称 标签 Explain
trans_id 交易号 主键
account_id 发起订单的账户号 外键1:对应accounts表的主键
date 交易日期
type 借贷类型
operation 交易类型
amount 金额
balance 账户余额
K_symbol 支付方式
bank 对方银行
account 对方账户号

1.1.7 Cards 信用卡表

  • 一条记录表示一个账户上的信用卡信息
名称 标签 Explain
card_id 信用卡号 主键
disp_id 账户权限 外键1:对应disp表的主键
type 卡类型
issued 发卡日期

1.1.8 District 人口地区统计表

  • 一条记录描述了一个地区的人口统计学信息
名称 标签 Explain
A1 = district_id 地区号 主键
GDP GDP总量
A4 居住人口
A10 城镇人口比例
A11 平均工资
A12 1995年失业率
A13 1996年失业率
A14 1000人中有多少企业家
A15 1995年犯罪率(千人)
A16 1996年犯罪率(千人)

1.2 实体-关系(ER图 表的关系)

Pyspark+tensorflow-信用贷款数据分析实战(一)——了解数据_第1张图片
如需数据:请添加QQ1240929749,备注:csdn数据

你可能感兴趣的:(数据分析项目实战,数据分析,人工智能,spark,tensorflow)