Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析

赛题:零基础入门数据挖掘 - 二手车交易价格预测
赛题地址

1 EDA目标

  • EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。

  • 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。

  • 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

  • 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。

2 内容介绍

  1. 载入各种数据科学以及可视化库:
  • 数据科学库 pandas、numpy、scipy
  • 可视化库 matplotlib、seabon
  • 其他;
  1. 载入数据:
  • 载入训练集和测试集
  • 简略观察数据(head()+shape)
  1. 数据总览:
  • 通过describe()来熟悉数据的相关统计量
  • 通过info()来熟悉数据类型
  1. 判断数据缺失和异常:
  • 查看每列的存在nan情况
  • 异常值检测
  1. 了解预测值的分布
  • 总体分布概况(无界约翰逊分布等)
  • 查看skewness and kurtosis
  • 查看预测值的具体频数
  1. 特征分为类别特征和数字特征,并对类别特征查看unique分布
  2. 数字特征分析
  • 相关性分析
  • 查看几个特征得 偏度和峰值
  • 每个数字特征得分布可视化
  • 数字特征相互之间的关系可视化
  • 多变量互相回归关系可视化
  1. 类型特征分析
  • unique分布
  • 类别特征箱形图可视化
  • 类别特征的小提琴图可视化
  • 类别特征的柱形图可视化类别
  • 特征的每个类别频数可视化(count_plot)
  1. 用pandas_profiling生成数据报告

3 代码示例

3.1 载入各种数据科学以及可视化库

#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

3.2 载入数据

## 1) 载入训练集和测试集;
Train_data = pd.read_csv('train.csv', sep=',')
Test_data = pd.read_csv('testA.csv', sep=',')

所有数据脱敏处理

  • id - 为贷款清单分配的唯一信用证标识
  • loanAmnt - 贷款金额
  • term - 贷款期限(year)
  • interestRate - 贷款利率
  • installment - 分期付款金额
  • grade - 贷款等级
  • subGrade - 贷款等级之子级
  • employmentTitle - 就业职称
  • employmentLength - 就业年限(年)
  • homeOwnership - 借款人在登记时提供的房屋所有权状况
  • annualIncome - 年收入
  • verificationStatus - 验证状态
  • issueDate - 贷款发放的月份
  • purpose - 借款人在贷款申请时的贷款用途类别
  • postCode - 借款人在贷款申请中提供的邮政编码的前3位数字
  • regionCode - 地区编码
  • dti - 债务收入比
  • delinquency_2years - 借款人过去2年信用档案中逾期30天以上的违约事件数
  • ficoRangeLow - 借款人在贷款发放时的fico所属的下限范围
  • ficoRangeHigh - 借款人在贷款发放时的fico所属的上限范围
  • openAcc - 借款人信用档案中未结信用额度的数量
  • pubRec - 贬损公共记录的数量
  • pubRecBankruptcies - 公开记录清除的数量
  • revolBal - 信贷周转余额合计
  • revolUtil - 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信 贷金额
  • totalAcc - 借款人信用档案中当前的信用额度总数
  • initialListStatus - 贷款的初始列表状态
  • applicationType - 表明贷款是个人申请还是与两个共同借款人的联合申请
  • earliesCreditLine - 借款人最早报告的信用额度开立的月份
  • title - 借款人提供的贷款名称
  • policyCode - 公开可用的策略_代码=1新产品不公开可用的策略_代码=2
  • n - 系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理
## 2) 简略观察数据(head()+shape)
Train_data.head().append(Train_data.tail())

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析_第1张图片

Train_data.shape

(800000, 1)
Test_data.head().append(Test_data.tail())

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析_第2张图片

Test_data.shape

(200000, 1)

养成看数据集的head()以及shape的习惯

3 总览数据概况

  1. describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下
  2. info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常
## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析_第3张图片

Test_data.describe()

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析_第4张图片

## 2) 通过info()来熟悉数据类型
Train_data.info()

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析_第5张图片

你可能感兴趣的:(阿里天池数据挖掘大赛,#,贷款违约,数据挖掘,数据分析,深度学习,机器学习)