关于零基础入门金融风控挑战赛的笔记系列

Task1 赛题理解

赛题背景
金融行业里面,对风险控制非常严格,如果风控把握不好,那么会导致坏产等一系列恶性循环。因此,风控便成为了金融公司业务管理中重要的一环。这次,结合天池的优势,进行《零基础入门金融风控之贷款违约预测挑战赛》的练习,借此巩固python的使用和知识巩固,并对金融相关的行业和逻辑思维有更加深入的了解,对数据建模有更加系统的使用和熟悉。

一、了解数据状况
1、数据指标及其含义

` id 为贷款清单分配的唯一信用证标识
`loanAmnt 贷款金额
`term 贷款期限(year)
`interestRate 贷款利率
`installment 分期付款金额
`grade 贷款等级
`subGrade 贷款等级之子级
`employmentTitle 就业职称
`employmentLength 就业年限(年)
`homeOwnership 借款人在登记时提供的房屋所有权状况
`annualIncome 年收入
`verificationStatus 验证状态
`issueDate 贷款发放的月份
`purpose 借款人在贷款申请时的贷款用途类别
`postCode 借款人在贷款申请中提供的邮政编码的前3位数字
`regionCode 地区编码
`dti 债务收入比
`delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
`ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
`ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
`openAcc 借款人信用档案中未结信用额度的数量
`pubRec 贬损公共记录的数量
`pubRecBankruptcies 公开记录清除的数量
`revolBal 信贷周转余额合计
`revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
`totalAcc 借款人信用档案中当前的信用额度总数
`initialListStatus 贷款的初始列表状态
`applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
`earliesCreditLine 借款人最早报告的信用额度开立的月份
`title 借款人提供的贷款名称
`policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2

2、常用指标
(1)混淆矩阵
关于零基础入门金融风控挑战赛的笔记系列_第1张图片

(2)准确率(accurancy)
如果样本不均衡,那么该指标可能不够精确
(3)精确率(precision)
(4)召回率(recall)
(5)F1指标(F1 SCORE)
结合精确率和召回率的指标,兼顾性及参考性较单一指标要好
(6)P-R曲线
以召回率为横坐标,以精确率为纵坐标的曲线
(7)ROC
以假正例率(FPR)为横坐标,真正例率(TPR)为纵坐标的曲线
(8)AUC
ROC曲线与坐标轴围成的面积

关于零基础入门金融风控挑战赛的笔记系列_第2张图片
二、描述性数据概览(分析)
目的:了解变量间的相互关系以及变量与预测值之间的存在关系。
1、数据概况了解:
加载库,读取数据集,查看数据集大小及原始特征
简单查看数据集中每个特征(字段)的数据类型
2、缺失值处理和唯一值查看

关于零基础入门金融风控挑战赛的笔记系列_第3张图片
关于零基础入门金融风控挑战赛的笔记系列_第4张图片
关于零基础入门金融风控挑战赛的笔记系列_第5张图片
关于零基础入门金融风控挑战赛的笔记系列_第6张图片
关于零基础入门金融风控挑战赛的笔记系列_第7张图片
关于零基础入门金融风控挑战赛的笔记系列_第8张图片
关于零基础入门金融风控挑战赛的笔记系列_第9张图片
关于零基础入门金融风控挑战赛的笔记系列_第10张图片
三、关于特征工程
#注意这里加载的第三方库,需要提前准备,因为笔者的电脑win10系统64位,运行环境为anaconda3版本,需要另外安装tqdm,xgboost,等库,愣愣是浪费了一些时间,如果教程里面可以提前预制这些第三方库安装的内容,会更友好一些。
(这也说明了我比小白还小白的事实- -)
关于零基础入门金融风控挑战赛的笔记系列_第11张图片
(安装xgboost费了好多时间)
关于零基础入门金融风控挑战赛的笔记系列_第12张图片
(终于可以开始下载了~)
关于零基础入门金融风控挑战赛的笔记系列_第13张图片
(下载并安装……)

1、特征预处理
查找数据中的对象特征和数值特征

  • 缺失值填充
  • 时间格式处理
  • 对象类型特征转换到数值

2、异常值处理
处理异常值的重要前提,在于异常值可不可用。如果 不可用则考虑直接剔除,如果可用,则需要进行保留。

  • 查看数据方差来判断异常值
  • 查看箱型图来判断异常值

3、数据分箱
目的——降噪

简单小结:
特征工程在建模分析中是重要的一环,在代码调试方面也需要花费非常多的时间,要真正弄懂这个环节,需要下一番功夫才行。

四、建模与调参
目的:了解各种模型,以及模型的评价及调参方法
1 逻辑回归模型
https://blog.csdn.net/han_xiaoyang/article/details/49123419

2 决策树模型
https://blog.csdn.net/c406495762/article/details/76262487

3 GBDT模型
https://zhuanlan.zhihu.com/p/45145899

4 XGBoost模型
https://blog.csdn.net/wuzhongqiang/article/details/104854890

5 LightGBM模型
https://blog.csdn.net/wuzhongqiang/article/details/105350579

6 Catboost模型
https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA

7 时间序列模型(选学)
RNN:https://zhuanlan.zhihu.com/p/45289691
LSTM:https://zhuanlan.zhihu.com/p/83496936

再次总结:建模是一个大工程,和特征工程类似,需要强大的理论知识和扎实的代码演算经验才能顺利将其掌握。零基础入门不易,但是只要持之以恒,就一定能攻克它。
附:模型对比的优劣性
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task4%20建模调参.md

五、模型融合
模型融合的目的,在于结合不同模型之间的优劣,取长补短,融合后的新模型,可能会有出其不意的效果。
参考资料:
1、https://blog.csdn.net/wuzhongqiang/article/details/105012739
2、https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task5%20模型融合.md

结课心得:零基础入门是不存在的,要学的知识,要推演的代码,要排除的BUG,一个都少不了,没有人会替你把前进的路上所有的石头都搬走,总会有一个人背负重任前行的时候。潜心修行,一步一个脚印,才能真正把建模拿下来,才能真正掌握用python实现数据分析的技能。一起加油吧!

你可能感兴趣的:(数据挖掘,python)