赛题背景
金融行业里面,对风险控制非常严格,如果风控把握不好,那么会导致坏产等一系列恶性循环。因此,风控便成为了金融公司业务管理中重要的一环。这次,结合天池的优势,进行《零基础入门金融风控之贷款违约预测挑战赛》的练习,借此巩固python的使用和知识巩固,并对金融相关的行业和逻辑思维有更加深入的了解,对数据建模有更加系统的使用和熟悉。
一、了解数据状况
1、数据指标及其含义
(2)准确率(accurancy)
如果样本不均衡,那么该指标可能不够精确
(3)精确率(precision)
(4)召回率(recall)
(5)F1指标(F1 SCORE)
结合精确率和召回率的指标,兼顾性及参考性较单一指标要好
(6)P-R曲线
以召回率为横坐标,以精确率为纵坐标的曲线
(7)ROC
以假正例率(FPR)为横坐标,真正例率(TPR)为纵坐标的曲线
(8)AUC
ROC曲线与坐标轴围成的面积
二、描述性数据概览(分析)
目的:了解变量间的相互关系以及变量与预测值之间的存在关系。
1、数据概况了解:
加载库,读取数据集,查看数据集大小及原始特征
简单查看数据集中每个特征(字段)的数据类型
2、缺失值处理和唯一值查看
三、关于特征工程
#注意这里加载的第三方库,需要提前准备,因为笔者的电脑win10系统64位,运行环境为anaconda3版本,需要另外安装tqdm,xgboost,等库,愣愣是浪费了一些时间,如果教程里面可以提前预制这些第三方库安装的内容,会更友好一些。
(这也说明了我比小白还小白的事实- -)
(安装xgboost费了好多时间)
(终于可以开始下载了~)
(下载并安装……)
1、特征预处理
查找数据中的对象特征和数值特征
2、异常值处理
处理异常值的重要前提,在于异常值可不可用。如果 不可用则考虑直接剔除,如果可用,则需要进行保留。
3、数据分箱
目的——降噪
简单小结:
特征工程在建模分析中是重要的一环,在代码调试方面也需要花费非常多的时间,要真正弄懂这个环节,需要下一番功夫才行。
四、建模与调参
目的:了解各种模型,以及模型的评价及调参方法
1 逻辑回归模型
https://blog.csdn.net/han_xiaoyang/article/details/49123419
2 决策树模型
https://blog.csdn.net/c406495762/article/details/76262487
3 GBDT模型
https://zhuanlan.zhihu.com/p/45145899
4 XGBoost模型
https://blog.csdn.net/wuzhongqiang/article/details/104854890
5 LightGBM模型
https://blog.csdn.net/wuzhongqiang/article/details/105350579
6 Catboost模型
https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA
7 时间序列模型(选学)
RNN:https://zhuanlan.zhihu.com/p/45289691
LSTM:https://zhuanlan.zhihu.com/p/83496936
再次总结:建模是一个大工程,和特征工程类似,需要强大的理论知识和扎实的代码演算经验才能顺利将其掌握。零基础入门不易,但是只要持之以恒,就一定能攻克它。
附:模型对比的优劣性
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task4%20建模调参.md
五、模型融合
模型融合的目的,在于结合不同模型之间的优劣,取长补短,融合后的新模型,可能会有出其不意的效果。
参考资料:
1、https://blog.csdn.net/wuzhongqiang/article/details/105012739
2、https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task5%20模型融合.md
结课心得:零基础入门是不存在的,要学的知识,要推演的代码,要排除的BUG,一个都少不了,没有人会替你把前进的路上所有的石头都搬走,总会有一个人背负重任前行的时候。潜心修行,一步一个脚印,才能真正把建模拿下来,才能真正掌握用python实现数据分析的技能。一起加油吧!