数据挖掘实战——金融风控

数据挖掘实战——金融风控

  • 赛题理解
  • 指标回顾

赛题理解

比赛地址:比赛地址
数据集:train.csv和testA.csv,以及sample_submit.csv
数据项:47项变量信息,包含id、loanAmnt、term、interestRate、intsallment、gradesubGrade、employmentTitle、employmentLength、homeOwnership、annuallncome、verificationStatus、issueDate、purpose、postCode、regionCode、dti、delinquency_2years、ficoRangeLow、ficoRangeHigh、openAcc、pubRec、pubRecBankruptcies、revolBal、revolUtil、totalAcc、initialListStatus、applicationType、earliesCreditLine、title、policyCode、n系列匿名特征

指标回顾

数据分析常见指标

  1. 混淆矩阵(Confuse Matrix):真正类TP、假负类FN、假正类FP、真负类TN
  2. 准确率:不适合样本不均衡的情况
    A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
  3. 精确率:正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比
    P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
  4. 召回率:正确预测为正样本(TP)占正样本(TP+FN)的百分比
    R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP
  5. F1 Score:权衡精准率Precision和召回率Recall
    F 1 − S c o r e = 2 1 P r e c i s i o n + 1 R e c a l l F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} F1Score=Precision1+Recall12
  6. P-R曲线(Precision-Recall Curve)
  7. ROC(Receiver Operating Characteristic)
  8. AUC(Area Under Curve)

金融预测类评估指标

  1. KS(Kolmogorov-Smirnov)
    K S = m a x ( T P R − F P R ) KS=max(TPR-FPR) KS=max(TPRFPR)
KS(%) 好坏区分能力
20以下 不建议采用
20-40 较好
41-50 良好
51-60 很强
61-75 非常强
75以上 过于高,疑似存在问题
  1. ROC
  2. AUC

你可能感兴趣的:(数据挖掘,大数据)