aliexie2869

逻辑回归与评分卡

评分卡

建立逻辑回归模型
对模型进行评分映射

逻辑回归表达式

\[ y = \frac{1}{1 + e^{-\theta}} \]

\[ \theta = WX + B \]

sigmoid函数

\[ sigmoid(x) = \frac{1}{1 + e^{-x}} \]

sigmoid函数的导数

\[ \delta sigmoid(x) = \delta{\frac{1}{1 + e^{-x}}} = \delta{\frac{e^{-x}}{(1 + e^{-x})^2}} = \delta{\frac{1}{1 + e^{-x}} * \frac{e^{-x}}{1 + e^{-x}}} = sigmoid(x) * \frac{1 + e^{-x} - 1}{1 + e^{-x}} = sigmoid(x) * (1 - sigmoid(x)) \]

损失函数(Cross-entropy, 交叉熵损失函数)

信息熵: \(-PlogP\)(P是概率, 小于1, 取反之后就是正数了), 这个值代表的是信息量, 如果值越大代表对当前情况越不确定, 信息不足.

\[ loss = -\sum{{y_t}log{y_p} + (1 - y_t)log{(1 - y_p)}} \]

\(y_t\): 真实的Y值, 需要进行独热编码

\(y_p\): 预测的Y值

交叉熵求导

\[ \frac{\delta loss}{\delta Y_p} = -\frac{\delta Y_tlogY_p}{\delta Y_p} = \sum_n^N{-\frac{Y_i}{P_i} + \frac{1 - Y_i}{1 - P_i}} \]

准确率计算

混淆矩阵

T\Pre	Positive	Negative
Positive	TP	FN
Negative	FP	TN

评估指标

召回率计算

\[ recall = \frac{TP}{TP + FP} \]

精准率计算

\[ precision = \frac{TP}{TP + FN} \]

import pandas as pd
from sklearn.metrics import roc_auc_score,roc_curve,auc
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
import numpy as np
import random
import math

data = pd.read_csv('Acard.txt')
data.head()

	obs_mth	uid	td_score	jxl_score	mj_score	rh_score	zzc_score	zcx_score	person_info	finance_info	credit_info	act_info
0	2018-10-31	A10000005	0.675349	0.144072	0.186899	0.483640	0.928328	0.369644	-0.322581	0.023810	0.00	0.217949
1	2018-07-31	A1000002	0.825269	0.398688	0.139396	0.843725	0.605194	0.406122	-0.128677	0.023810	0.00	0.423077
2	2018-09-30	A1000011	0.315406	0.629745	0.535854	0.197392	0.614416	0.320731	0.062660	0.023810	0.10	0.448718
3	2018-07-31	A10000481	0.002386	0.609360	0.366081	0.342243	0.870006	0.288692	0.078853	0.071429	0.05	0.179487
4	2018-07-31	A1000069	0.406310	0.405352	0.783015	0.563953	0.715454	0.512554	-0.261014	0.023810	0.00	0.423077

# 看一下月份分布，用最后一个月做为跨时间验证集合
data.obs_mth.unique()

array(['2018-10-31', '2018-07-31', '2018-09-30', '2018-06-30',
       '2018-11-30'], dtype=object)

# 划分训练集和验证集
train = data[data.obs_mth != '2018-11-30'].reset_index().copy()
val = data[data.obs_mth == '2018-11-30'].reset_index().copy()

# 这是我们全部的变量，info结尾的是自己做的无监督系统输出的个人表现，score结尾的是收费的外部征信数据
feature_lst = ['person_info','finance_info','credit_info','act_info','td_score','jxl_score','mj_score','rh_score']

x = train[feature_lst]
y = train['bad_ind']

val_x =  val[feature_lst]
val_y = val['bad_ind']

lr_model = LogisticRegression(C=0.1)
lr_model.fit(x,y)

E:\Anaconda3\envs\sklearn\lib\site-packages\sklearn\linear_model\logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)





LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

模型评价

KS值
ROC曲线

ROC

描绘的是不同的截断点时，并以FPR和TPR为横纵坐标轴，描述随着截断点的变小，TPR随着FPR的变化。
纵轴：TPR=正例分对的概率 = TP/(TP+FN)，其实就是查全率
横轴：FPR=负例分错的概率 = FP/(FP+TN)

作图步骤：

根据学习器的预测结果（注意，是正例的概率值，非0/1变量）对样本进行排序（从大到小）-----这就是截断点依次选取的顺序
按顺序选取截断点，并计算TPR和FPR---也可以只选取n个截断点，分别在1/n，2/n，3/n等位置
连接所有的点（TPR，FPR）即为ROC图

KS值