flyingool

（一）python-申请评分卡模型

#简介
本文通过使用LendingClub的数据，采用卡方分箱（ChiMerge）、WOE编码、计算IV值、单变量和多变量（VIF）分析，然后使用逻辑回归模型进行训练，在变量筛选时也可尝试添加L1约束或通过随机森林筛选变量，最后进行模型评估。
######关键词：卡方分箱，WOE，IV值，变量分析，逻辑回归

####一、数据预处理
数据清洗：数据选择、格式转换、缺失值填补
由于贷款期限（term）有多个种类，申请评分卡模型评估的违约概率必须在统一的期限中，并且不宜太长，因此选择36months的数据作为本次建模数据，60%训练，40%测试。
```
folderOfData = os.path.join(os.getcwd(), 'data')
allData = pd.read_csv(os.path.join(folderOfData,'application.csv'),header = 0, encoding = 'latin1')
allData['term'] = allData['term'].apply(lambda x: int(x.replace(' months','')))
# 处理标签：Fully Paid是正常用户；Charged Off是违约用户
allData['y'] = allData['loan_status'].map(lambda x: int(x == 'Charged Off'))

allData1 = allData.loc[allData.term == 36]
trainData, testData = train_test_split(allData1,test_size=0.4)
```
进一步清洗：
1. 将int_rate利息转换为小数形式
2. 将emp_length处理为：10+为11，<1为0，空为-1
3. desc为有记录和无记录两种情况
4. 日期处理
5. 两个日期之间月数计算

```
# 将带％的百分比变为浮点数
trainData['int_rate_clean'] = trainData['int_rate'].map(lambda x: float(x.replace('%',''))/100)

# 将工作年限进行转化，否则影响排序
trainData['emp_length_clean'] = trainData['emp_length'].map(CareerYear)

# 将desc的缺失作为一种状态，非缺失作为另一种状态
trainData['desc_clean'] = trainData['desc'].map(DescExisting)

# 处理日期。earliest_cr_line的格式不统一，需要统一格式且转换成python的日期
trainData['app_date_clean'] = trainData['issue_d'].map(lambda x: ConvertDateStr(x))
trainData['earliest_cr_line_clean'] = trainData['earliest_cr_line'].map(lambda x: ConvertDateStr(x))

# 处理mths_since_last_delinq。注意原始值中有0，所以用－1代替缺失
trainData['mths_since_last_delinq_clean'] = trainData['mths_since_last_delinq'].map(lambda x:MakeupMissing(x))

trainData['mths_since_last_record_clean'] = trainData['mths_since_last_record'].map(lambda x:MakeupMissing(x))

trainData['pub_rec_bankruptcies_clean'] = trainData['pub_rec_bankruptcies'].map(lambda x:MakeupMissing(x))
```

####二、变量衍生和挑选
- 衍生：
1. 考虑申请额度与收入的占比
2. 考虑earliest_cr_line到申请日期的跨度，计算月份数
```
# 考虑申请额度与收入的占比
trainData['limit_income'] = trainData.apply(lambda x: x.loan_amnt / x.annual_inc, axis = 1)
# 考虑earliest_cr_line到申请日期的跨度，计算月份数
trainData['earliest_cr_to_app'] = trainData.apply(lambda x: MonthGap(x.earliest_cr_line_clean,x.app_date_clean), axis = 1)
```
- 挑选：
我们初步挑选变量如下，分为两类：数值型（连续型）的和类别型的变量。
```
num_features = ['int_rate_clean','emp_length_clean','annual_inc', 'dti', 'delinq_2yrs', 'earliest_cr_to_app','inq_last_6mths', \
'mths_since_last_record_clean', 'mths_since_last_delinq_clean','open_acc','pub_rec','total_acc','limit_income','earliest_cr_to_app']

cat_features = ['home_ownership', 'verification_status','desc_clean', 'purpose', 'zip_code','addr_state','pub_rec_bankruptcies_clean']
```

####三、卡方分箱法
采用卡方（ChiMerge）分箱，要求分箱完成之后：
1. 不超过5箱（本模型默认不超过5箱）
2. 坏样本率（Bad Rate）单调
3. 每箱同时包含好坏样本
4. 如有特殊值如-1单独成一箱，此箱不参与Bad Rate单调性检验

连续型的变量可以直接进行分箱，对于类别型的变量分为以下几种情况：
1. 当类别型变量取值比较多时（本例中大于5），先用bad rate 进行编码，然后放入连续型变量列表中，使用连续型变量分箱的方法进行分箱。
2. 当取值较少时（本例中小于等于5），分两种情况：
（1）如果每种类别同时包含好坏样本，则无需分箱；
（2）如果有类别只包含好坏样本的一种，则需要合并；

具体操作如下：
第一步，检查类别型变量中，哪些变量取值超过5。
```
more_value_features = []
less_value_features = []
# 第一步，检查类别型变量中，哪些变量取值超过5
for var in cat_features:
valueCounts = len(set(trainData[var]))
print valueCounts
if valueCounts > 5:
more_value_features.append(var) #取值超过5的变量，需要bad rate编码，再用卡方分箱法进行分箱
else:
less_value_features.append(var)
```
第二步，当取值<5时：如果每种类别同时包含好坏样本，无需分箱；如果有类别只包含好坏样本的一种，需要合并。
```
merge_bin_dict = {} #存放需要合并的变量，以及合并方法
var_bin_list = [] #由于某个取值没有好或者坏样本而需要合并的变量
for col in less_value_features:
binBadRate = BinBadRate(trainData, col, 'y')[0]
if min(binBadRate.values()) == 0 : #由于某个取值没有坏样本而进行合并
print '{} need to be combined due to 0 bad rate'.format(col)
combine_bin = MergeBad0(trainData, col, 'y')
merge_bin_dict[col] = combine_bin
newVar = col + '_Bin'
trainData[newVar] = trainData[col].map(combine_bin)
var_bin_list.append(newVar)
if max(binBadRate.values()) == 1: #由于某个取值没有好样本而进行合并
print '{} need to be combined due to 0 good rate'.format(col)
combine_bin = MergeBad0(trainData, col, 'y',direction = 'good')
merge_bin_dict[col] = combine_bin
newVar = col + '_Bin'
trainData[newVar] = trainData[col].map(combine_bin)
var_bin_list.append(newVar)
```
第三步，当取值>5时：用bad rate进行编码，放入连续型变量里。
```
br_encoding_dict = {} #记录按照bad rate进行编码的变量，及编码方式
for col in more_value_features:
br_encoding = BadRateEncoding(trainData, col, 'y')
trainData[col+'_br_encoding'] = br_encoding['encoding']
br_encoding_dict[col] = br_encoding['bad_rate']
num_features.append(col+'_br_encoding')
```
第四步，分箱，对连续型变量列表num_features进行卡方分箱。本文分箱后的最多的箱数为5箱。
```
continous_merged_dict = {}
for col in num_features:
max_interval = 5 # 分箱后的最多的箱数
print "{} is in processing".format(col)
if -1 not in set(trainData[col]): #－1会当成特殊值处理。如果没有－1，则所有取值都参与分箱
cutOff = ChiMerge(trainData, col, 'y', max_interval=max_interval,special_attribute=[],minBinPcnt=0)
trainData[col+'_Bin'] = trainData[col].map(lambda x: AssignBin(x, cutOff,special_attribute=[]))
monotone = BadRateMonotone(trainData, col+'_Bin', 'y') # 检验分箱后的单调性是否满足
while(not monotone):
# 检验分箱后的单调性是否满足。如果不满足，则缩减分箱的个数。
max_interval -= 1
cutOff = ChiMerge(trainData, col, 'y', max_interval=max_interval, special_attribute=[],
minBinPcnt=0)
trainData[col + '_Bin'] = trainData[col].map(lambda x: AssignBin(x, cutOff, special_attribute=[]))
if max_interval == 2:
# 当分箱数为2时，必然单调
break
monotone = BadRateMonotone(trainData, col + '_Bin', 'y')
newVar = col + '_Bin'
trainData[newVar] = trainData[col].map(lambda x: AssignBin(x, cutOff, special_attribute=[]))
var_bin_list.append(newVar)
else:
# 如果有－1，则除去－1后，其他取值参与分箱
cutOff = ChiMerge(trainData, col, 'y', max_interval=max_interval, special_attribute=[-1],
minBinPcnt=0)
trainData[col + '_Bin'] = trainData[col].map(lambda x: AssignBin(x, cutOff, special_attribute=[-1]))
monotone = BadRateMonotone(trainData, col + '_Bin', 'y',['Bin -1'])
while (not monotone):
max_interval -= 1
# 如果有－1，－1的bad rate不参与单调性检验
cutOff = ChiMerge(trainData, col, 'y', max_interval=max_interval, special_attribute=[-1],
minBinPcnt=0)
trainData[col + '_Bin'] = trainData[col].map(lambda x: AssignBin(x, cutOff, special_attribute=[-1]))
if max_interval == 3:
# 考虑特殊值，当分箱数为3-1=2时，必然单调
break
monotone = BadRateMonotone(trainData, col + '_Bin', 'y',['Bin -1'])
newVar = col + '_Bin'
trainData[newVar] = trainData[col].map(lambda x: AssignBin(x, cutOff, special_attribute=[-1]))
var_bin_list.append(newVar)
continous_merged_dict[col] = cutOff
```
####四、WOE编码和IV值
经常上一步的分箱后，分箱后的变量有如下几种情况：
1. 初始取值个数小于5，且不需要合并的类别型变量。
2. 初始取值个数小于5，需要合并的类别型变量，并且合并后的新变量不再需要合并。
3. 初始取值个数超过5，需要合并的类别型变量，并且合并后的新变量不再需要合并。
4. 连续型变量进行卡方分箱。

如下取到每个变量分箱后的WOE和该变量的IV值：
```
WOE_dict = {}
IV_dict = {}
for var in all_var:
woe_iv = CalcWOE(trainData, var, 'y')
WOE_dict[var] = woe_iv['WOE']
IV_dict[var] = woe_iv['IV']
```
将变量IV值进行降序排列，得到结果如下：
```
IV_dict_sorted = sorted(IV_dict.items(), key=lambda x: x[1], reverse=True)

IV_values = [i[1] for i in IV_dict_sorted]
IV_name = [i[0] for i in IV_dict_sorted]
plt.title('feature IV')
plt.bar(range(len(IV_values)),IV_values)
```
得到的IV值如下图所示：
![image.png](https://upload-images.jianshu.io/upload_images/2130650-53e20caeddc57164.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

####五、变量分析
单变量分析和多变量分析，均基于WOE编码后的值。
1. 选择IV值大于等于0.01的变量
2. 比较两两线性相关性。如果相关系数的绝对值高于阈值，剔除IV较低的一个。
```
#选取IV>=0.01的变量
high_IV = {k:v for k, v in IV_dict.items() if v >= 0.01}
high_IV_sorted = sorted(high_IV.items(),key=lambda x:x[1],reverse=True)

short_list = high_IV.keys()
short_list_2 = []
for var in short_list:
newVar = var + '_WOE'
trainData[newVar] = trainData[var].map(WOE_dict[var])
short_list_2.append(newVar)

#对于上一步的结果，计算相关系数矩阵，并画出热力图进行数据可视化
trainDataWOE = trainData[short_list_2]
f, ax = plt.subplots(figsize=(10, 8))
corr = trainDataWOE.corr()
sns.heatmap(corr, mask=np.zeros_like(corr, dtype=np.bool), cmap=sns.diverging_palette(220, 10, as_cmap=True),square=True, ax=ax)
f.savefig('sns_heatmap_high_IV.png')
```
根据IV值挑选的变量的相关系数矩阵热力图：
![image.png](https://upload-images.jianshu.io/upload_images/2130650-45365bc505ef0bfe.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

单变量两两间的线性相关性检验：
（1）将候选变量按照IV进行降序排列
（2）计算第i和第i+1的变量的线性相关系数
（3）对于系数超过阈值的两个变量，剔除IV较低的一个
此处阈值为0.7，大于0.7则表示有相关性。见如下代码：
```
deleted_index = []
cnt_vars = len(high_IV_sorted)
for i in range(cnt_vars):
if i in deleted_index:
continue
x1 = high_IV_sorted[i][0]+"_WOE"
for j in range(cnt_vars):
if i == j or j in deleted_index:
continue
y1 = high_IV_sorted[j][0]+"_WOE"
roh = np.corrcoef(trainData[x1],trainData[y1])[0,1]
if abs(roh)>0.7:
x1_IV = high_IV_sorted[i][1]
y1_IV = high_IV_sorted[j][1]
if x1_IV > y1_IV:
deleted_index.append(j)
else:
deleted_index.append(i)

multi_analysis_vars_1 = [high_IV_sorted[i][0]+"_WOE" for i in range(cnt_vars) if i not in deleted_index]
```
多变量分析：VIF
一般要小于10，本次结果max_VIF为：1.5093709849027372，则多变量之间排除共线性。
```
X = np.matrix(trainData[multi_analysis_vars_1])
VIF_list = [variance_inflation_factor(X, i) for i in range(X.shape[1])]
max_VIF = max(VIF_list)
print max_VIF
```

####六、逻辑回归模型
要求：
1，变量显著
2，符号为负
将多变量分析后的变量带入LR模型中，
```
y = trainData['y']
X = trainData[multi_analysis]
X['intercept'] = [1]*X.shape[0]
LR = sm.Logit(y, X).fit()
summary = LR.summary()
pvals = LR.pvalues
pvals = pvals.to_dict()
```
逐步剔除p值不显著的变量
```
varLargeP = {k: v for k,v in pvals.items() if v >= 0.1}
varLargeP = sorted(varLargeP.items(), key=lambda d:d[1], reverse = True)
while(len(varLargeP) > 0 and len(multi_analysis) > 0):
# 每次迭代中，剔除最不显著的变量，直到
# (1) 剩余所有变量均显著
# (2) 没有特征可选
varMaxP = varLargeP[0][0]
print varMaxP
if varMaxP == 'intercept':
print 'the intercept is not significant!'
break
multi_analysis.remove(varMaxP)
y = trainData['y']
X = trainData[multi_analysis]
X['intercept'] = [1] * X.shape[0]

LR = sm.Logit(y, X).fit()
pvals = LR.pvalues
pvals = pvals.to_dict()
varLargeP = {k: v for k, v in pvals.items() if v >= 0.1}
varLargeP = sorted(varLargeP.iteritems(), key=lambda d: d[1], reverse=True)

summary = LR.summary()
```
逻辑回归结果如下：
```
LLR p-value: 2.460e-280
========================================================================================================
coef std err z P>|z| [0.025 0.975]
--------------------------------------------------------------------------------------------------------
zip_code_br_encoding_Bin_WOE -0.9467 0.045 -21.258 0.000 -1.034 -0.859
int_rate_clean_Bin_WOE -0.8742 0.055 -15.779 0.000 -0.983 -0.766
annual_inc_Bin_WOE -0.7039 0.095 -7.383 0.000 -0.891 -0.517
purpose_br_encoding_Bin_WOE -0.8559 0.087 -9.785 0.000 -1.027 -0.684
inq_last_6mths_Bin_WOE -0.7831 0.104 -7.537 0.000 -0.987 -0.579
addr_state_br_encoding_Bin_WOE -0.2423 0.121 -1.997 0.046 -0.480 -0.005
limit_income_Bin_WOE -0.4409 0.134 -3.299 0.001 -0.703 -0.179
mths_since_last_record_clean_Bin_WOE -0.7616 0.141 -5.416 0.000 -1.037 -0.486
total_acc_Bin_WOE -0.2963 0.173 -1.710 0.087 -0.636 0.043
dti_Bin_WOE -0.7897 0.196 -4.021 0.000 -1.175 -0.405
emp_length_clean_Bin_WOE -0.7229 0.200 -3.611 0.000 -1.115 -0.331
intercept -2.1014 0.027 -78.645 0.000 -2.154 -2.049
========================================================================================================
```
可以看到p值均显著，且系数为负。
计算auc值，结果为：0.74
```
trainData['prob'] = LR.predict(X)
auc = roc_auc_score(trainData['y'],trainData['prob']) #AUC = 0.73
```
####七、验证模型
用同样的方法，对验证集数据进行处理后，放入模型，如下得到
auc=0.65
ks = 0.22
表明模型有一定的预测能力和区分度
```
testData['intercept'] = [1]*testData.shape[0]
#预测数据集中，变量顺序需要和LR模型的变量顺序一致
#例如在训练集里，变量在数据中的顺序是“负债比”在“借款目的”之前，对应地，在测试集里，“负债比”也要在“借款目的”之前
testData2 = testData[list(LR.params.index)]
testData['prob'] = LR.predict(testData2)

#计算KS和AUC
auc = roc_auc_score(testData['y'],testData['prob'])
ks = KS(testData, 'prob', 'y')
```
计算评分：
```
basePoint = 250
PDO = 200
testData['score'] = testData['prob'].map(lambda x:Prob2Score(x, basePoint, PDO))
testData = testData.sort_values(by = 'score')
```
结果如下，分值与频数的分布近似为正态分布。根据业务需要以及相应的风险比例，划分评分区间，合理应用评分卡模型。
![image.png](https://upload-images.jianshu.io/upload_images/2130650-eed618aaaa7b5b2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

Python数据分析实战【十一】：学习用scorecardpy搭建风控评分卡模型【文末源码地址】帅帅的Python 机器学习数据分析 python 机器学习
文章目录评分卡模型一、数据预处理scorecardpy自带数据查看数据行列查看数据内容,用sample()比head()可以看更多的数据统计每个变量的缺失占比情况查看数据的信息查看每个变量有多少分类描述性统计数据之间的相关性二、数据筛选sc.var_filter()划分数据三、变量分箱woebin()woebin_plot()分箱调整四、WOE转化五、建立模型六、模型评估七、评分稳定性评分映射计算
金融信贷风控评分卡模型 RobinCode 风控系统金融 java
评分卡模型概念评分模型是根据借款人的历史数据，选取不同维度的数据类型，通过计算而得出的对借款人信用情况打分的模型。不同等级的信用分数代表了借款人信用情况的好坏，以此来分析借款人按时还款的可能性。评分卡模型分类A卡（ApplicationScorecard）：也叫申请评分卡，用于评估申请人在贷款申请阶段的信用风险。主要依据申请人提供的个人信息（如财务状况、信用记录、工作情况等）以及外部信用评分（如征
金融信贷风控决策引擎详解 RobinCode 风控系统金融
风控决策引擎含义风控决策引擎是对复杂的业务逻辑抽象化剥离出来的业务规则进行不同的分支组合、关联，然后层层规则递进运算，最终输出决策结果的产品。传统的风控决策引擎主要实现规则的逻辑判断，例如：女厕所的规则可以制定成“性别为女，才能进入，否则不能进入”，因此在数据段输入的人性别为“男”时，则规则判断为不能进入；现有通常使用的风控决策引擎，在传统的基础上功能更加丰富，可以实现规则、评分卡、模型和表达式等
信贷风控业务知识十分钟速学（2）草帽-路飞风控算法机器学习深度学习算法
信贷风控架构简介风险的管控并非由一个模型或一条策略就能完成，通常需要多方人员配合，通过多环节把控，才能有效控制风险并最大化收益。常见的准人模型、额度管理模型、营销模型、流失预警模型、催收模型等，仅仅作为相应板块的风险管控手段，嵌人在该板块的策略系统中使用。例如，流失预警模型分数处于不同阀值之间时，会使用不同的营销手段对用户进行挽留。又如，催收评分卡模型分数处于不同阈值之间时，会使用不同的催收手段，
2018年4月26日真昼之月
昨天不小心睡晚了！起床时非常困。地铁上开始玩机战X，用多了NS就不禁觉得PSV真的好小，虽然作为掌机这明显是优势就是了……女主兽耳有点可爱，但是机体不是太喜欢。上午先是无所事事摸了一阵子，然后和学长交流之后大约摸清楚了他的贵州评分卡是怎么做出来的，然后决定用近三个月的数据来检验自己手头的7000个用户，从而观察时间窗口的差异对评分卡的影响有多大。……说是这么说，但是写起代码来才发现各种麻烦，神tm
2019-11-23 夏木子糖
1、内心评分卡和外界评分卡的差异。将自己尽可能好的形象展现出来，是埋藏在我们内心深处的一个强烈的冲动。这种行为是更多关注外界评价模式。应当坚守自己的内心评分卡，并用一种友好、洒脱且冷漠的态度来对待外界的褒贬。自己对自己的看法才是唯一关键的。2、历史终结错觉。如果给20年前的自己和现在的自己变化打分，一般人会打4－6分。如果对未来自己打分，一般人打2－3分。大多数人都不相信自己在未来20年中，在内心
金融评分卡项目—9.违约预测模型的后续工作哎呦-_-不错 #数据挖掘项目实战金融评分卡违约预测模型后续工作
文章目录一、评分卡分数计算1.分数的分级二、模型的验证与监控1.模型的验证2.模型的监控三、评分卡的其他细节1.实时计算2.非实时计算3.拒绝推断四、申请评分卡的使用1.授信额度2.利率定价金融评分卡项目—6.互联网金融业贷款申请评分卡介绍金融评分卡项目—7.申请评分卡中的数据预处理和特征衍生金融评分卡项目—8.逻辑回归模型在申请评分卡中的应用一、评分卡分数计算评分卡模型用分数衡量逾期率的大小
智能风控体系之层次分析法专家评分卡风控小兵突击智能风控机器学习数据分析金融 python 自动化
层次分析法(AnalyticHierarchyProcess，简称AHP)由美国运筹学家托马斯·塞蒂(T.L.Saaty)于上世纪70年代中期提出，是通过定量与定性分析相结合的方法来进行多方案或多目标决策分析的一种方法。该方法的主要思想是通过将一个复杂的问题分解为若干层并考虑不同因素，对两两指标进行成对比较判断其重要程度，并建立判断矩阵进行重要性程度的权重确定，最终找到最佳方案来辅助决策。专家经验
（信贷风控五）评分卡模型的评价标准路易三十六金融信贷风控的机器学习实战信贷风控---评分卡评分卡模型的评价标准模型的区分度模型的准确度模型的稳定性评分卡模型概率转换为分数
首先我们回顾一下评分卡模型的制作步骤数据预处理变量衍生构造变量分箱变量挑选模型参数估计模型校验概率转换为分数这篇博客我们主要来讨论一下评分卡模型的评价标准，主要有以下三个方面模型的区分度模型的准确度模型的稳定性下面我们一一从这三个方面来讨论一下模型的评价标准模型的区分度评分卡模型的结果需要能对好、坏人群给出一定的区分度，常用方法（在申请评分卡一般使用KS来检验区分度即可，Divergence和Gi
智能风控体系之divergence评分卡简介风控小兵突击智能风控机器学习数据分析金融 python 自动化
评分卡模型的出现据说最早是在20世纪40年代，HouseholdFinanceandSpiegel和芝加哥邮购公司第一次尝试在贷款决策过程中使用信用评分.但是这两家公司都终止了这项业务。后来，在20世纪50年代末，伊利诺伊州的美国投资公司（AIC）聘请两位数学家比尔·法尔（BillFair）和厄尔·艾萨克（EarlIsaac）通过审查一个小型贷款样本（其中一些支付信用良好，其中一些较差）来确认是否
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
一行代码自动化风控建模autobmt实战风控小兵突击智能风控自动化机器学习深度学习数据分析金融数据挖掘人工智能
今天，为大家分享一行代码即可自动化风控建模哦，来介绍一下这个库autobmt。安装方式：pipinstallautobmtpipy包：https://pypi.org/project/autobmt/数据集和代码领取，请+工种号，回复“自动建模”自动建模评分卡读取数据模型建设定义模型存储和Y标签定义，开始自动训练模型###TODO注意修改client_batch='TT01p1'key,targe
风控实战-卡方分箱计算IV值（含代码）风控小兵突击智能风控 python 数据挖掘数据分析金融
统计学，风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心，让分箱具有统计学意义（单调性）。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。01卡方检验算法介绍卡方检验（Chi-SquareTest）是一种统计学上的检验方法，用于评估两个类别变量之间的独立性。它基于样本数据来测试观察值与预期值之间的差异是否足够大，以至于能够推断变量之间
金融风控AI—评分卡模型算法(1) hexter
一、概述办理过信用卡的朋友知道，开卡需要先申请（筛选好坏用户），可能还会根据你的信用情况会有不同的额度。这就是银行的信用风险计量体系。对于信用卡有4类评分卡：1）申请评分卡（A卡）2）行为评分卡（B卡）3）催收评分卡（C卡）4）欺诈评分卡（F卡）这些评分卡算法一样，只是训练的数据不同，所用的参数也就不同。蚂蚁金服的芝麻信用也是这样的。二、模型开发模型的开发主要包含以下几大部分工作：数据获取、数据预
Python金融风控模型案例实战大全 python机器学习建模论文复现 python风控模型人工智能 python 风控模型案例风控
大家好，我是Toby老师，今天介绍《Python金融风控模型案例实战大全》。1.《Python金融风控模型案例实战大全》程覆盖多个核心知识点，包括风控建模全流程知识介绍，信用评分卡，信用评分卡知识包含个人信用评分卡和企业信用评分卡知识；集成树算法xgboost，lightgbm，catboost，神经网络算法，多个异常值检测算法，多个变量筛选算法，数据清洗全流程等，可用于kaggle竞赛或银行模型
基于Python的信用评分卡模型分析 python机器学习建模 python风控模型 python 机器学习算法概率论线性代数
我们每天都在用支付宝，蚂蚁金服风险识别速度可达到100毫秒，比眨眼一次的时间还要快四倍。在全球数字经济时代，有一种金融优势，那就是基于消费者大数据的纯信用！我们不妨称之为数据信用，它比抵押更靠谱，它比担保更保险，它比监管更高明，它是一种面向未来的财产权，它是数字货币背后核心的抵押资产，它决定了数字货币时代信用创造的方向、速度和规模。一句话，谁掌握了数据信用，谁就控制了数字货币的发行权！数据信用判断
2018年7月12日真昼之月
今天起床倒是挺早的，最后勉强准时到达联通大楼。一个白天都在抓紧时间建模写sql，最后先斩后奏决定用V2版本的评分卡并且不再微调了。最后调sql也算比较顺利，单机运行到生成input_values位置大概要半个小时。下午继续加班加点工作，最后在同事的远程协助下总算打包完成，部署时遇到了一点小困难不过也顺利解决了，最后打分结果看着也有模有样，简单统计了一下分数分布后感觉就可以收工了，开心！然后汇报了工
2018年4月4日真昼之月
上午尝试把logistic回归的结果转换成详细的评分卡，意外地很顺利，膨胀了（x）KS值大约在0.48左右，还算比较合理……吧？期间在群里讨论了一下数学，唉突然又想把家里那些数学书继续捡起来看了（x）下午和领导讨论了一下任务进展，顺便按照自己的理解向他解释了一些关于评分卡的问题，感觉信心不是很足但是应该没有问题吧……？之后又花了点时间给同事演示Hive的一些基础操作，耽误了些时间，再考虑到马上就放
机器学习ST股票预测模型(企业建模_论文建模定制服务_信用评分卡等多算法实现) python风控模型论文毕设数据分析机器学习算法人工智能 st股票预测模型股票模型股票预测模型金融
知己知彼，百战不殆；不知彼而知己，一胜一负；不知彼，不知己，每战必贻。--《孙子兵法》谋攻篇ST股票ST股票是指因连续两年净利润为负而被暂停上市的股票，其风险较高，投资者需要谨慎对待。这些公司可能面临着特殊的财务困难或其他问题，因此被市场视为风险较高的股票。投资者在购买ST股票时需要谨慎，充分了解公司的情况和风险，以便做出明智的投资决策。中国知名的ST股票案例：东方航空股票（600115.SH）：
基于中小微企业_个体工商户的信贷评分卡模型和用户画像(论文_专利_银行调研建模使用) python风控模型论文毕设数据分析人工智能中小企业信贷评分卡模型个体工商户信贷评分卡模型风控建模风控银行信贷模型
背景介绍信用贷款是指由银行或其他金融机构向中小微企业和个体工商户提供的一种贷款产品。该贷款的特点是无需提供抵押品或担保，主要依据借款人的信用状况来进行评估和审批。中小微企业和个体工商户信用贷款的申请流程相对简单，申请人只需要提供个人和企业的相关证明材料，如身份证、营业执照、税务登记证等，即可进行贷款申请。贷款金额一般在几万元到几百万元之间，贷款期限也相对较短，一般在一年以内。中小微企业和个体工商户
python评分卡模型 python风控模型 python 人工智能开发语言
信用风险计量模型可以包括跟个人信用评级，企业信用评级和国家信用评级。人信用评级有一系列评级模型组成，常见是A卡（申请评分卡）、B卡（行为模型）、C卡（催收模型）和F卡（反欺诈模型）。今天我们展示的是个人信用评级模型的开发过程，数据采用kaggle上知名的givemesomecredit数据集。一、建模流程典型的信用评分卡模型如图1-1所示。信用风险评级模型的主要开发流程如下：（1）获取数据，包括申
金融风控项目实战-python 评分卡 python风控模型论文毕设数据分析 python 人工智能开发语言
信用风险计量模型可以包括跟个人信用评级，企业信用评级和国家信用评级。人信用评级有一系列评级模型组成，常见是A卡（申请评分卡）、B卡（行为模型）、C卡（催收模型）和F卡（反欺诈模型）。今天我们展示的是个人信用评级模型的开发过程，数据采用kaggle上知名的givemesomecredit数据集。一、建模流程典型的信用评分卡模型如图1-1所示。信用风险评级模型的主要开发流程如下：（1）获取数据，包括申
卡方分箱(chi-square) python风控模型论文毕设概率论
统计学，风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心，让分箱具有统计学意义（单调性）。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。但很多建模人员搞不清楚卡方分箱原理。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。欢迎各位同学学习更多相关知识python金融风控评分卡模型和数据分析：https://edu.csdn.ne
【华为数据之道学习笔记】3-5 规则数据治理码农丁丁 #数据中台华为数据之道读书笔记
在业务规则管理方面，华为经常面对“各种业务场景业务规则不同，记不住，找不到”“大量规则在政策、流程等文件中承载，难以遵守”“各国规则均不同，IT能否一国一策、快速上线”等问题。规则数据是结构化描述业务规则变量（一般为决策表、关联关系表、评分卡等形式）的数据，是实现业务规则的核心数据，如业务中普遍存在的基线数据。规则数据主要有以下特征：1）规则数据不可实例化；2）规则数据包含判断条件和决策结果两部分
信用评分卡的初级探索及疑问巴拉巴拉_9515
对于整体情况的评分常用的方法有层次分析法，模糊分析法。近期发现金融行业常用的评分卡模型，经过初步探索以后有了一定的理解，同时也存在一些待解决的疑问。一、有监督数据评分卡模型是有监督的打分模型，所以训练模型的数据集需要包含特征和二分类标签。以GiveMeSomeCredit数据集为例，第一列target为我们的目标标签，1表示存在违约，0表示无违约情况。.二、特征提取特征之间不宜存在强的相关关系，否
2018年3月22日真昼之月
今天起床状态还行（最近怎么变得和老虎一样开场先介绍睡眠质量了？！）。地铁上玩荒野之息，骆驼迷宫出现重大进展！我果然好聪明！上午主要是看看同事推荐的文档给现金贷建模做准备，感觉不管是分箱还是LR分类器都不新鲜，我也都会，但为什么我做出来的结果就那么不尽人意呢……不过从LR概率转到评分卡的标准流程和公式推导倒是之前没接触过。午饭时顺手打了雷咒盖侬，然后没午睡，1点20和同事们出发去检察院（？）接受数据
机器学习之金融风控西西先生666 机器学习机器学习数据挖掘 python
机器学习之金融风控一、评分卡1.1评分卡原理1.2评分卡优缺点1.3评分卡模型搭建步骤1.4IV值和WOE值详解1.5评分卡转换二、实现2.1数据导入与预处理2.2可视化分析2.3数据分箱-计算IV值和WOE值2.4baseline模型搭建与评估2.5评分卡转换2.6验证评分卡效果2.7总结三、参考网址一、评分卡1.1评分卡原理根据风控时间点的”前中后”，一般风评分卡可以分为下面三类:1）A卡（A
数据分析-14-基于Python的信用评分卡数据分析（包含代码数据） AI研习星球 #Python数据分析数据分析 python 数据挖掘人工智能机器学习深度学习自然语言处理
文章目录0.数据代码下载1.分析思路2.理解数据3.数据清洗3.1选择子集3.2列名重命名3.3缺失数据处理3.4异常值处理4.建立模型4.1借款逾期超过90天的人数，即借款客户的整体质量情况？4.2借款人月收入分布情况及月收入对违约客户数量的影响？4.3年龄对违约率的影响？关注公众号：『AI学习星球』回复：基于Python的信用评分卡数据分析即可获取数据下载。算法学习、4对1辅导、论文辅导或核心
【风控业务分析模型】 Oo_Amy_oO python pandas numpy scipy
预测类评分卡模型(ScoreCardModel)评分卡模型是一种用于评估客户信用风险的分析模型，广泛用于金融、保险、电商等领域。通过对客户个人信息、历史交易记录等数据进行统计分析，构建出一个客户信用得分用于评估其信用风险水平。欺诈检测模型(FraudDetectionModel)欺诈检测模型是一种用于识别可疑交易或行为的分析模型，可以帮助企业及时发现和阻止欺诈行为。通常使用机器学习和数据挖掘技术，
金融风控建设核心 —— 决策引擎真钢镚金融风控安全
目录一、前言二、什么是风控决策引擎？三、什么是特征？五、功能模块1.特征管理a）特征类型b）特征来源2.规则管理3.规则集管理a）规则表b）规则树4.评分卡管理5.决策流管理6.历史决策管理六、贷前应用场景a）决策模型及规则介绍贷前模型：b）数据使用原则（主打一个降本～）风控策略、风控运营等业务人员时常会用到一类系统，即风控决策引擎。那么，什么是风控决策引擎？风控决策引擎有哪些具体的功能模块，其对
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

（一）python-申请评分卡模型

你可能感兴趣的:(评分卡)