qq_16365849

WOE信用评分卡--R语言实例

目录(?)[-]

信用卡评分
一数据准备
二数据处理
三变量分析
四切分数据集
五Logistic回归
六WOE转换
七评分卡的创建和实施

转载自：http://blog.csdn.net/csqazwsxedc/article/details/51225156

信用卡评分

2016年1月10日

一、数据准备

1、问题的准备

• 目标：要完成一个评分卡，通过预测某人在未来两年内将会经历财务危机的可能性来提高信用评分的效果，帮助贷款人做出最好的决策。

• 背景：

– 银行在市场经济中起到至关重要的作用。他们决定谁在什么条件下可以得到融资，并且可以创造或打破投资决策。而市场、社会，以及个人和企业都需要获得贷款。

– 信用评分算法，对默认可能性进行猜测，这是银行用来判断贷款是否应该被授予的方法。

• 准备：

– 首先是基于个人借贷的场景，确定“违约”的定义：根据新的Basel II Capital Accord（巴塞尔二资本协议），一般逾期90天算作违约。

– 在判别指标上，选择使用历史最大违约天数。

2、数据的获取与整合

• 数据来源：数据来自Kaggle，cs-training.csv是有15万条的样本数据，下图可以看到这份数据的大致情况。下载地址为：https://www.kaggle.com/c/GiveMeSomeCredit/data

• 数据描述：数据属于个人消费类贷款，只考虑评分卡最终实施时能够使用到的数据应从如下一些方面获取数据：

– 基本属性：包括了借款人当时的年龄。

– 偿债能力：包括了借款人的月收入、负债比率。

– 信用往来：两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或高于90天逾期的次数。

– 财产状况：包括了开放式信贷和贷款数量、不动产贷款或额度数量。

– 贷款属性：暂无。

– 其他因素：包括了借款人的家属数量（不包括本人在内）。

• 原始变量：

变量名	变量类型	变量描述
SeriousDlqin2yrs	Y/N	超过90天或更糟的逾期拖欠
RevolvingUtilizationOf UnsecuredLines	percentage	无担保放款的循环利用：除了不动产和像车贷那样除以信用额度总和的无分期付款债务的信用卡和个人信用额度总额
age	integer	借款人当时的年龄
NumberOfTime30-59DaysPastDueNotWorse	integer	35-59天逾期但不糟糕次数
DebtRatio	percentage	负债比率
MonthlyIncome	real	月收入
NumberOf OpenCreditLinesAndLoans	integer	开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量
NumberOfTimes90DaysLate	integer	90天逾期次数：借款者有90天或更高逾期的次数
NumberRealEstateLoans OrLines	integer	不动产贷款或额度数量：抵押贷款和不动产放款包括房屋净值信贷额度
NumberOfTime60-89DaysPastDueNotWorse	integer	60-89天逾期但不糟糕次数：借款人在在过去两年内有60-89天逾期还款但不糟糕的次数
NumberOfDependents	integer	家属数量：不包括本人在内的家属数量

• 时间窗口：自变量的观察窗口为过去两年，因变量表现窗口为未来两年。

二、数据处理

首先去掉原数据中的顺序变量，即第一列的id变量。由于要预测的是SeriousDlqin2yrs变量，因此将其设为响应变量y，其他分别设为x1~x10变量。

1、缺失值分析及处理

在得到数据集后，我们需要观察数据的分布情况，因为很多的模型对缺失值敏感，因此观察是否有缺失值是其中很重要的一个步骤。在正式分析前，我们先通过图形进行对观测字段的缺失情况有一个直观的感受。

  matrixplot(traindata)

  md.pattern(traindata)

##        y x1 x2 x3 x4 x6 x7 x8 x9  x10    x5      
## 120269 1  1  1  1  1  1  1  1  1    1     1     0
##  25807 1  1  1  1  1  1  1  1  1    1     0     1
##   3924 1  1  1  1  1  1  1  1  1    0     0     2
##        0  0  0  0  0  0  0  0  0 3924 29731 33655

利用matrixplot函数对缺失值部分进行可视化展示，上图中浅色表示值小，深色表示值大，而默认缺失值为红色。因此可以看到x5变量和x10变量，即MonthlyIncome变量和NumberOfDependents两个变量存在缺失值，具体确实情况可以见上表，monthlyincome列共有缺失值29731个，numberofdependents有3924个。

对于缺失值的处理方法非常多，例如基于聚类的方法，基于回归的方法，基于均值的方法，其中最简单的方法是直接移除，但是在本文中因为缺失值所占比例较高，直接移除会损失大量观测，因此并不是最合适的方法。在这里，我们使用KNN方法对缺失值进行填补。

traindata<-knnImputation(traindata,k=10,meth = "weighAvg")

2、异常值分析及处理

关于异常值的检测，这里简单介绍以下一些检测方法：

• 单变量异常值检测：在R语言中使用函数boxplot.stats()可以实现单变量检测，该函数根据返回的统计数据生成箱线图。在上述函数的返回结果中，有一个参数out，它是由异常值组成的列表。更明确的说就是里面列出了箱线图中箱须线外面的数据点。比如我们可以查看月收入分布，第一幅图为没有删除异常值的箱线图。第二幅箱线图删除异常值后，可以发现月收入主要集中分布在3000-8000之间。但是在这份分析报告中，因为我们对业务尚不熟悉，不好将大于8000的数据直接归为异常值，因此对该变量未做处理。

• 使用LOF（局部异常因子）检测异常值：LOF（局部异常因子）是一种基于密度识别异常值的算法。算法实现是：将一个点的局部密度与分布在它周围的点的密度相比较，如果前者明显的比后者小，那么这个点相对于周围的点来说就处于一个相对比较稀疏的区域，这就表明该点事一个异常值。LOF算法的缺点是它只对数值型数据有效。包‘DMwR’和包‘dprep’中的lofactor()可以计算LOF算法中的局部异常因子。

• 通过聚类检测异常值：检测异常值的另外一种方式就是聚类。先把数据聚成不同的类，选择不属于任何类的数据作为异常值。例如，基于密度的聚类DBSCAN算法的实现就是将与数据稠密区域紧密相连的数据对象划分为一个类，因此与其他对象分离的数据就会作为异常值。也可以使用K均值算法实现异常值的检测。首先通过把数据划分为k组，划分方式是选择距离各自簇中心最近的点为一组；然后计算每个对象和对应的簇中心的距离（或者相似度），并挑出拥有最大的距离的点作为异常值。

首先对于x2变量，即客户的年龄，我们可以定量分析，发现有以下值：

unique(traindata$x2)

##  [1]  45  40  38  30  49  74  57  39  27  51  46  76  64  78  53  43  25
## [18]  32  58  50  69  24  28  62  42  75  26  52  41  81  31  68  70  73
## [35]  29  55  35  72  60  67  36  56  37  66  83  34  44  48  61  80  47
## [52]  59  77  63  54  33  79  65  86  92  23  87  71  22  90  97  84  82
## [69]  91  89  85  88  21  93  96  99  94  95 101  98 103 102 107 105   0
## [86] 109

可以看到年龄中存在0值，显然是异常值，予以剔除。

traindata<-traindata[-which(traindata$x2==0),]

而对于x3,x7,x9三个变量，由下面的箱线图可以看出，均存在异常值，且由unique函数可以得知均存在96、98两个异常值，因此予以剔除。同时会发现剔除其中一个变量的96、98值，其他变量的96、98两个值也会相应被剔除

##  [1]  2  0  1  3  4  5  7 10  6 98 12  8  9 96 13 11

##  [1]  0  1  3  2  5  4 98 10  9  6  7  8 15 96 11 13 14 17 12

##  [1]  0  1  2  5  3 98  4  6  7  8 96 11  9

其它变量占不作处理。

三、变量分析

1、单变量分析

我们可以简单地看下部分变量的分布，比如对于age变量，如下图：

ggplot(traindata, aes(x = x2, y = ..density..)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2, alpha = 0.2) + geom_density()

可以看到年龄变量大致呈正态分布，符合统计分析的假设。再比如月收入变量，也可以做图观察观察，如下：

ggplot(traindata, aes(x = x5, y = ..density..)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2, alpha = 0.2) + geom_density() + xlim(1, 20000)

月收入也大致呈正态分布，符合统计分析的需要。

2、变量之间的相关性

建模之前首先得检验变量之间的相关性，如果变量之间相关性显著，会影响模型的预测效果。下面通过corrplot函数，画出各变量之间，包括响应变量与自变量的相关性。

cor1<-cor(traindata[,1:11])
corrplot(cor1)

corrplot(cor1,method = "number")

由上图可以看出，各变量之间的相关性是非常小的。其实Logistic回归同样需要检验多重共线性问题，不过此处由于各变量之间的相关性较小，可以初步判断不存在多重共线性问题，当然我们在建模后还可以用VIF（方差膨胀因子）来检验多重共线性问题。如果存在多重共线性，即有可能存在两个变量高度相关，需要降维或剔除处理。

四、切分数据集

table(traindata$y)

## 
##      0      1 
## 139851   9879

由上表看出，对于响应变量SeriousDlqin2yrs，存在明显的类失衡问题，SeriousDlqin2yrs等于1的观测为9879，仅为所有观测值的6.6%。因此我们需要对非平衡数据进行处理，在这里可以采用SMOTE算法，用R对稀有事件进行超级采样。

我们利用caret包中的createDataPartition（数据分割功能）函数将数据随机分成相同的两份。

set.seed(1234) 
splitIndex<-createDataPartition(traindata$y,time=1,p=0.5,list=FALSE) 
train<-traindata[splitIndex,] 
test<-traindata[-splitIndex,]

对于分割后的训练集和测试集均有74865个数据，分类结果的平衡性如下：

prop.table(table(train$y))

## 
##          0          1 
## 0.93314633 0.06685367

prop.table(table(test$y))

## 
##          0          1 
## 0.93489615 0.06510385

两者的分类结果是平衡的，仍然有6.6%左右的代表，我们仍然处于良好的水平。因此可以采用这份切割的数据进行建模及预测。

五、Logistic回归

Logistic回归在信用评分卡开发中起到核心作用。由于其特点，以及对自变量进行了证据权重转换（WOE），Logistic回归的结果可以直接转换为一个汇总表，即所谓的标准评分卡格式。

2、建立模型

首先利用glm函数对所有变量进行Logistic回归建模，模型如下

fit<-glm(y~.,train,family = "binomial")
summary(fit)

## 
## Call:
## glm(formula = y ~ ., family = "binomial", data = train)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.6144  -0.3399  -0.2772  -0.2240   3.6997  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.812e+00  6.411e-02 -28.268  < 2e-16 ***
## x1          -1.846e-05  8.972e-05  -0.206 0.836948    
## x2          -2.861e-02  1.276e-03 -22.428  < 2e-16 ***
## x3           5.767e-01  1.564e-02  36.867  < 2e-16 ***
## x4          -2.321e-05  1.538e-05  -1.509 0.131224    
## x5          -1.355e-05  3.845e-06  -3.524 0.000425 ***
## x6          -2.769e-03  3.798e-03  -0.729 0.466051    
## x7           8.468e-01  2.429e-02  34.855  < 2e-16 ***
## x8           8.620e-02  1.599e-02   5.393 6.94e-08 ***
## x9           8.294e-01  3.338e-02  24.848  < 2e-16 ***
## x10          5.126e-02  1.388e-02   3.694 0.000221 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 36747  on 74864  degrees of freedom
## Residual deviance: 29793  on 74854  degrees of freedom
## AIC: 29815
## 
## Number of Fisher Scoring iterations: 6

可以看出，利用全变量进行回归，模型拟合效果并不是很好，其中x1,x4,x6三个变量的p值未能通过检验，在此直接剔除这三个变量，利用剩余的变量对y进行回归。

fit2<-glm(y~x2+x3+x5+x7+x8+x9+x10,train,family = "binomial")
summary(fit2)

## 
## Call:
## glm(formula = y ~ x2 + x3 + x5 + x7 + x8 + x9 + x10, family = "binomial", 
##     data = train)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.6223  -0.3402  -0.2777  -0.2239   3.5868  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.825e+00  6.320e-02 -28.873  < 2e-16 ***
## x2          -2.894e-02  1.252e-03 -23.120  < 2e-16 ***
## x3           5.742e-01  1.544e-02  37.187  < 2e-16 ***
## x5          -1.185e-05  3.513e-06  -3.373 0.000744 ***
## x7           8.500e-01  2.401e-02  35.397  < 2e-16 ***
## x8           7.494e-02  1.420e-02   5.276 1.32e-07 ***
## x9           8.306e-01  3.338e-02  24.883  < 2e-16 ***
## x10          5.169e-02  1.386e-02   3.730 0.000192 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 36747  on 74864  degrees of freedom
## Residual deviance: 29797  on 74857  degrees of freedom
## AIC: 29813
## 
## Number of Fisher Scoring iterations: 6

第二个回归模型所有变量都通过了检验，甚至AIC值（赤池信息准则）更小，所有模型的拟合效果更好些。

3、模型评估

通常一个二值分类器可以通过ROC（Receiver Operating Characteristic）曲线和AUC值来评价优劣。

很多二元分类器会产生一个概率预测值，而非仅仅是0-1预测值。我们可以使用某个临界点（例如0.5），以划分哪些预测为1，哪些预测为0。得到二元预测值后，可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即true positive + true nagetive。同时可以相应算出TPR（真正率或称为灵敏度）和TNR（真负率或称为特异度）。我们主观上希望这两个指标越大越好，但可惜二者是一个此消彼涨的关系。除了分类器的训练参数，临界点的选择，也会大大的影响TPR和TNR。有时可以根据具体问题和需要，来选择具体的临界点。

如果我们选择一系列的临界点，就会得到一系列的TPR和TNR，将这些值对应的点连接起来，就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现，还能方便比较不同分类器的性能。在绘制ROC曲线的时候，习惯上是使用1-TNR作为横坐标即FPR（false positive rate），TPR作为纵坐标。这是就形成了ROC曲线。

而AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

下面首先利用模型对test数据进行预测，生成概率预测值

pre <- predict(fit2,test)

在R中，可以利用pROC包，它能方便比较两个分类器，还能自动标注出最优的临界点，图看起来也比较漂亮。在下图中最优点FPR=1-TNR=0.845，TPR=0.638，AUC值为0.8102，说明该模型的预测效果还是不错的，正确较高。

modelroc <- roc(test$y,pre)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),
     grid.col=c("green", "red"), max.auc.polygon=TRUE,
     auc.polygon.col="skyblue", print.thres=TRUE)

## 
## Call:
## roc.default(response = test$y, predictor = pre)
## 
## Data: pre in 69991 controls (test$y 0) < 4874 cases (test$y 1).
## Area under the curve: 0.8102

六、WOE转换

证据权重（Weight of Evidence,WOE）转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量，只是一些变量不应该被纳入模型，这或者是因为它们不能增加模型值，或者是因为与其模型相关系数有关的误差较大，其实建立标准信用评分卡也可以不采用WOE转换。这种情况下，Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性，但最终得到的评分卡都是一样的。

用WOE(x)替换变量x。WOE()=ln[(违约/总违约)/(正常/总正常)]。

通过上述的Logistic回归，剔除x1,x4,x6三个变量，对剩下的变量进行WOE转换。

1、进行分箱

age变量(x2)：

   cutx2= c(-Inf,30,35,40,45,50,55,60,65,75,Inf)
   plot(cut(train$x2,cutx2))

NumberOfTime30-59DaysPastDueNotWorse变量(x3)：

   cutx3 = c(-Inf,0,1,3,5,Inf)
   plot(cut(train$x3,cutx3))

MonthlyIncome变量(x5)：

   cutx5 = c(-Inf,1000,2000,3000,4000,5000,6000,7500,9500,12000,Inf)
   plot(cut(train$x5,cutx5))

NumberOfTimes90DaysLate变量(x7)：

   cutx7 = c(-Inf,0,1,3,5,10,Inf)
   plot(cut(train$x7,cutx7))

NumberRealEstateLoansOrLines变量(x8)：

   cutx8= c(-Inf,0,1,2,3,5,Inf)
   plot(cut(train$x8,cutx8))

NumberOfTime60-89DaysPastDueNotWorse变量(x9)：

   cutx9 = c(-Inf,0,1,3,5,Inf)
   plot(cut(train$x9,cutx9))

NumberOfDependents变量(x10)：

   cutx10 = c(-Inf,0,1,2,3,5,Inf)
   plot(cut(train$x10,cutx10))

2、计算WOE值

计算WOE的函数

   totalgood = as.numeric(table(train$y))[1]
   totalbad = as.numeric(table(train$y))[2]
   getWOE <- function(a,p,q)
   {
      Good <- as.numeric(table(train$y[a > p & a <= q]))[1]
      Bad <- as.numeric(table(train$y[a > p & a <= q]))[2]
      WOE <- log((Bad/totalbad)/(Good/totalgood),base = exp(1))
      return(WOE)
  }

比如age变量(x2)

   Agelessthan30.WOE=getWOE(train$x2,-Inf,30)
   Age30to35.WOE=getWOE(train$x2,30,35)
   Age35to40.WOE=getWOE(train$x2,35,40)
   Age40to45.WOE=getWOE(train$x2,40,45)
   Age45to50.WOE=getWOE(train$x2,45,50)
   Age50to55.WOE=getWOE(train$x2,50,55)
   Age55to60.WOE=getWOE(train$x2,55,60)
   Age60to65.WOE=getWOE(train$x2,60,65)
   Age65to75.WOE=getWOE(train$x2,65,75)
   Agemorethan.WOE=getWOE(train$x2,75,Inf)
   age.WOE=c(Agelessthan30.WOE,Age30to35.WOE,Age35to40.WOE,Age40to45.WOE,Age45to50.WOE,
            Age50to55.WOE,Age55to60.WOE,Age60to65.WOE,Age65to75.WOE,Agemorethan.WOE)
   age.WOE

##  [1]  0.57432879  0.52063157  0.34283924  0.24251193  0.22039521
##  [6]  0.07194294 -0.25643603 -0.55868003 -0.94144504 -1.28914527

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -0.5324915  0.9106018  1.7645290  2.4432903  2.5682332

MonthlyIncome变量(x5)

##  [1] -1.128862326  0.448960482  0.312423080  0.350846777  0.247782295
##  [6]  0.114417168 -0.001808106 -0.237224039 -0.389158800 -0.462438653

NumberOfTimes90DaysLate变量(x7)

## [1] -0.3694044  1.9400973  2.7294448  3.3090003  3.3852925  2.3483738

NumberRealEstateLoansOrLines变量(x8)

## [1]  0.21490691 -0.24386987 -0.15568385  0.02906876  0.41685234  1.12192809

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -0.2784605  1.8329078  2.7775343  3.5805174  3.4469860

NumberOfDependents变量(x10)

## [1] -0.15525081  0.08669961  0.19618098  0.33162486  0.40469824  0.76425365

3、对变量进行WOE变换

如age变量(x2)

    tmp.age <- 0
    for(i in 1:nrow(train)) {
      if(train$x2[i] <= 30)
        tmp.age[i] <- Agelessthan30.WOE
      else if(train$x2[i] <= 35)
        tmp.age[i] <- Age30to35.WOE
      else if(train$x2[i] <= 40)
        tmp.age[i] <- Age35to40.WOE
      else if(train$x2[i] <= 45)
        tmp.age[i] <- Age40to45.WOE
      else if(train$x2[i] <= 50)
        tmp.age[i] <- Age45to50.WOE
      else if(train$x2[i] <= 55)
        tmp.age[i] <- Age50to55.WOE
      else if(train$x2[i] <= 60)
        tmp.age[i] <- Age55to60.WOE
      else if(train$x2[i] <= 65)
        tmp.age[i] <- Age60to65.WOE
      else if(train$x2[i] <= 75)
        tmp.age[i] <- Age65to75.WOE
      else
        tmp.age[i] <- Agemorethan.WOE
    }
    
    table(tmp.age)

## tmp.age
##   -1.2891452711972 -0.941445039519045 -0.558680027962495 
##               5063               9196               8180 
## -0.256436029353835 0.0719429392949312  0.220395209955515 
##               8472               9009               9465 
##  0.242511934081286  0.342839240194068   0.52063156705216 
##               8008               6784               5390 
##  0.574328792863984 
##               5298

    tmp.age[1:10]

##  [1] 0.34283924 0.57432879 0.34283924 0.57432879 0.07194294 0.22039521
##  [7] 0.07194294 0.24251193 0.34283924 0.52063157

    train$x2[1:10]

##  [1] 38 30 39 30 51 46 53 43 39 32

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## tmp.NumberOfTime30.59DaysPastDueNotWorse
## -0.53249146131578 0.910601840444591  1.76452904024992  2.44329031065646 
##             62948              8077              3160               562 
##  2.56823323027274 
##               118

##  [1]  0.9106018 -0.5324915 -0.5324915 -0.5324915 -0.5324915 -0.5324915
##  [7] -0.5324915 -0.5324915 -0.5324915 -0.5324915

##  [1] 1 0 0 0 0 0 0 0 0 0

MonthIncome变量(x5)

## tmp.MonthlyIncome
##    -1.12886232582259   -0.462438653207328   -0.389158799506996 
##                10201                 5490                 5486 
##   -0.237224038650003 -0.00180810632297072    0.114417167554772 
##                 7048                 8076                 7249 
##    0.247782294610166    0.312423079500641    0.350846777249291 
##                 9147                 8118                 9680 
##    0.448960482499888 
##                 4370

##  [1]  0.350846777  0.350846777  0.350846777  0.312423080 -0.001808106
##  [6] -0.462438653 -0.237224039  0.350846777  0.312423080 -0.237224039

##  [1]  3042  3300  3500  2500  6501 12454  8800  3280  2500  7916

NumberOfTime90DaysPastDueNotWorse变量(x7)

## tmp.NumberOfTimes90DaysLate
## -0.369404425455224   1.94009728631401   2.34837375415972 
##              70793               2669                  7 
##   2.72944477623793   3.30900029985393   3.38529247382249 
##               1093                222                 81

##  [1]  1.9400973 -0.3694044 -0.3694044 -0.3694044 -0.3694044 -0.3694044
##  [7] -0.3694044 -0.3694044 -0.3694044 -0.3694044

##  [1] 1 0 0 0 0 0 0 0 0 0

NumberRealEstateLoansOrLines变量(x8)

## tmp.NumberRealEstateLoansOrLines
## -0.243869874062293 -0.155683851792327 0.0290687559545721 
##              26150              15890               3130 
##  0.214906905417014   1.12192809398173 
##              27901               1794

##  [1]  0.2149069  0.2149069  0.2149069  0.2149069 -0.1556839 -0.1556839
##  [7]  0.2149069 -0.2438699  0.2149069  0.2149069

##  [1] 0 0 0 0 2 2 0 1 0 0

NumberOfTime60.89DaysPastDueNotWorse变量(x9)

## tmp.NumberOfTime60.89DaysPastDueNotWorse
## -0.278460464730538   1.83290775083723   2.77753428092856 
##              71150               2919                708 
##   3.44698604282783   3.58051743545235 
##                 13                 75

##  [1] -0.2784605 -0.2784605 -0.2784605 -0.2784605 -0.2784605 -0.2784605
##  [7] -0.2784605 -0.2784605 -0.2784605 -0.2784605

##  [1] 0 0 0 0 0 0 0 0 0 0

NumberOfDependents变量(x10)

## tmp.NumberOfDependents
## -0.155250809857344 0.0866996065110081  0.196180980387687 
##              43498              14544              10102 
##  0.331624863227172  0.404698242905824   0.76425364970991 
##               4771               1815                135

##  [1] -0.1552508 -0.1552508 -0.1552508 -0.1552508  0.1961810  0.1961810
##  [7] -0.1552508  0.1961810 -0.1552508 -0.1552508

##  [1] 0 0 0 0 2 2 0 2 0 0

4、WOE DataFrame构建：

   trainWOE =cbind.data.frame(tmp.age,tmp.NumberOfTime30.59DaysPastDueNotWorse,tmp.MonthlyIncome,tmp.NumberOfTime60.89DaysPastDueNotWorse,tmp.NumberOfTimes90DaysLate,tmp.NumberRealEstateLoansOrLines,tmp.NumberOfDependents)

七、评分卡的创建和实施

标准评分卡采用的格式是评分卡中的每一个变量都遵循一系列IF-THEN法则，变量的值决定了该变量所分配的分值，总分就是各变量分值的和。

知道线性表达式的两个参数A，B后就可以求每条记录（申请人）的分值。为了求得A，B，需要设定两个假设（分数的给定，很主观）。

以上就是推断，实际代码中，习惯用了q、p来代表A、B.

通俗来说就是，评分需要自己预设一个阀值，比如：

这个人预测出来“不发生违约”的几率为0.8，设定这个人为500分；

另一个人预测出来“不发生违约”的几率为0.9，设定这个人为600分。

阀值的设定需根据行业经验不断跟踪调整，下面的分数设定仅代表个人经验。

下面开始设立评分，假设按好坏比15为600分，每高20分好坏比翻一倍算出P,Q。如果后期结果不明显，可以高30-50分好坏比才翻一倍。

Score = q - p * log(odds)

即有方程：

620 = q - p * log(15)

600 = q - p * log(15/2)

逻辑回归建模：

#因为数据中“1”代表的是违约，直接建模预测，求的是“发生违约的概率”，log(odds)即为“坏好比”。为了符合常规理解，分数越高，信用越好，所有就调换“0”和“1”，使建模预测结果为“不发生违约的概率”，最后log(odds)即表示为“好坏比”。

trainWOE$y = 1-train$y
glm.fit = glm(y~.,data = trainWOE,family = binomial(link = logit))
summary(glm.fit)
coe = (glm.fit$coefficients)

p <- 20/log(2)
q <- 600-20*log(15)/log(2)

Score=q + p*{as.numeric(coe[1])+as.numeric(coe[2])*tmp.age +as.numeric(coe[3])*tmp.NumberOfTime30.59DaysPastDueNotWorse+p*as.numeric(coe[4])*tmp.MonthlyIncome+p*as.numeric(coe[5])*tmp.NumberOfTime60.89DaysPastDueNotWorse+p*as.numeric(coe[6])*tmp.NumberOfTimes90DaysLate+p*as.numeric(coe[7])*tmp.NumberRealEstateLoansOrLines+p*as.numeric(coe[8])*tmp.NumberOfDependents

个人总评分=基础分+各部分得分

基础分为:

   base <- q + p*as.numeric(coe[1])
   base

## [1] 446.2841

1、对各变量进行打分

比如age变量(x2)

    Agelessthan30.SCORE = p*as.numeric(coe[2])*Agelessthan30.WOE
    Age30to35.SCORE = p*as.numeric(coe[2])*Age30to35.WOE
    Age35to40.SCORE = p*as.numeric(coe[2])*Age35to40.WOE
    Age40to45.SCORE = p*as.numeric(coe[2])*Age40to45.WOE
    Age45to50.SCORE = p*as.numeric(coe[2])*Age45to50.WOE
    Age50to55.SCORE = p*as.numeric(coe[2])*Age50to55.WOE
    Age55to60.SCORE = p*as.numeric(coe[2])*Age55to60.WOE
    Age60to65.SCORE = p*as.numeric(coe[2])*Age60to65.WOE
    Age65to75.SCORE = p*as.numeric(coe[2])*Age65to75.WOE
    Agemorethan.SCORE=p*as.numeric(coe[2])*Agemorethan.WOE
    Age.SCORE =c(Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
    Age.SCORE

## [1]  10.498828   6.913546   4.890389   4.444393   1.450770  -5.171176
## [7] -11.266096 -18.984767 -25.996338

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -10.29843  17.61112  34.12614  47.25344  49.66985

MonthlyIncome变量(x5)

##  [1] -24.92797904   9.91412083   6.89904854   7.74753565   5.47162546
##  [6]   2.52660461  -0.03992731  -5.23847393  -8.59355669 -10.21175106

NumberOfTimes90DaysLate变量(x7)

## [1] -5.19482 27.28299 38.38333 46.53344 47.60632 33.02445

NumberRealEstateLoansOrLine变量(x8)

## [1]  4.022310 -4.564396 -2.913860  0.544066  7.802025 20.998590

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -4.820833 31.732126 48.085927 61.987533 59.675778

NumberOfDependents变量(x10)

## [1] -1.5734012  0.8786638  1.9882112  3.3608775  4.1014453  7.7453871

构造计算分值函数：

   getscore<-function(i,x){
   score = round(p*as.numeric(coe[i])*x,0)
   return(score)
}

2、计算各变量分箱得分：

age变量(x2)

    Agelessthan30.SCORE = getscore(2,Agelessthan30.WOE)
    Age30to35.SCORE = getscore(2,Age30to35.WOE)
    Age35to40.SCORE = getscore(2,Age35to40.WOE)
    Age40to45.SCORE = getscore(2,Age40to45.WOE)
    Age45to50.SCORE = getscore(2,Age45to50.WOE)
    Age50to55.SCORE = getscore(2,Age50to55.WOE)
    Age55to60.SCORE = getscore(2,Age55to60.WOE)
    Age60to65.SCORE = getscore(2,Age60to65.WOE)
    Age65to75.SCORE = getscore(2,Age65to75.WOE)
    Agemorethan.SCORE = getscore(2,Agemorethan.WOE)
    Age.SCORE = c(Agelessthan30.SCORE,Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
    Age.SCORE

##  [1]  12  10   7   5   4   1  -5 -11 -19 -26

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -10  18  34  47  50

MonthlyIncome变量(x5)

##  [1] -25  10   7   8   5   3   0   0  -9 -10

NumberOfTimes90DaysLate变量(x7)

## [1] -5 27 38 47 48 33

NumberRealEstateLoansOrLine变量(x8)

## [1]  4 -5 -3  1  8 21

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -5 32 48 62 60

NumberOfDependents变量(x10)

## [1] -2  1  2  3  4  8

3、最终生成的评分卡如下：

age	X2	<=30	(30,35]	(35,40]	(40,45]	(45,50]	(50,55]	(55,60]	(60,65]	(65,75]	(75,100]
age	Score	12	10	7	5	4	1	-5	-11	-19	-26
NumberOfTime30-59DaysPastDueNotWorse	X3	<=0	(0,1]	(1,3]	(3,5]	>5
NumberOfTime30-59DaysPastDueNotWorse	Score	-10	18	34	47	50
MonthlyIncome	X5	<=1000	(1000,2000]	(2000,3000]	(3000,4000]	(4000,5000]	(5000,6000]	(6000,7500]	(7500,9500]	(9500,12000]	>12000
MonthlyIncome	Score	-25	10	7	8	6	3	0	0	-9	-10
NumberOfTimes90DaysLate	X7	<=0	(0,1]	(1,3]	(3,5]	(5,10]	>10
NumberOfTimes90DaysLate	Score	-5	27	38	47	48	33
NumberRealEstateLoansOrLines	X8	<=0	(0,1]	(1,2]	(2,3]	(3,5]	>5
NumberRealEstateLoansOrLines	Score	4	-5	-3	1	8	21
NumberOfTime60-89DaysPastDueNotWorse	X9	<=0	(0,1]	(1,3]	(3,5]	>5
NumberOfTime60-89DaysPastDueNotWorse	Score	-5	32	48	62	60
NumberOfDependents	X10	<=0	(0,1]	(1,2]	(2,3]	(3,5]	>5
NumberOfDependents	Score	-2	1	2	3	4	8

个人评分计算案例：

特征	数据	分数
Age	38	7
NumberOfTime30-59DaysPastDueNotWorse	4	47
MonthlyIncome	1500	10
NumberOfTimes90DaysLate	2	38
NumberRealEstateLoansOrLines	1.5	-3
NumberOfTime60-89DaysPastDueNotWorse	4	62
NumberOfDependents	1.5	2

所以这个人的总评分=基础分（base）+各特征分数

总评分=446.2841+7+47+10+38-3+62+2=609.2841

你可能感兴趣的:(评分卡,数据挖掘,机器学习,WOE)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那