a_achengsong

信用评分模型（R语言）

信用评分

2016年1月10日

本文详细的介绍了信用评分卡的开发流程，开发语言为R语言，python版本请见：一行代码搞定信用评分模型（python）

python版实例和数据请见我的github：https://github.com/chengsong990020186/CreditScoreModel，如觉得实用就点下star，欢迎大家一起学习交流进步。

一、数据准备

1、问题的准备

• 目标：要完成一个评分卡，通过预测某人在未来两年内将会经历财务危机的可能性来提高信用评分的效果，帮助贷款人做出最好的决策。

• 背景：

– 银行在市场经济中起到至关重要的作用。他们决定谁在什么条件下可以得到融资，并且可以创造或打破投资决策。而市场、社会，以及个人和企业都需要获得贷款。

– 信用评分算法，对默认可能性进行猜测，这是银行用来判断贷款是否应该被授予的方法。

• 准备：

– 首先是基于个人借贷的场景，确定“违约”的定义：根据新的Basel II Capital Accord（巴塞尔二资本协议），一般逾期90天算作违约。

– 在判别指标上，选择使用历史最大违约天数。

2、数据的获取与整合

• 数据来源：数据来自Kaggle，cs-training.csv是有15万条的样本数据，下图可以看到这份数据的大致情况。下载地址为：https://www.kaggle.com/c/GiveMeSomeCredit/data

如果下载出现问题，可以在此下载数据：http://download.csdn.net/download/csqazwsxedc/10228999

• 数据描述：数据属于个人消费类贷款，只考虑评分卡最终实施时能够使用到的数据应从如下一些方面获取数据：

– 基本属性：包括了借款人当时的年龄。

– 偿债能力：包括了借款人的月收入、负债比率。

– 信用往来：两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或高于90天逾期的次数。

– 财产状况：包括了开放式信贷和贷款数量、不动产贷款或额度数量。

– 贷款属性：暂无。

– 其他因素：包括了借款人的家属数量（不包括本人在内）。

• 原始变量：

变量名	变量类型	变量描述
SeriousDlqin2yrs	Y/N	超过90天或更糟的逾期拖欠
RevolvingUtilizationOf UnsecuredLines	percentage	无担保放款的循环利用：除了不动产和像车贷那样除以信用额度总和的无分期付款债务的信用卡和个人信用额度总额
age	integer	借款人当时的年龄
NumberOfTime30-59DaysPastDueNotWorse	integer	35-59天逾期但不糟糕次数
DebtRatio	percentage	负债比率
MonthlyIncome	real	月收入
NumberOf OpenCreditLinesAndLoans	integer	开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量
NumberOfTimes90DaysLate	integer	90天逾期次数：借款者有90天或更高逾期的次数
NumberRealEstateLoans OrLines	integer	不动产贷款或额度数量：抵押贷款和不动产放款包括房屋净值信贷额度
NumberOfTime60-89DaysPastDueNotWorse	integer	60-89天逾期但不糟糕次数：借款人在在过去两年内有60-89天逾期还款但不糟糕的次数
NumberOfDependents	integer	家属数量：不包括本人在内的家属数量

• 时间窗口：自变量的观察窗口为过去两年，因变量表现窗口为未来两年。

二、数据处理

首先去掉原数据中的顺序变量，即第一列的id变量。由于要预测的是SeriousDlqin2yrs变量，因此将其设为响应变量y，其他分别设为x1~x10变量。

1、缺失值分析及处理

在得到数据集后，我们需要观察数据的分布情况，因为很多的模型对缺失值敏感，因此观察是否有缺失值是其中很重要的一个步骤。在正式分析前，我们先通过图形进行对观测字段的缺失情况有一个直观的感受。

  matrixplot(traindata)

  md.pattern(traindata)

##        y x1 x2 x3 x4 x6 x7 x8 x9  x10    x5      
## 120269 1  1  1  1  1  1  1  1  1    1     1     0
##  25807 1  1  1  1  1  1  1  1  1    1     0     1
##   3924 1  1  1  1  1  1  1  1  1    0     0     2
##        0  0  0  0  0  0  0  0  0 3924 29731 33655

利用matrixplot函数对缺失值部分进行可视化展示，上图中浅色表示值小，深色表示值大，而默认缺失值为红色。因此可以看到x5变量和x10变量，即MonthlyIncome变量和NumberOfDependents两个变量存在缺失值，具体确实情况可以见上表，monthlyincome列共有缺失值29731个，numberofdependents有3924个。

对于缺失值的处理方法非常多，例如基于聚类的方法，基于回归的方法，基于均值的方法，其中最简单的方法是直接移除，但是在本文中因为缺失值所占比例较高，直接移除会损失大量观测，因此并不是最合适的方法。在这里，我们使用KNN方法对缺失值进行填补。

traindata<-knnImputation(traindata,k=10,meth = "weighAvg")

2、异常值分析及处理

关于异常值的检测，这里简单介绍以下一些检测方法：

• 单变量异常值检测：在R语言中使用函数boxplot.stats()可以实现单变量检测，该函数根据返回的统计数据生成箱线图。在上述函数的返回结果中，有一个参数out，它是由异常值组成的列表。更明确的说就是里面列出了箱线图中箱须线外面的数据点。比如我们可以查看月收入分布，第一幅图为没有删除异常值的箱线图。第二幅箱线图删除异常值后，可以发现月收入主要集中分布在3000-8000之间。但是在这份分析报告中，因为我们对业务尚不熟悉，不好将大于8000的数据直接归为异常值，因此对该变量未做处理。

• 使用LOF（局部异常因子）检测异常值：LOF（局部异常因子）是一种基于密度识别异常值的算法。算法实现是：将一个点的局部密度与分布在它周围的点的密度相比较，如果前者明显的比后者小，那么这个点相对于周围的点来说就处于一个相对比较稀疏的区域，这就表明该点事一个异常值。LOF算法的缺点是它只对数值型数据有效。包‘DMwR’和包‘dprep’中的lofactor()可以计算LOF算法中的局部异常因子。

• 通过聚类检测异常值：检测异常值的另外一种方式就是聚类。先把数据聚成不同的类，选择不属于任何类的数据作为异常值。例如，基于密度的聚类DBSCAN算法的实现就是将与数据稠密区域紧密相连的数据对象划分为一个类，因此与其他对象分离的数据就会作为异常值。也可以使用K均值算法实现异常值的检测。首先通过把数据划分为k组，划分方式是选择距离各自簇中心最近的点为一组；然后计算每个对象和对应的簇中心的距离（或者相似度），并挑出拥有最大的距离的点作为异常值。

首先对于x2变量，即客户的年龄，我们可以定量分析，发现有以下值：

unique(traindata$x2)

##  [1]  45  40  38  30  49  74  57  39  27  51  46  76  64  78  53  43  25
## [18]  32  58  50  69  24  28  62  42  75  26  52  41  81  31  68  70  73
## [35]  29  55  35  72  60  67  36  56  37  66  83  34  44  48  61  80  47
## [52]  59  77  63  54  33  79  65  86  92  23  87  71  22  90  97  84  82
## [69]  91  89  85  88  21  93  96  99  94  95 101  98 103 102 107 105   0
## [86] 109

可以看到年龄中存在0值，显然是异常值，予以剔除。

traindata<-traindata[-which(traindata$x2==0),]

而对于x3,x7,x9三个变量，由下面的箱线图可以看出，均存在异常值，且由unique函数可以得知均存在96、98两个异常值，因此予以剔除。同时会发现剔除其中一个变量的96、98值，其他变量的96、98两个值也会相应被剔除

##  [1]  2  0  1  3  4  5  7 10  6 98 12  8  9 96 13 11

##  [1]  0  1  3  2  5  4 98 10  9  6  7  8 15 96 11 13 14 17 12

##  [1]  0  1  2  5  3 98  4  6  7  8 96 11  9

其它变量占不作处理。

三、变量分析

1、单变量分析

我们可以简单地看下部分变量的分布，比如对于age变量，如下图：

ggplot(traindata, aes(x = x2, y = ..density..)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2, alpha = 0.2) + geom_density()

可以看到年龄变量大致呈正态分布，符合统计分析的假设。再比如月收入变量，也可以做图观察观察，如下：

ggplot(traindata, aes(x = x5, y = ..density..)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2, alpha = 0.2) + geom_density() + xlim(1, 20000)

月收入也大致呈正态分布，符合统计分析的需要。

2、变量之间的相关性

建模之前首先得检验变量之间的相关性，如果变量之间相关性显著，会影响模型的预测效果。下面通过corrplot函数，画出各变量之间，包括响应变量与自变量的相关性。

cor1<-cor(traindata[,1:11])
corrplot(cor1)

corrplot(cor1,method = "number")

由上图可以看出，各变量之间的相关性是非常小的。其实Logistic回归同样需要检验多重共线性问题，不过此处由于各变量之间的相关性较小，可以初步判断不存在多重共线性问题，当然我们在建模后还可以用VIF（方差膨胀因子）来检验多重共线性问题。如果存在多重共线性，即有可能存在两个变量高度相关，需要降维或剔除处理。

四、切分数据集

table(traindata$y)

## 
##      0      1 
## 139851   9879

由上表看出，对于响应变量SeriousDlqin2yrs，存在明显的类失衡问题，SeriousDlqin2yrs等于1的观测为9879，仅为所有观测值的6.6%。因此我们需要对非平衡数据进行处理，在这里可以采用SMOTE算法，用R对稀有事件进行超级采样。

我们利用caret包中的createDataPartition（数据分割功能）函数将数据随机分成相同的两份。

set.seed(1234) 
splitIndex<-createDataPartition(traindata$y,time=1,p=0.5,list=FALSE) 
train<-traindata[splitIndex,] 
test<-traindata[-splitIndex,]

对于分割后的训练集和测试集均有74865个数据，分类结果的平衡性如下：

prop.table(table(train$y))

## 
##          0          1 
## 0.93314633 0.06685367

prop.table(table(test$y))

## 
##          0          1 
## 0.93489615 0.06510385

两者的分类结果是平衡的，仍然有6.6%左右的代表，我们仍然处于良好的水平。因此可以采用这份切割的数据进行建模及预测。

五、Logistic回归

Logistic回归在信用评分卡开发中起到核心作用。由于其特点，以及对自变量进行了证据权重转换（WOE），Logistic回归的结果可以直接转换为一个汇总表，即所谓的标准评分卡格式。

2、建立模型

首先利用glm函数对所有变量进行Logistic回归建模，模型如下

fit<-glm(y~.,train,family = "binomial")
summary(fit)

## 
## Call:
## glm(formula = y ~ ., family = "binomial", data = train)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.6144  -0.3399  -0.2772  -0.2240   3.6997  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.812e+00  6.411e-02 -28.268  < 2e-16 ***
## x1          -1.846e-05  8.972e-05  -0.206 0.836948    
## x2          -2.861e-02  1.276e-03 -22.428  < 2e-16 ***
## x3           5.767e-01  1.564e-02  36.867  < 2e-16 ***
## x4          -2.321e-05  1.538e-05  -1.509 0.131224    
## x5          -1.355e-05  3.845e-06  -3.524 0.000425 ***
## x6          -2.769e-03  3.798e-03  -0.729 0.466051    
## x7           8.468e-01  2.429e-02  34.855  < 2e-16 ***
## x8           8.620e-02  1.599e-02   5.393 6.94e-08 ***
## x9           8.294e-01  3.338e-02  24.848  < 2e-16 ***
## x10          5.126e-02  1.388e-02   3.694 0.000221 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 36747  on 74864  degrees of freedom
## Residual deviance: 29793  on 74854  degrees of freedom
## AIC: 29815
## 
## Number of Fisher Scoring iterations: 6

可以看出，利用全变量进行回归，模型拟合效果并不是很好，其中x1,x4,x6三个变量的p值未能通过检验，在此直接剔除这三个变量，利用剩余的变量对y进行回归。

fit2<-glm(y~x2+x3+x5+x7+x8+x9+x10,train,family = "binomial")
summary(fit2)

## 
## Call:
## glm(formula = y ~ x2 + x3 + x5 + x7 + x8 + x9 + x10, family = "binomial", 
##     data = train)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.6223  -0.3402  -0.2777  -0.2239   3.5868  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.825e+00  6.320e-02 -28.873  < 2e-16 ***
## x2          -2.894e-02  1.252e-03 -23.120  < 2e-16 ***
## x3           5.742e-01  1.544e-02  37.187  < 2e-16 ***
## x5          -1.185e-05  3.513e-06  -3.373 0.000744 ***
## x7           8.500e-01  2.401e-02  35.397  < 2e-16 ***
## x8           7.494e-02  1.420e-02   5.276 1.32e-07 ***
## x9           8.306e-01  3.338e-02  24.883  < 2e-16 ***
## x10          5.169e-02  1.386e-02   3.730 0.000192 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 36747  on 74864  degrees of freedom
## Residual deviance: 29797  on 74857  degrees of freedom
## AIC: 29813
## 
## Number of Fisher Scoring iterations: 6

第二个回归模型所有变量都通过了检验，甚至AIC值（赤池信息准则）更小，所有模型的拟合效果更好些。

3、模型评估

通常一个二值分类器可以通过ROC（Receiver Operating Characteristic）曲线和AUC值来评价优劣。

很多二元分类器会产生一个概率预测值，而非仅仅是0-1预测值。我们可以使用某个临界点（例如0.5），以划分哪些预测为1，哪些预测为0。得到二元预测值后，可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即true positive + true nagetive。同时可以相应算出TPR（真正率或称为灵敏度）和TNR（真负率或称为特异度）。我们主观上希望这两个指标越大越好，但可惜二者是一个此消彼涨的关系。除了分类器的训练参数，临界点的选择，也会大大的影响TPR和TNR。有时可以根据具体问题和需要，来选择具体的临界点。

如果我们选择一系列的临界点，就会得到一系列的TPR和TNR，将这些值对应的点连接起来，就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现，还能方便比较不同分类器的性能。在绘制ROC曲线的时候，习惯上是使用1-TNR作为横坐标即FPR（false positive rate），TPR作为纵坐标。这是就形成了ROC曲线。

而AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

下面首先利用模型对test数据进行预测，生成概率预测值

pre <- predict(fit2,test)

在R中，可以利用pROC包，它能方便比较两个分类器，还能自动标注出最优的临界点，图看起来也比较漂亮。在下图中最优点FPR=1-TNR=0.845，TPR=0.638，AUC值为0.8102，说明该模型的预测效果还是不错的，正确较高。

modelroc <- roc(test$y,pre)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),
     grid.col=c("green", "red"), max.auc.polygon=TRUE,
     auc.polygon.col="skyblue", print.thres=TRUE)

## 
## Call:
## roc.default(response = test$y, predictor = pre)
## 
## Data: pre in 69991 controls (test$y 0) < 4874 cases (test$y 1).
## Area under the curve: 0.8102

六、WOE转换

证据权重（Weight of Evidence,WOE）转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量，只是一些变量不应该被纳入模型，这或者是因为它们不能增加模型值，或者是因为与其模型相关系数有关的误差较大，其实建立标准信用评分卡也可以不采用WOE转换。这种情况下，Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性，但最终得到的评分卡都是一样的。

用WOE(x)替换变量x。WOE()=ln[(违约/总违约)/(正常/总正常)]。

通过上述的Logistic回归，剔除x1,x4,x6三个变量，对剩下的变量进行WOE转换。

1、进行分箱

age变量(x2)：

   cutx2= c(-Inf,30,35,40,45,50,55,60,65,75,Inf)
   plot(cut(train$x2,cutx2))

NumberOfTime30-59DaysPastDueNotWorse变量(x3)：

   cutx3 = c(-Inf,0,1,3,5,Inf)
   plot(cut(train$x3,cutx3))

MonthlyIncome变量(x5)：

   cutx5 = c(-Inf,1000,2000,3000,4000,5000,6000,7500,9500,12000,Inf)
   plot(cut(train$x5,cutx5))

NumberOfTimes90DaysLate变量(x7)：

   cutx7 = c(-Inf,0,1,3,5,10,Inf)
   plot(cut(train$x7,cutx7))

NumberRealEstateLoansOrLines变量(x8)：

   cutx8= c(-Inf,0,1,2,3,5,Inf)
   plot(cut(train$x8,cutx8))

NumberOfTime60-89DaysPastDueNotWorse变量(x9)：

   cutx9 = c(-Inf,0,1,3,5,Inf)
   plot(cut(train$x9,cutx9))

NumberOfDependents变量(x10)：

   cutx10 = c(-Inf,0,1,2,3,5,Inf)
   plot(cut(train$x10,cutx10))

2、计算WOE值

计算WOE的函数

   totalgood = as.numeric(table(train$y))[1]
   totalbad = as.numeric(table(train$y))[2]
   getWOE <- function(a,p,q)
   {
      Good <- as.numeric(table(train$y[a > p & a <= q]))[1]
      Bad <- as.numeric(table(train$y[a > p & a <= q]))[2]
      WOE <- log((Bad/totalbad)/(Good/totalgood),base = exp(1))
      return(WOE)
  }

比如age变量(x2)

   Agelessthan30.WOE=getWOE(train$x2,-Inf,30)
   Age30to35.WOE=getWOE(train$x2,30,35)
   Age35to40.WOE=getWOE(train$x2,35,40)
   Age40to45.WOE=getWOE(train$x2,40,45)
   Age45to50.WOE=getWOE(train$x2,45,50)
   Age50to55.WOE=getWOE(train$x2,50,55)
   Age55to60.WOE=getWOE(train$x2,55,60)
   Age60to65.WOE=getWOE(train$x2,60,65)
   Age65to75.WOE=getWOE(train$x2,65,75)
   Agemorethan.WOE=getWOE(train$x2,75,Inf)
   age.WOE=c(Agelessthan30.WOE,Age30to35.WOE,Age35to40.WOE,Age40to45.WOE,Age45to50.WOE,
            Age50to55.WOE,Age55to60.WOE,Age60to65.WOE,Age65to75.WOE,Agemorethan.WOE)
   age.WOE

##  [1]  0.57432879  0.52063157  0.34283924  0.24251193  0.22039521
##  [6]  0.07194294 -0.25643603 -0.55868003 -0.94144504 -1.28914527

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -0.5324915  0.9106018  1.7645290  2.4432903  2.5682332

MonthlyIncome变量(x5)

##  [1] -1.128862326  0.448960482  0.312423080  0.350846777  0.247782295
##  [6]  0.114417168 -0.001808106 -0.237224039 -0.389158800 -0.462438653

NumberOfTimes90DaysLate变量(x7)

## [1] -0.3694044  1.9400973  2.7294448  3.3090003  3.3852925  2.3483738

NumberRealEstateLoansOrLines变量(x8)

## [1]  0.21490691 -0.24386987 -0.15568385  0.02906876  0.41685234  1.12192809

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -0.2784605  1.8329078  2.7775343  3.5805174  3.4469860

NumberOfDependents变量(x10)

## [1] -0.15525081  0.08669961  0.19618098  0.33162486  0.40469824  0.76425365

3、对变量进行WOE变换

如age变量(x2)

    tmp.age <- 0
    for(i in 1:nrow(train)) {
      if(train$x2[i] <= 30)
        tmp.age[i] <- Agelessthan30.WOE
      else if(train$x2[i] <= 35)
        tmp.age[i] <- Age30to35.WOE
      else if(train$x2[i] <= 40)
        tmp.age[i] <- Age35to40.WOE
      else if(train$x2[i] <= 45)
        tmp.age[i] <- Age40to45.WOE
      else if(train$x2[i] <= 50)
        tmp.age[i] <- Age45to50.WOE
      else if(train$x2[i] <= 55)
        tmp.age[i] <- Age50to55.WOE
      else if(train$x2[i] <= 60)
        tmp.age[i] <- Age55to60.WOE
      else if(train$x2[i] <= 65)
        tmp.age[i] <- Age60to65.WOE
      else if(train$x2[i] <= 75)
        tmp.age[i] <- Age65to75.WOE
      else
        tmp.age[i] <- Agemorethan.WOE
    }
    
    table(tmp.age)

## tmp.age
##   -1.2891452711972 -0.941445039519045 -0.558680027962495 
##               5063               9196               8180 
## -0.256436029353835 0.0719429392949312  0.220395209955515 
##               8472               9009               9465 
##  0.242511934081286  0.342839240194068   0.52063156705216 
##               8008               6784               5390 
##  0.574328792863984 
##               5298

    tmp.age[1:10]

##  [1] 0.34283924 0.57432879 0.34283924 0.57432879 0.07194294 0.22039521
##  [7] 0.07194294 0.24251193 0.34283924 0.52063157

    train$x2[1:10]

##  [1] 38 30 39 30 51 46 53 43 39 32

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## tmp.NumberOfTime30.59DaysPastDueNotWorse
## -0.53249146131578 0.910601840444591  1.76452904024992  2.44329031065646 
##             62948              8077              3160               562 
##  2.56823323027274 
##               118

##  [1]  0.9106018 -0.5324915 -0.5324915 -0.5324915 -0.5324915 -0.5324915
##  [7] -0.5324915 -0.5324915 -0.5324915 -0.5324915

##  [1] 1 0 0 0 0 0 0 0 0 0

MonthIncome变量(x5)

## tmp.MonthlyIncome
##    -1.12886232582259   -0.462438653207328   -0.389158799506996 
##                10201                 5490                 5486 
##   -0.237224038650003 -0.00180810632297072    0.114417167554772 
##                 7048                 8076                 7249 
##    0.247782294610166    0.312423079500641    0.350846777249291 
##                 9147                 8118                 9680 
##    0.448960482499888 
##                 4370

##  [1]  0.350846777  0.350846777  0.350846777  0.312423080 -0.001808106
##  [6] -0.462438653 -0.237224039  0.350846777  0.312423080 -0.237224039

##  [1]  3042  3300  3500  2500  6501 12454  8800  3280  2500  7916

NumberOfTime90DaysPastDueNotWorse变量(x7)

## tmp.NumberOfTimes90DaysLate
## -0.369404425455224   1.94009728631401   2.34837375415972 
##              70793               2669                  7 
##   2.72944477623793   3.30900029985393   3.38529247382249 
##               1093                222                 81

##  [1]  1.9400973 -0.3694044 -0.3694044 -0.3694044 -0.3694044 -0.3694044
##  [7] -0.3694044 -0.3694044 -0.3694044 -0.3694044

##  [1] 1 0 0 0 0 0 0 0 0 0

NumberRealEstateLoansOrLines变量(x8)

## tmp.NumberRealEstateLoansOrLines
## -0.243869874062293 -0.155683851792327 0.0290687559545721 
##              26150              15890               3130 
##  0.214906905417014   1.12192809398173 
##              27901               1794

##  [1]  0.2149069  0.2149069  0.2149069  0.2149069 -0.1556839 -0.1556839
##  [7]  0.2149069 -0.2438699  0.2149069  0.2149069

##  [1] 0 0 0 0 2 2 0 1 0 0

NumberOfTime60.89DaysPastDueNotWorse变量(x9)

## tmp.NumberOfTime60.89DaysPastDueNotWorse
## -0.278460464730538   1.83290775083723   2.77753428092856 
##              71150               2919                708 
##   3.44698604282783   3.58051743545235 
##                 13                 75

##  [1] -0.2784605 -0.2784605 -0.2784605 -0.2784605 -0.2784605 -0.2784605
##  [7] -0.2784605 -0.2784605 -0.2784605 -0.2784605

##  [1] 0 0 0 0 0 0 0 0 0 0

NumberOfDependents变量(x10)

## tmp.NumberOfDependents
## -0.155250809857344 0.0866996065110081  0.196180980387687 
##              43498              14544              10102 
##  0.331624863227172  0.404698242905824   0.76425364970991 
##               4771               1815                135

##  [1] -0.1552508 -0.1552508 -0.1552508 -0.1552508  0.1961810  0.1961810
##  [7] -0.1552508  0.1961810 -0.1552508 -0.1552508

##  [1] 0 0 0 0 2 2 0 2 0 0

4、WOE DataFrame构建：

   trainWOE =cbind.data.frame(tmp.age,tmp.NumberOfTime30.59DaysPastDueNotWorse,tmp.MonthlyIncome,tmp.NumberOfTime60.89DaysPastDueNotWorse,tmp.NumberOfTimes90DaysLate,tmp.NumberRealEstateLoansOrLines,tmp.NumberOfDependents)

七、评分卡的创建和实施

标准评分卡采用的格式是评分卡中的每一个变量都遵循一系列IF-THEN法则，变量的值决定了该变量所分配的分值，总分就是各变量分值的和。

知道线性表达式的两个参数A，B后就可以求每条记录（申请人）的分值。为了求得A，B，需要设定两个假设（分数的给定，很主观）。

以上就是推断，实际代码中，习惯用了q、p来代表A、B.

通俗来说就是，评分需要自己预设一个阀值，比如：

这个人预测出来“发生违约”的几率为0.8，设定这个人为600分；

另一个人预测出来“发生违约”的几率为0.9，设定这个人为500分。

阀值的设定需根据行业经验不断跟踪调整，下面的分数设定仅代表个人经验。

下面开始设立评分，假设按坏好比15为600分，每高20分坏好比降一半算出P,Q。如果后期结果不明显，可以高30-50分坏好比降一半。

另：Score = q + p * log(odds)

即有方程：

620 = q + p * log(15/2)

600 = q + p * log(15)

逻辑回归建模：

trainWOE$y = 1-train$y
glm.fit = glm(y~.,data = trainWOE,family = binomial(link = logit))
summary(glm.fit)
coe = (glm.fit$coefficients)

p <- -20/log(2)
q <- 600+20*log(15)/log(2)

Score=q + p*{as.numeric(coe[1])+as.numeric(coe[2])*tmp.age +as.numeric(coe[3])*tmp.NumberOfTime30.59DaysPastDueNotWorse+p*as.numeric(coe[4])*tmp.MonthlyIncome+p*as.numeric(coe[5])*tmp.NumberOfTime60.89DaysPastDueNotWorse+p*as.numeric(coe[6])*tmp.NumberOfTimes90DaysLate+p*as.numeric(coe[7])*tmp.NumberRealEstateLoansOrLines+p*as.numeric(coe[8])*tmp.NumberOfDependents

个人总评分=基础分+各部分得分

基础分为:

   base <- q + p*as.numeric(coe[1])
   base

## [1] 446.2841

1、对各变量进行打分

比如age变量(x2)

    Agelessthan30.SCORE = p*as.numeric(coe[2])*Agelessthan30.WOE
    Age30to35.SCORE = p*as.numeric(coe[2])*Age30to35.WOE
    Age35to40.SCORE = p*as.numeric(coe[2])*Age35to40.WOE
    Age40to45.SCORE = p*as.numeric(coe[2])*Age40to45.WOE
    Age45to50.SCORE = p*as.numeric(coe[2])*Age45to50.WOE
    Age50to55.SCORE = p*as.numeric(coe[2])*Age50to55.WOE
    Age55to60.SCORE = p*as.numeric(coe[2])*Age55to60.WOE
    Age60to65.SCORE = p*as.numeric(coe[2])*Age60to65.WOE
    Age65to75.SCORE = p*as.numeric(coe[2])*Age65to75.WOE
    Agemorethan.SCORE=p*as.numeric(coe[2])*Agemorethan.WOE
    Age.SCORE =c(Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
    Age.SCORE

## [1]  10.498828   6.913546   4.890389   4.444393   1.450770  -5.171176
## [7] -11.266096 -18.984767 -25.996338

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -10.29843  17.61112  34.12614  47.25344  49.66985

MonthlyIncome变量(x5)

##  [1] -24.92797904   9.91412083   6.89904854   7.74753565   5.47162546
##  [6]   2.52660461  -0.03992731  -5.23847393  -8.59355669 -10.21175106

NumberOfTimes90DaysLate变量(x7)

## [1] -5.19482 27.28299 38.38333 46.53344 47.60632 33.02445

NumberRealEstateLoansOrLine变量(x8)

## [1]  4.022310 -4.564396 -2.913860  0.544066  7.802025 20.998590

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -4.820833 31.732126 48.085927 61.987533 59.675778

NumberOfDependents变量(x10)

## [1] -1.5734012  0.8786638  1.9882112  3.3608775  4.1014453  7.7453871

构造计算分值函数：

   getscore<-function(i,x){
   score = round(p*as.numeric(coe[i])*x,0)
   return(score)
}

2、计算各变量分箱得分：

age变量(x2)

    Agelessthan30.SCORE = getscore(2,Agelessthan30.WOE)
    Age30to35.SCORE = getscore(2,Age30to35.WOE)
    Age35to40.SCORE = getscore(2,Age35to40.WOE)
    Age40to45.SCORE = getscore(2,Age40to45.WOE)
    Age45to50.SCORE = getscore(2,Age45to50.WOE)
    Age50to55.SCORE = getscore(2,Age50to55.WOE)
    Age55to60.SCORE = getscore(2,Age55to60.WOE)
    Age60to65.SCORE = getscore(2,Age60to65.WOE)
    Age65to75.SCORE = getscore(2,Age65to75.WOE)
    Agemorethan.SCORE = getscore(2,Agemorethan.WOE)
    Age.SCORE = c(Agelessthan30.SCORE,Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
    Age.SCORE

##  [1]  12  10   7   5   4   1  -5 -11 -19 -26

NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -10  18  34  47  50

MonthlyIncome变量(x5)

##  [1] -25  10   7   8   5   3   0   0  -9 -10

NumberOfTimes90DaysLate变量(x7)

## [1] -5 27 38 47 48 33

NumberRealEstateLoansOrLine变量(x8)

## [1]  4 -5 -3  1  8 21

NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -5 32 48 62 60

NumberOfDependents变量(x10)

## [1] -2  1  2  3  4  8

3、最终生成的评分卡如下：

age	X2	<=30	(30,35]	(35,40]	(40,45]	(45,50]	(50,55]	(55,60]	(60,65]	(65,75]	(75,100]
age	Score	12	10	7	5	4	1	-5	-11	-19	-26
NumberOfTime30-59DaysPastDueNotWorse	X3	<=0	(0,1]	(1,3]	(3,5]	>5
NumberOfTime30-59DaysPastDueNotWorse	Score	-10	18	34	47	50
MonthlyIncome	X5	<=1000	(1000,2000]	(2000,3000]	(3000,4000]	(4000,5000]	(5000,6000]	(6000,7500]	(7500,9500]	(9500,12000]	>12000
MonthlyIncome	Score	-25	10	7	8	6	3	0	0	-9	-10
NumberOfTimes90DaysLate	X7	<=0	(0,1]	(1,3]	(3,5]	(5,10]	>10
NumberOfTimes90DaysLate	Score	-5	27	38	47	48	33
NumberRealEstateLoansOrLines	X8	<=0	(0,1]	(1,2]	(2,3]	(3,5]	>5
NumberRealEstateLoansOrLines	Score	4	-5	-3	1	8	21
NumberOfTime60-89DaysPastDueNotWorse	X9	<=0	(0,1]	(1,3]	(3,5]	>5
NumberOfTime60-89DaysPastDueNotWorse	Score	-5	32	48	62	60
NumberOfDependents	X10	<=0	(0,1]	(1,2]	(2,3]	(3,5]	>5
NumberOfDependents	Score	-2	1	2	3	4	8

个人评分计算案例：

特征	数据	分数
Age	38	7
NumberOfTime30-59DaysPastDueNotWorse	4	47
MonthlyIncome	1500	10
NumberOfTimes90DaysLate	2	38
NumberRealEstateLoansOrLines	1.5	-3
NumberOfTime60-89DaysPastDueNotWorse	4	62
NumberOfDependents	1.5	2

所以这个人的总评分=基础分（base）+各特征分数

总评分=446.2841+7+47+10+38-3+62+2=609.2841

你可能感兴趣的:(数据挖掘(R语言))

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交