qq_16365849

WOE信用评分卡--R语言实现

---

title: "信用评分模型"

author:"junjun"

date: "2016年10月3日"

output:html_document

---

# 一、数据的获取与整合

数据来源：数据来自Kaggle，cs-training.csv是有15万条的样本数据，下图可以看到这份数据的大致情况。下载地址为：https://www.kaggle.com/c/GiveMeSomeCredit/data

• 数据描述：数据属于个人消费类贷款，只考虑评分卡最终实施时能够使用到的数据应从如下一些方面获取数据：

– 基本属性：包括了借款人当时的年龄。

– 偿债能力：包括了借款人的月收入、负债比率。

– 信用往来：两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或高于90天逾期的次数。

– 财产状况：包括了开放式信贷和贷款数量、不动产贷款或额度数量。

– 贷款属性：暂无。

– 其他因素：包括了借款人的家属数量（不包括本人在内）。

• 原始变量：

变量名变量类型变量描述

SeriousDlqin2yrs Y/N 超过90天或更糟的逾期拖欠

RevolvingUtilizationOf percentage 无担保放款的循环利用：除了不动产和像车贷那样除以信用额度总和的无分期付款债务的信用卡和个人信用额度总额

UnsecuredLines

age integer 借款人当时的年龄

NumberOfTime30-59DaysPastDueNotWorse integer 35-59天逾期但不糟糕次数

DebtRatio percentage 负债比率

MonthlyIncome real 月收入

NumberOf integer 开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量

OpenCreditLinesAndLoans

NumberOfTimes90DaysLate integer 90天逾期次数：借款者有90天或更高逾期的次数

NumberRealEstateLoans integer 不动产贷款或额度数量：抵押贷款和不动产放款包括房屋净值信贷额度

OrLines

NumberOfTime60-89DaysPastDueNotWorse integer 60-89天逾期但不糟糕次数：借款人在在过去两年内有60-89天逾期还款但不糟糕的次数

NumberOfDependents integer 家属数量：不包括本人在内的家属数量

• 时间窗口：自变量的观察窗口为过去两年，因变量表现窗口为未来两年。

# 二、数据处理

首先去掉原数据中的顺序变量，即第一列的id变量。由于要预测的是SeriousDlqin2yrs变量，因此将其设为响应变量y，其他分别设为x1~x10变量。

1、缺失值分析及处理

在得到数据集后，我们需要观察数据的分布情况，因为很多的模型对缺失值敏感，因此观察是否有缺失值是其中很重要的一个步骤。在正式分析前，我们先通过图形进行对观测字段的缺失情况有一个直观的感受。

```{r warning=FALSE}

#1、读取数据集

data <- read.csv(file="F:\\R\\数据集\\P2P\\信用评分模型\\cs-training.csv", row.names=F)

#去掉id

data1 <- data[,-1]

head(data1)

#对列进行重命名

names(data1) <-c("y", paste("x", 1:10, sep = ""))

str(data1)

#2、查看数据集的缺失值分布

library(mice)

#matrixplot(data1)

md.pattern(data1)

#可以看到x5变量和x10变量，即MonthlyIncome变量和NumberOfDependents两个变量存在缺失值;monthlyincome列共有缺失值29731个，numberofdependents有3924个

#3、对于缺失值的处理方法非常多，例如基于聚类的方法，基于回归的方法，基于均值的方法，其中最简单的方法是直接移除，但是在本文中因为缺失值所占比例较高，直接移除会损失大量观测，因此并不是最合适的方法。在这里，我们使用KNN方法对缺失值进行填补。

library(DMwR)

traindata <-knnImputation(data1,k=10,meth = "weighAvg")

#write.csv(traindata, "F:\\R\\数据集\\P2P\\信用评分模型\\cs-training-na.csv")

str(traindata)

#4、异常值分析及处理

#获取月收入的异常值

out <-boxplot.stats(traindata$x5)

boxplot(traindata$x5)

# which(traindata$x5%in% out)

# traindata1 <-traindata[-which(traindata$x5 %in% out)]

#boxplot(traindata1$x5)

#首先对于x2变量，即客户的年龄，我们可以定量分析，发现有以下值

unique(traindata$x2)

#可以看到年龄中存在0值，显然是异常值，予以剔除。

traindata <-traindata[-which(traindata$x2==0), ]

#对于x3,x7,x9三个变量，由下面的箱线图可以看出，均存在异常值，且由unique函数可以得知均存在96、98两个异常值，因此予以剔除。同时会发现剔除其中一个变量的96、98值，其他变量的96、98两个值也会相应被剔除

unique(traindata$x3)

traindata <-traindata[-which(traindata$x3 %in% c(96, 98)), ]

unique(traindata$x7)

traindata <-traindata[-which(traindata$x7 %in% c(96, 98)), ]

#当把x3和x7中的异常值删除后，x9中的异常值也被删除了

unique(traindata$x9)

#5、变量分析

#1）单变量分析

#简单地看下部分变量的分布，比如对于age变量，如下图：

ggplot(traindata,aes(x = x2, y = ..density..)) + geom_histogram(fill = "blue", colour= "grey60", size = 0.2, alpha = 0.2) + geom_density()

#可以看到年龄变量大致呈正态分布，符合统计分析的假设。再比如月收入变量，也可以做图观察观察，如下：

ggplot(traindata,aes(x = x5, y = ..density..)) + geom_histogram(fill = "blue", colour= "grey60", size = 0.2, alpha = 0.2) + geom_density() + xlim(1,20000)

#月收入也大致呈正态分布，符合统计分析的需要。

#2）变量之间的相关性：建模之前首先得检验变量之间的相关性，如果变量之间相关性显著，会影响模型的预测效果。下面通过corrplot函数，画出各变量之间，包括响应变量与自变量的相关性。

cor1 <-cor(traindata[, 1:11])

library(corrplot)

corrplot(cor1)

corrplot(cor1,method="number")

#由上图可以看出，各变量之间的相关性是非常小的。其实Logistic回归同样需要检验多重共线性问题，不过此处由于各变量之间的相关性较小，可以初步判断不存在多重共线性问题，当然我们在建模后还可以用VIF（方差膨胀因子）来检验多重共线性问题。如果存在多重共线性，即有可能存在两个变量高度相关，需要降维或剔除处理。

```

# 三、切分数据集

```{r warning=FALSE}

#1、查看因变量的分布

table(traindata$y)

prop.table(table(traindata$y))

#由上表看出，对于响应变量SeriousDlqin2yrs，存在明显的类失衡问题，SeriousDlqin2yrs等于1的观测为9879，仅为所有观测值的6.6%。因此我们需要对非平衡数据进行处理，在这里可以采用SMOTE算法，用R对稀有事件进行超级采样。

#2、利用caret包中的createDataPartition（数据分割功能）函数将数据随机分成相同的两份

library(caret)

index <-createDataPartition(traindata$y, time=1, p=0.5, list=F)

train <-traindata[index, ]

test <-traindata[-index, ]

#对于分割后的训练集和测试集均有74865个数据，分类结果的平衡性如下

prop.table(table(train$y))

prop.table(table(test$y))

#两者的分类结果是平衡的，仍然有6.6%左右的代表，我们仍然处于良好的水平。因此可以采用这份切割的数据进行建模及预测。

```

# 四、建模：Logistic回归在信用评分卡开发中起到核心作用。由于其特点，以及对自变量进行了证据权重转换（WOE），Logistic回归的结果可以直接转换为一个汇总表，即所谓的标准评分卡格式。

```{r warning=FALSE}

#1、首先利用glm函数对所有变量进行Logistic回归建模，模型如下

fit <- glm(y~.,train, family = "binomial")

summary(fit)

#可以看出，利用全变量进行回归，模型拟合效果并不是很好，其中x1,x4,x6三个变量的p值未能通过检验，在此直接剔除这三个变量，利用剩余的变量对y进行回归。

#2、对以上模型进行优化

fit2 <-glm(y~x2+x3+x5+x7+x8+x9+x10, train, family = "binomial")

summary(fit2)

#第二个回归模型所有变量都通过了检验，甚至AIC值（赤池信息准则）更小，所有模型的拟合效果更好些。

#3、模型评估：

#通常一个二值分类器可以通过ROC（ReceiverOperating Characteristic）曲线和AUC值来评价优劣。很多二元分类器会产生一个概率预测值，而非仅仅是0-1预测值。我们可以使用某个临界点（例如0.5），以划分哪些预测为1，哪些预测为0。得到二元预测值后，可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即true positive + true nagetive。同时可以相应算出TPR（真正率或称为灵敏度）和TNR（真负率或称为特异度）。我们主观上希望这两个指标越大越好，但可惜二者是一个此消彼涨的关系。除了分类器的训练参数，临界点的选择，也会大大的影响TPR和TNR。有时可以根据具体问题和需要，来选择具体的临界点。

#如果我们选择一系列的临界点，就会得到一系列的TPR和TNR，将这些值对应的点连接起来，就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现，还能方便比较不同分类器的性能。在绘制ROC曲线的时候，习惯上是使用1-TNR作为横坐标即FPR（false positive rate），TPR作为纵坐标。这是就形成了ROC曲线。而AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

#首先利用模型对test数据进行预测，生成概率预测值

pre <-predict(fit2, test)

#在R中，可以利用pROC包，它能方便比较两个分类器，还能自动标注出最优的临界点，图看起来也比较漂亮。在下图中最优点FPR=1-TNR=0.845，TPR=0.638，AUC值为0.8102，说明该模型的预测效果还是不错的，正确较高。

modelroc <-roc(test$y, pre)

plot(modelroc,print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),

grid.col=c("green","red"), max.auc.polygon=TRUE,

auc.polygon.col="skyblue",print.thres=TRUE)

```

# 五、WOE转换

证据权重（Weight ofEvidence,WOE）转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量，只是一些变量不应该被纳入模型，这或者是因为它们不能增加模型值，或者是因为与其模型相关系数有关的误差较大，其实建立标准信用评分卡也可以不采用WOE转换。这种情况下，Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性，但最终得到的评分卡都是一样的。

用WOE(x)替换变量x。WOE()=ln[(违约/总违约)/(正常/总正常)]。

通过上述的Logistic回归，剔除x1,x4,x6三个变量，对剩下的变量进行WOE转换。

```{r warning=FALSE}

#1、进行分箱

#1）age变量(x2)：

cutx2 = c(-Inf, 30,35, 40, 45, 50, 55, 60, 65, 70, 75, Inf)

plot(cut(train$x2,cutx2))

#2)NumberOfTime30-59DaysPastDueNotWorse变量(x3)：

cutx3 = c(-Inf, 0,1, 3, 5, Inf)

plot(cut(train$x3,cutx3))

#3)MonthlyIncome变量(x5)：

cutx5 <- c(-Inf,1000, 2000, 3000, 4000, 5000, 6000, 7500, 9500, 12000, Inf)

plot(cut(train$x5,cutx5))

#4)NumberOfTimes90DaysLate变量(x7)：

cutx7 <- c(-Inf,0, 1, 3, 5, 10,Inf)

plot(cut(train$x7,cutx7))

#5)NumberRealEstateLoansOrLines变量(x8)：

cutx8 <- c(-Inf,0, 1, 3, 5, Inf)

plot(cut(train$x8,cutx8))

#6)NumberOfTime60-89DaysPastDueNotWorse变量(x9)：

cutx9 <- c(-Inf,0, 1, 3, 5, Inf)

plot(cut(train$x9,cutx9))

#7)NumberOfDependents变量(x10)：

cutx10 <- c(-Inf,0, 1, 2, 3, 5, Inf)

plot(cut(train$x10,cutx10))

#2、计算WOE值

totalgood <-as.numeric(table(train$y))[1]

totalbad <-as.numeric(table(train$y))[2]

#计算WOE的函数

getWOE <-function(a, p, q){

Good <- as.numeric(table(train$y[a>p& a<=q]))[1]

Bad <- as.numeric(table(train$y[a>p& a<=q]))[2]

WOE <-log((Bad/totalbad)/(Good/totalgood), base=exp(1))

return(WOE)

}

#比如age变量（x2）

Agelessthan30.WOE<- getWOE(train$x2, -Inf, 30)

Age30to35.WOE <-getWOE(train$x2, 30, 35)

Age35to40.WOE=getWOE(train$x2,35,40)

Age40to45.WOE=getWOE(train$x2,40,45)

Age45to50.WOE=getWOE(train$x2,45,50)

Age50to55.WOE=getWOE(train$x2,50,55)

Age55to60.WOE=getWOE(train$x2,55,60)

Age60to65.WOE=getWOE(train$x2,60,65)

Age65to75.WOE=getWOE(train$x2,65,75)

Agemorethan.WOE=getWOE(train$x2,75,Inf)

(age.WOE=c(Agelessthan30.WOE,Age30to35.WOE,Age35to40.WOE,Age40to45.WOE,Age45to50.WOE,Age50to55.WOE,Age55to60.WOE,Age60to65.WOE,Age65to75.WOE,Agemorethan.WOE))

# NumberOfTime30-59DaysPastDueNotWorse变量(x3)

# ## [1]-0.5324915 0.9106018 1.7645290 2.4432903 2.5682332

NumOfTimeless0.WOE <- getWOE(train$x3, -Inf, 0)

NumOfTime0to1.WOE<- getWOE(train$x3, 0, 1)

NumOfTime1to3.WOE<- getWOE(train$x3, 1, 3)

NumOfTime3to5.WOE<- getWOE(train$x3, 3, 5)

NumOfTimethan5.WOE<- getWOE(train$x3, 5, Inf)

(NumOfTime.WOE <-c(NumOfTimelesso.WOE, NumOfTime0to1.WOE, NumOfTime1to3.WOE, NumOfTime3to5.WOE,NumOfTimethan5.WOE))

# MonthlyIncome变量(x5)

# ## [1] -1.128862326 0.448960482 0.312423080 0.350846777 0.247782295

# ## [6] 0.114417168 -0.001808106 -0.237224039 -0.389158800 -0.462438653

MonIncomeless1000.WOE<- getWOE(train$x5, -Inf, 1000)

MonIncome1000to2000.WOE<- getWOE(train$x5, 1000, 2000)

MonIncome2000to3000.WOE<- getWOE(train$x5, 2000, 3000)

MonIncome3000to4000.WOE<- getWOE(train$x5, 3000, 4000)

MonIncome4000to5000.WOE<- getWOE(train$x5, 4000, 5000)

MonIncome5000to6000.WOE<- getWOE(train$x5, 5000, 6000)

MonIncome6000to7500.WOE<- getWOE(train$x5, 6000, 7500)

MonIncome7500to9500.WOE<- getWOE(train$x5, 7500, 9500)

MonIncome9500to12000.WOE<- getWOE(train$x5, 9500, 12000)

MonIncomethan12000.WOE<- getWOE(train$x5, 12000, Inf)

(MonIncome.WOE <-c(MonIncomeless1000.WOE, MonIncome1000to2000.WOE, MonIncome2000to3000.WOE,MonIncome3000to4000.WOE, MonIncome4000to5000.WOE, MonIncome5000to6000.WOE,MonIncome6000to7500.WOE, MonIncome7500to9500.WOE, MonIncome9500to12000.WOE,MonIncomethan12000.WOE))

# NumberOfTimes90DaysLate变量(x7)

# ## [1]-0.3694044 1.9400973 2.7294448 3.3090003 3.3852925 2.3483738

NumOfTime90Dayless0.WOE<- getWOE(train$x7, -Inf, 0)

NumOfTime90Day0to1.WOE<- getWOE(train$x7, 0, 1)

NumOfTime90Day1to3.WOE<- getWOE(train$x7, 1, 3)

NumOfTime90Day3to5.WOE<- getWOE(train$x7, 3, 5)

NumOfTime90Day5to10.WOE<- getWOE(train$x7, 5, 10)

NumOfTime90Daythan10.WOE<- getWOE(train$x7, 10, Inf)

(NumOfTimeDay.WOE<- c(NumOfTime90Dayless0.WOE, NumOfTime90Day0to1.WOE,NumOfTime90Day1to3.WOE, NumOfTime90Day3to5.WOE, NumOfTime90Day5to10.WOE,NumOfTime90Daythan10.WOE))

# NumberRealEstateLoansOrLines变量(x8)

# ## [1] 0.21490691 -0.24386987 -0.15568385 0.02906876 0.41685234 1.12192809

NumRealless0.WOE<- getWOE(train$x8, -Inf, 0)

NumReal0to1.WOE<- getWOE(train$x8, 0, 1)

NumReal1to3.WOE<- getWOE(train$x8, 1, 3)

NumReal3to5.WOE<- getWOE(train$x8, 3, 5)

NumRealthan5.WOE<- getWOE(train$x8, 5, Inf)

(NumReal.WOE <-c(NumRealless0.WOE, NumReal0to1.WOE, NumReal1to3.WOE, NumReal3to5.WOE,NumRealthan5.WOE))

# NumberOfTime60-89DaysPastDueNotWorse变量(x9)

# ## [1]-0.2784605 1.8329078 2.7775343 3.5805174 3.4469860

NumOfTime6089Dayless0.WOE<- getWOE(train$x9, -Inf, 0)

NumOfTime6089Day0to1.WOE<- getWOE(train$x9, 0, 1)

NumOfTime6089Day1to3.WOE<- getWOE(train$x9, 1, 3)

NumOfTime6089Day3to5.WOE<- getWOE(train$x9, 3, 5)

NumOfTime6089Daythan5.WOE<- getWOE(train$x9, 5, Inf)

(NumOfTime6089.WOE<- c(NumOfTime6089Dayless0.WOE, NumOfTime6089Day0to1.WOE,NumOfTime6089Day1to3.WOE, NumOfTime6089Day3to5.WOE, NumOfTime6089Daythan5.WOE))

# NumberOfDependents变量(x10)

# ## [1]-0.15525081 0.08669961 0.19618098 0.33162486 0.40469824 0.76425365

NumOfDepless0.WOE<- getWOE(train$x10, -Inf, 0)

NumOfDep0to1.WOE<- getWOE(train$x10, 0, 1)

NumOfDep1to3.WOE<- getWOE(train$x10, 1, 3)

NumOfDep3to5.WOE<- getWOE(train$x10, 3, 5)

NumOfDepthan5.WOE<- getWOE(train$x10, 5, Inf)

(NumOfDep.WOE <-c(NumOfDepless0.WOE, NumOfDep0to1.WOE, NumOfDep1to3.WOE, NumOfDep3to5.WOE,NumOfDepthan5.WOE))

#3、对变量进行WOE变换

#比如age变量（x2）

tmp.age <- 0

for(i in1:nrow(train)) {

if(train$x2[i] <= 30)

tmp.age[i] <- Agelessthan30.WOE

else if(train$x2[i] <= 35)

tmp.age[i] <- Age30to35.WOE

else if(train$x2[i] <= 40)

tmp.age[i] <- Age35to40.WOE

else if(train$x2[i] <= 45)

tmp.age[i] <- Age40to45.WOE

else if(train$x2[i] <= 50)

tmp.age[i] <- Age45to50.WOE

else if(train$x2[i] <= 55)

tmp.age[i] <- Age50to55.WOE

else if(train$x2[i] <= 60)

tmp.age[i] <- Age55to60.WOE

else if(train$x2[i] <= 65)

tmp.age[i] <- Age60to65.WOE

else if(train$x2[i] <= 75)

tmp.age[i] <- Age65to75.WOE

else

tmp.age[i] <- Agemorethan.WOE

}

table(tmp.age)

tmp.age[1:10]

train$x2[1:10]

# NumberOfTime30-59DaysPastDueNotWorse变量(x3)

# ##tmp.NumberOfTime30.59DaysPastDueNotWorse

# ##-0.53249146131578 0.910601840444591 1.76452904024992 2.44329031065646

# ## 62948 8077 3160 562

# ## 2.56823323027274

# ## 118

# ## [1] 0.9106018 -0.5324915 -0.5324915 -0.5324915 -0.5324915 -0.5324915

# ## [7] -0.5324915 -0.5324915 -0.5324915-0.5324915

# ## [1] 1 0 0 0 0 0 0 0 0 0

tmp.NumberOfTime30.59DaysPastDueNotWorse<- 0

for(i in1:nrow(train)) {

if(train$x3[i] <= 0)

tmp.NumberOfTime30.59DaysPastDueNotWorse[i] <- NumOfTimeless0.WOE

else if(train$x3[i] <= 1)

tmp.NumberOfTime30.59DaysPastDueNotWorse[i] <- NumOfTime0to1.WOE

else if(train$x3[i] <= 3)

tmp.NumberOfTime30.59DaysPastDueNotWorse[i] <- NumOfTime1to3.WOE

else if(train$x3[i] <= 5)

tmp.NumberOfTime30.59DaysPastDueNotWorse[i] <- NumOfTime3to5.WOE

else

tmp.NumberOfTime30.59DaysPastDueNotWorse[i] <- NumOfTimethan5.WOE

}

table(tmp.NumberOfTime30.59DaysPastDueNotWorse)

# MonthIncome变量(x5)

# ##tmp.MonthlyIncome

# ## -1.12886232582259 -0.462438653207328 -0.389158799506996

# ## 10201 5490 5486

# ## -0.237224038650003 -0.00180810632297072 0.114417167554772

# ## 7048 8076 7249

# ## 0.247782294610166 0.312423079500641 0.350846777249291

# ## 9147 8118 9680

# ## 0.448960482499888

# ## 4370

# ## [1] 0.350846777 0.350846777 0.350846777 0.312423080 -0.001808106

# ## [6] -0.462438653 -0.237224039 0.350846777 0.312423080 -0.237224039

# ## [1] 3042 3300 3500 2500 6501 12454 8800 3280 2500 7916

tmp.MonthlyIncome<- 0

for(i in1:nrow(train)) {

if(train$x5[i] <= 1000)

tmp.MonthlyIncome[i] <-MonIncomeless1000.WOE

else if(train$x5[i] <= 2000)

tmp.MonthlyIncome[i] <-MonIncome1000to2000.WOE

else if(train$x5[i] <= 3000)

tmp.MonthlyIncome[i] <-MonIncome2000to3000.WOE

else if(train$x5[i] <= 4000)

tmp.MonthlyIncome[i] <-MonIncome3000to4000.WOE

else if(train$x5[i] <= 5000)

tmp.MonthlyIncome[i] <-MonIncome4000to5000.WOE

else if(train$x5[i] <= 6000)

tmp.MonthlyIncome[i] <-MonIncome5000to6000.WOE

else if(train$x5[i] <= 7500)

tmp.MonthlyIncome[i] <-MonIncome6000to7500.WOE

else if(train$x5[i] <= 9500)

tmp.MonthlyIncome[i] <-MonIncome7500to9500.WOE

else if(train$x5[i] <= 12000)

tmp.MonthlyIncome[i] <-MonIncome9500to12000.WOE

else

tmp.MonthlyIncome[i] <-MonIncomethan12000.WOE

}

table(tmp.MonthlyIncome)

# NumberOfTime90DaysPastDueNotWorse变量(x7)

# ##tmp.NumberOfTimes90DaysLate

# ##-0.369404425455224 1.94009728631401 2.34837375415972

# ## 70793 2669 7

# ## 2.72944477623793 3.30900029985393 3.38529247382249

# ## 1093 222 81

# ## [1] 1.9400973 -0.3694044 -0.3694044 -0.3694044 -0.3694044 -0.3694044

# ## [7] -0.3694044 -0.3694044 -0.3694044-0.3694044

# ## [1] 1 0 0 0 0 0 0 0 0 0

tmp.NumberOfTimes90DaysLate<- 0

for(i in1:nrow(train)) {

if(train$x7[i] <= 0)

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Dayless0.WOE

else if(train$x7[i] <= 1)

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Day0to1.WOE

else if(train$x7[i] <= 3)

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Day1to3.WOE

else if(train$x7[i] <= 5)

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Day3to5.WOE

else if(train$x7[i] <= 10)

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Day5to10.WOE

else

tmp.NumberOfTimes90DaysLate[i] <-NumOfTime90Daythan10.WOE

}

table(tmp.NumberOfTimes90DaysLate)

# NumberRealEstateLoansOrLines变量(x8)

# ##tmp.NumberRealEstateLoansOrLines

# ##-0.243869874062293 -0.155683851792327 0.0290687559545721

# ## 26150 15890 3130

# ## 0.214906905417014 1.12192809398173

# ## 27901 1794

# ## [1] 0.2149069 0.2149069 0.2149069 0.2149069 -0.1556839 -0.1556839

# ## [7] 0.2149069 -0.2438699 0.2149069 0.2149069

# ## [1] 0 0 0 0 2 2 0 1 0 0

tmp.NumberRealEstateLoansOrLines<- 0

for(i in1:nrow(train)) {

if(train$x8[i] <= 0)

tmp.NumberRealEstateLoansOrLines[i]<- NumRealless0.WOE

else if(train$x8[i] <= 1)

tmp.NumberRealEstateLoansOrLines[i]<- NumReal0to1.WOE

else if(train$x8[i] <= 3)

tmp.NumberRealEstateLoansOrLines[i]<- NumReal1to3.WOE

else if(train$x8[i] <= 5)

tmp.NumberRealEstateLoansOrLines[i]<- NumReal3to5.WOE

else

tmp.NumberRealEstateLoansOrLines[i]<- NumRealthan5.WOE

}

table(tmp.NumberRealEstateLoansOrLines)

# NumberOfTime60.89DaysPastDueNotWorse变量(x9)

# ##tmp.NumberOfTime60.89DaysPastDueNotWorse

# ##-0.278460464730538 1.83290775083723 2.77753428092856

# ## 71150 2919 708

# ## 3.44698604282783 3.58051743545235

# ## 13 75

# ## [1] -0.2784605 -0.2784605 -0.2784605-0.2784605 -0.2784605 -0.2784605

# ## [7] -0.2784605 -0.2784605 -0.2784605-0.2784605

# ## [1] 0 0 0 0 0 0 0 0 0 0

tmp.NumberOfTime60.89DaysPastDueNotWorse<- 0

for(i in1:nrow(train)) {

if(train$x9[i] <= 0)

tmp.NumberOfTime60.89DaysPastDueNotWorse[i] <-NumOfTime6089Dayless0.WOE

else if(train$x9[i] <= 1)

tmp.NumberOfTime60.89DaysPastDueNotWorse[i] <-NumOfTime6089Day0to1.WOE

else if(train$x9[i] <= 3)

tmp.NumberOfTime60.89DaysPastDueNotWorse[i] <-NumOfTime6089Day1to3.WOE

else if(train$x9[i] <= 5)

tmp.NumberOfTime60.89DaysPastDueNotWorse[i] <-NumOfTime6089Day3to5.WOE

else

tmp.NumberOfTime60.89DaysPastDueNotWorse[i] <-NumOfTime6089Daythan5.WOE

}

table(tmp.NumberOfTime60.89DaysPastDueNotWorse)

# NumberOfDependents变量(x10)

# ##tmp.NumberOfDependents

# ##-0.155250809857344 0.0866996065110081 0.196180980387687

# ## 43498 14544 10102

# ## 0.331624863227172 0.404698242905824 0.76425364970991

# ## 4771 1815 135

# ## [1] -0.1552508 -0.1552508 -0.1552508-0.1552508 0.1961810 0.1961810

# ## [7] -0.1552508 0.1961810 -0.1552508 -0.1552508

# ## [1] 0 0 0 0 2 2 0 2 0 0

tmp.NumberOfDependents<- 0

for(i in1:nrow(train)) {

if(train$x10[i] <= 0)

tmp.NumberOfDependents[i] <-NumOfDepless0.WOE

else if(train$x10[i] <= 1)

tmp.NumberOfDependents[i] <-NumOfDep0to1.WOE

else if(train$x10[i] <= 3)

tmp.NumberOfDependents[i] <-NumOfDep1to3.WOE

else if(train$x10[i] <= 5)

tmp.NumberOfDependents[i] <-NumOfDep3to5.WOE

else

tmp.NumberOfDependents[i] <-NumOfDepthan5.WOE

}

table(tmp.NumberOfDependents)

#4、WOE Dataframe构建：

trainWOE=cbind.data.frame(tmp.age,tmp.NumberOfTime30.59DaysPastDueNotWorse,tmp.MonthlyIncome,tmp.NumberOfTime60.89DaysPastDueNotWorse,tmp.NumberOfTimes90DaysLate,tmp.NumberRealEstateLoansOrLines,tmp.NumberOfDependents)

summary(trainWOE)

```

# 六、评分卡的创建和实施

通俗来说就是，评分需要自己预设一个阀值，比如：

这个人预测出来“不发生违约”的几率为0.8，设定这个人为500分；

另一个人预测出来“不发生违约”的几率为0.9，设定这个人为600分。

阀值的设定需根据行业经验不断跟踪调整，下面的分数设定仅代表个人经验。

下面开始设立评分，假设按好坏比15为600分，每高20分好坏比翻一倍算出P,Q。如果后期结果不明显，可以高30-50分好坏比才翻一倍。

Score = q - p *log(odds)

即有方程：

620 = q - p *log(15)

600 = q - p *log(15/2)

```{r warning=FALSE}

#1、逻辑回归模型：求出p和q的值

#因为数据中“1”代表的是违约，直接建模预测，求的是“发生违约的概率”，log(odds)即为“坏好比”。为了符合常规理解，分数越高，信用越好，所有就调换“0”和“1”，使建模预测结果为“不发生违约的概率”，最后log(odds)即表示为“好坏比”。

trainWOE$y <- 1 -train$y

glm.fit <-glm(y~., data=trainWOE, family = binomial(link=logit))

summary(glm.fit)

coe =(glm.fit$coefficients)

p <- -20/log(2)

q <- 600 -20*log(15)/log(2)

Score=q +p*{as.numeric(coe[1])+as.numeric(coe[2])*tmp.age+as.numeric(coe[3])*tmp.NumberOfTime30.59DaysPastDueNotWorse+p*as.numeric(coe[4])*tmp.MonthlyIncome+p*as.numeric(coe[5])*tmp.NumberOfTime60.89DaysPastDueNotWorse+p*as.numeric(coe[6])*tmp.NumberOfTimes90DaysLate+p*as.numeric(coe[7])*tmp.NumberRealEstateLoansOrLines+p*as.numeric(coe[8])*tmp.NumberOfDependents}

#个人总评分=基础分+各部分得分

base <- q +p*as.numeric(coe[1])

#2、对各变量进行打分

#1）age变量（x2）

Agelessthan30.SCORE= p*as.numeric(coe[2])*Agelessthan30.WOE

Age30to35.SCORE =p*as.numeric(coe[2])*Age30to35.WOE

Age35to40.SCORE =p*as.numeric(coe[2])*Age35to40.WOE

Age40to45.SCORE =p*as.numeric(coe[2])*Age40to45.WOE

Age45to50.SCORE =p*as.numeric(coe[2])*Age45to50.WOE

Age50to55.SCORE =p*as.numeric(coe[2])*Age50to55.WOE

Age55to60.SCORE =p*as.numeric(coe[2])*Age55to60.WOE

Age60to65.SCORE =p*as.numeric(coe[2])*Age60to65.WOE

Age65to75.SCORE =p*as.numeric(coe[2])*Age65to75.WOE

Agemorethan.SCORE=p*as.numeric(coe[2])*Agemorethan.WOE

(Age.SCORE=c(Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE))

#2）构造计算分值函数

getscore <-function(i, x){

score <- round(p*as.numeric(coe[i])*x, 0)

return(score)

}

#3)计算各变量分箱得分

#age变量（x2）

Agelessthan30.SCORE= getscore(2,Agelessthan30.WOE)

Age30to35.SCORE =getscore(2,Age30to35.WOE)

Age35to40.SCORE =getscore(2,Age35to40.WOE)

Age40to45.SCORE =getscore(2,Age40to45.WOE)

Age45to50.SCORE =getscore(2,Age45to50.WOE)

Age50to55.SCORE =getscore(2,Age50to55.WOE)

Age55to60.SCORE =getscore(2,Age55to60.WOE)

Age60to65.SCORE =getscore(2,Age60to65.WOE)

Age65to75.SCORE =getscore(2,Age65to75.WOE)

Agemorethan.SCORE =getscore(2,Agemorethan.WOE)

(Age.SCORE =c(Agelessthan30.SCORE,Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE))

#NumberOfTime30-59DaysPastDueNotWorse变量(x3)

## [1] -10 18 34 47 50

NumOfTimeless0.SCORE<- getscore(3,NumOfTimeless0.WOE)

NumOfTime0to1.SCORE<- getscore(3,NumOfTime0to1.WOE)

NumOfTime1to3.SCORE<- getscore(3,NumOfTime1to3.WOE)

NumOfTime3to5.SCORE<- getscore(3,NumOfTime3to5.WOE)

NumOfTimethan5.SCORE<- getscore(3,NumOfTimethan5.WOE)

(NumOfTime.SCORE<- c(NumOfTimeless0.SCORE, NumOfTime0to1.SCORE, NumOfTime1to3.SCORE,NumOfTime3to5.SCORE, NumOfTimethan5.SCORE))

#MonthlyIncome变量(x5)

## [1] -25 10 7 8 5 3 0 0 -9 -10

MonIncomeless1000.SCORE= getscore(4,MonIncomeless1000.WOE)

MonIncome1000to2000.SCORE= getscore(4,MonIncome1000to2000.WOE)

MonIncome2000to3000.SCORE= getscore(4,MonIncome2000to3000.WOE)

MonIncome3000to4000.SCORE= getscore(4,MonIncome3000to4000.WOE)

MonIncome4000to5000.SCORE= getscore(4,MonIncome4000to5000.WOE)

MonIncome5000to6000.SCORE= getscore(4,MonIncome5000to6000.WOE)

MonIncome6000to7500.SCORE= getscore(4,MonIncome6000to7500.WOE)

MonIncome7500to9500.SCORE= getscore(4,MonIncome7500to9500.WOE)

MonIncome9500to12000.SCORE= getscore(4,MonIncome9500to12000.WOE)

MonIncomethan12000.SCORE= getscore(4,MonIncomethan12000.WOE)

(MonIncome.SCORE<- c(MonIncomeless1000.SCORE, MonIncome1000to2000.SCORE,MonIncome2000to3000.SCORE, MonIncome3000to4000.SCORE,MonIncome4000to5000.SCORE, MonIncome5000to6000.SCORE,MonIncome6000to7500.SCORE, MonIncome7500to9500.SCORE, MonIncome9500to12000.SCORE,MonIncomethan12000.SCORE))

#NumberOfTimes90DaysLate变量(x7)

## [1] -5 27 38 4748 33

NumOfTime90Dayless0.SCORE= getscore(5,NumOfTime90Dayless0.WOE)

NumOfTime90Day0to1.SCORE= getscore(5,NumOfTime90Day0to1.WOE)

NumOfTime90Day1to3.SCORE= getscore(5,NumOfTime90Day1to3.WOE)

NumOfTime90Day3to5.SCORE= getscore(5,NumOfTime90Day3to5.WOE)

NumOfTime90Day5to10.SCORE= getscore(5,NumOfTime90Day5to10.WOE)

NumOfTime90Daythan10.SCORE= getscore(5,NumOfTime90Daythan10.WOE)

(NumOfTime90Day.SCORE<- c(NumOfTime90Dayless0.SCORE, NumOfTime90Day0to1.SCORE,NumOfTime90Day1to3.SCORE, NumOfTime90Day3to5.SCORE, NumOfTime90Day5to10.SCORE,NumOfTime90Daythan10.SCORE))

#NumberRealEstateLoansOrLine变量(x8)

## [1] 4 -5 -3 1 8 21

NumRealless0.SCORE =getscore(6,NumRealless0.WOE)

NumReal0to1.SCORE =getscore(6,NumReal0to1.WOE)

NumReal1to3.SCORE =getscore(6,NumReal1to3.WOE)

NumReal3to5.SCORE =getscore(6,NumReal3to5.WOE)

NumRealthan5.SCORE =getscore(6,NumRealthan5.WOE)

(NumReal.SCORE <-c(NumRealless0.SCORE, NumReal0to1.SCORE, NumReal1to3.SCORE, NumReal3to5.SCORE,NumRealthan5.SCORE))

#NumberOfTime60-89DaysPastDueNotWorse变量(x9)

## [1] -5 32 48 6260

NumOfTime6089Dayless0.SCORE= getscore(7,NumOfTime6089Dayless0.WOE)

NumOfTime6089Day0to1.SCORE= getscore(7,NumOfTime6089Day0to1.WOE)

NumOfTime6089Day1to3.SCORE= getscore(7,NumOfTime6089Day1to3.WOE)

NumOfTime6089Day3to5.SCORE= getscore(7,NumOfTime6089Day3to5.WOE)

NumOfTime6089Daythan5.SCORE= getscore(7,NumOfTime6089Daythan5.WOE)

(NumOfTime6089Day.SCORE<- c(NumOfTime6089Dayless0.SCORE, NumOfTime6089Day0to1.SCORE,NumOfTime6089Day1to3.SCORE, NumOfTime6089Day3to5.SCORE,NumOfTime6089Daythan5.SCORE))

#NumberOfDependents变量(x10)

## [1] -2 1 2 3 4 8

NumOfDepless0.SCORE= getscore(8,NumOfDepless0.WOE)

NumOfDep0to1.SCORE =getscore(8,NumOfDep0to1.WOE)

NumOfDep1to3.SCORE =getscore(8,NumOfDep1to3.WOE)

NumOfDep3to5.SCORE =getscore(8,NumOfDep3to5.WOE)

NumOfDepthan5.SCORE= getscore(8,NumOfDepthan5.WOE)

(NumOfDept.SCORE<- c(NumOfDepless0.SCORE, NumOfDep0to1.SCORE, NumOfDep1to3.SCORE,NumOfDep3to5.SCORE, NumOfDepthan5.SCORE))

```

你可能感兴趣的:(评分卡,数据挖掘,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n