嘛里嘛里哄

数据科学与机器学习案例之客户的信用风险与预测

项目来源
数据处理
机器学习算法
- 逻辑回归
- - 所有特征
  - 特征选择
- glmnet
- svm
总结

项目来源

分享的项目是来源于暑期实习的一些心得，研究的问题是客户的信用风险检测与预测，自己对于整个项目进行了更加精准的复现,数据方面全部为自己提供，没有违反合约问题.

数据处理

对于数据的分享请见以下链接：

使用R语言进行项目复现.

library(caret)
library(e1071)
library(randomForest)
library(corrplot)
library(glmnet)
 
df <- read.csv('german_credit_dataset.csv')
colnames(df)
 [1] "信用评级"               "当前余额"              
 [3] "贷款时间月数"           "先前贷款的支付状态"    
 [5] "贷款目的"               "贷款数量"              
 [7] "存款"                   "工作时间"              
 [9] "每月用于偿还贷款的比例" "婚姻状态"              
[11] "是否有担保人"           "当前住址的居住时间"    
[13] "当前资产"               "年龄"                  
[15] "是否还有其他贷款"       "住房类型"              
[17] "贷款的总项数"           "当前职业"              
[19] "家属人数"               "是否有手机"            
[21] "是否外籍工人"

以上结果是数据下每个字段的名称，预测变量一共有20个

检查数据有无缺失值

a1 = sort(apply(df,2,function(x) sum(is.na(x))),T) # 无缺失值

> 
> table(a1)
a1
 0 
21

经过检查数据中没有缺失值，下面识别数据中的数值型变量与分类变量，对分类变量进行重编码，连续性变量进行BoxCox变换，中心换，标准化.

categorical <- c()

> for(i in 1:ncol(df)){
+      if(length(unique(df[,i])) < 10)
+       categorical <- c(categorical,i)}
categorical
 [1]  1  2  4  7  8  9 10 11 12 13 15 16 17 18 19 20 21
 length(categorical)
[1] 17

经过我们的处理识别的分类变量有17个，下面我们对分类变量进行描述、可视化、特征工程处理。

响应变量：信用评级

df$信用评级 <- as.factor(as.character(df$信用评级))

数据中的响应变量：信用评级有1和0两个类别值，信用评级为1的顾客是有信用的，信用评级为0的顾客是没有信用的，从直方图图中可以可以看到有信用的顾客所占的比例比没有信用的顾客要高。实际数据中样本量更大，所需要对数据出路的预操作会更多出现类失衡等问题

预测变量：当前余额

当前语义：1.代表没有银行账户,2.没有余额,3.余额小于阈值4.余额大于阈值.
describe(df[,2]) 对当前余额进行数据分析： n missing distinct Info Mean Gmd 1000 0 4 0.899 2.577 1.373 Value 1 2 3 4 Frequency 274 269 63 394 Proportion 0.274 0.269 0.063 0.394
语义转换：1.没有银行账户，2.没有余额，3.账户余额为正.

> library(car)
载入需要的程辑包：carData
> new <- recode(df[,2],
+           '1=1;2=2;3=3;4=3')
> df[,2] <- new

当前余额的重编码之后的结果：
df[, 2] n missing distinct Info Mean Gmd 1000 0 3 0.865 2.183 0.895 Value 1 2 3 Frequency 274 269 457 Proportion 0.274 0.269 0.457

先前贷款的支付状态:

先前贷款的支付状态: 0.等待支付,1.有问题的账户,2.没有贷款遗留,3.在本银行的贷款无问题,4.还清了本银行之前的贷款.
语义转换：1.支付存在问题，2.所有的贷款已经支付，3.本银行的贷款没有问题并且贷款结清.

> new <- recode(df[,4],
+             '0=1;1=1;2=2;3=3;4=3')
> df[,4] <- new
> 
> table(df[,4])

  1   2   3 
 89 530 381

贷款目的：

贷款目的语义：0.其他 1.购买新车 2.购买二手车 3.购买家具 4.购买收音机或电视 5.购买家用电器 6.维修 7.教育 8.度假 9.再教育 10.商业
语义变换：1.购买新车 2.购买二手车 3.购买家庭相关用品 4.其他

> new <- recode(df[,5],
+            '0=4;1=1;2=2;3=3;4=3;
+             5=3;6=3;7=4;8=4;9=4;10=4')
> 
> df[,5] <- new

存款：

存款语义：1.没有存款 2.小于a1 3.在a1与a2之间 4.在a3与a4之间 5.大于a4
语义变换：1.没有存款 2.小于a1 3.在a1与a4之间 4.大于a4

> new <- recode(df[,7],
+               '1=1;2=2;3=3;4=3;5=4')
> df[,7] <- new

工作时间:

工作时间：1.失业 2.小于1年 3.在1-4年之间 4.在4-7年之间 5.大于7年
语义转换： 1**.失业或小于1年 2.在1-4年之间 3.在4-7年之间 4.大于7年**


> new <- recode(df[,8],
+               '1=1;2=1;3=2;4=3;5=4')
> df[,8] <- new

每月用于偿还贷款的比例:

每月用于偿还贷款的比例: 1.大于等于35% 2.25%-35%之间
3. 20%-25%之间 4. 小于20%
语义变换： 无

婚姻状态:

婚姻状态语义： 1.离婚男性 2.单身男性 3.已婚/丧偶男性 4.女性
语义变换:1.离婚/单身男性 2.已婚/丧偶男性 3.女性

> new <- recode(df[,10],'1=1;2=1;3=2;4=3')
> df[,10] <- new

是否有担保人:

是否有担保人语义：1.没有 2.共同申请人 3.担保人
是否有担保人语义变换:1. 离婚/单身男性 2. 已婚/丧偶男性 3.女性

> new <- recode(df[,11],
+              '1=1;2=2;3=2')
> df[,11] <- new

当前住址的居住时间:

当前住址的居住时间语义：1.小于1年 2.在1-4年直接按 3.在4-7年之间 4.大于等于7年
当前住址的居住时间语义变换： 无

当前资产:

当前资产语义：1.没有资产 2.汽车或其他 3.人寿保险或储蓄合同 4.房屋或土地所有权
当前资产语义转换： 无

是否还有其他贷款：

是否还有其他贷款：1.在其他银行有贷款 2.在大型商店有贷款 3.没有其他贷款
是否还有其他贷款语义转换：1.有其他贷款 2.没有其他贷款

new <- recode(df[,15],
              '1=1;2=1;3=2')
df[,15] <- new

住房类型：

住房类型语义：1.免费公寓 2.租房 3.拥有房屋
住房类型语义转换： 无

贷款的总项数:

贷款总项数语义：1. 1 2. 2或3 3. 4或5 4. 6及以上
贷款的总项数语义转换:1.1 2.超过1

new <- recode(df[,17],
              '1=1;2=2;3=2;4=2')
df[,17] <- new

当前职业:

当前职业语义：1.无固定住所的失业人员 2.有固定住所，但是没有专业技能 3. 技术工人/一般公务员 4.管理人员或者个体户或高级公务员
当前职业语义转换： 无

家属人数：

家属人数语义：1.0到2个 2. 3个及其以上
家属人数语义变换： 无

是否有手机：

是否有手机语义：1.没有 2.有
是否有手机语义变换： 无
对于预测变量 是否有手机没有进行重编码，因为进行了fisher检验与卡方检验,通过检验的p值发现其与信用评级关联很小。

是否外籍工人：

是否外籍工人语义： 1.是 2.不是
是否有外籍工人： 无

数值型变量的处理：

> names(df)[-categorical]
[1] "贷款时间月数"   "贷款数量"     "年龄"        
> apply(df[,names(df)[-categorical]],2,skewness)
贷款时间月数     贷款目的     贷款数量         年龄 
   1.0909038   -0.6031789    1.9437494    1.0216399 
> 
> library(ggplot2)
> p1 <- ggplot(df,aes(x = 贷款时间月数))+
+       geom_bar(stat = 'count',fill = 'pink')   
> p2 <- ggplot(df,aes(x = 贷款数量))+
+        geom_histogram(stat = 'bin',binwidth = 100) 
> p3 <- ggplot(df,aes(x = 年龄))+
+        geom_bar(stat = 'count',fill = 'pink')   
> cowplot::plot_grid(p1, p2, p3, nrow = 2, labels = LETTERS[1:3])

可视化

> fit <- preProcess(df[,2:21],method = c('BoxCox')) # BoxCox变换
> fit
> data1 <- predict(fit,newdata = df[,2:21])
> df <- cbind(df$信用评级,data1) 
> temp = nearZeroVar(df) # 移除近邻方差变量
> df <- df[,-temp] # 最终数据

机器学习算法

我们使用相同的训练集与测试集对所有的机器学习算法进行评估。这篇博客只是对模型和模型调优作出说明，针对数据中的类失衡等等问题请看本人的其他博客文章。

> train <- createDataPartition(df$信用评级,p = .75,list = F)[,1] # 划分训练集
> df.train <- df[train,] # 训练集
> df.test <- df[-train,] # 测试集

逻辑回归

在这一部分中使用逻辑回归进行分类。对于逻辑回归算法的细节问题我们不做过多赘述！
在逻辑回归章节使用递归特征消除筛选除重要的变量，并使用筛选出的变量进行建模。

> categorical <- c(categorical[-c(1,length(categorical))],5) # 分类预测变量
> continous <- which(!(2:20) %in% categorical) + 1 # 数值预测变量
> temp <- predict(preProcess(df.train[,continous],method = c('center','scale')),
                newdata = df.train[,continous])
> df.train.lr <- temp # 汇总数值型变量
> for(i in categorical){
      df.train[,i] <- as.factor(df.train[,i]) # 分类变量因子化
      }

> df.train.lr <- cbind(df.train.lr,df.train[,categorical]) # 逻辑回归训练数据
> df.train.lr$信用评级 <- df.train$信用评级 # 逻辑回归训练数据
> temp <- predict(preProcess(df.test[,continous],method = c('center','scale')),
       newdata = df.test[,continous])
> df.test.lr <- temp # 汇总数值型变量
> for(i in categorical){
      df.test[,i] <- as.factor(df.test[,i]) # 分类变量因子化
      }

> df.test.lr <- cbind(df.test.lr,df.test[,categorical]) # 逻辑回归测试集
> df.test.lr$信用评级 <- df.test$信用评级   # 逻辑回归测试集

所有特征

> lr.model.all <- glm(信用评级 ~ .,data = df.train.lr,
+                    family = 'binomial')
> summary(lr.model.all)

Call:
glm(formula = 信用评级 ~ ., family = "binomial", data = df.train.lr)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.4522  -0.6660   0.3577   0.6878   2.0332  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                             0.16698    0.88542   0.189 0.850420
贷款时间月数                           -0.61489    0.15149  -4.059 4.93e-05
贷款数量                               -0.05419    0.16798  -0.323 0.746983
年龄                                    0.18316    0.12101   1.514 0.130124
当前余额1.08116392499506                0.56532    0.25147   2.248 0.024572
当前余额2.28099401570546                1.80321    0.25389   7.102 1.23e-12
先前贷款的支付状态1.12483755899218      0.48818    0.35013   1.394 0.163223

以上截取了所有特征下逻辑回归的系数估计.
重抽样技术评估模型的性能

> levels(df.train.lr$信用评级) <- c('unsuccessful','successful') # 将'0','1'改为'unsuccessful','successful'
> set.seed(1024)
> ctrl <- trainControl(method = 'LGOCV',summaryFunction = twoClassSummary,
                     classProbs = T,index = list(TrainSet = train),savePredictions = TRUE)
> lr.Full <- train(df.train.lr[,-20],
                 y = df.train.lr[,20],
                 method = 'glm',
                 metric = 'ROC',
                 trControl = ctrl)
> confusionMatrix(lr.Full,norm = 'none') # 混淆矩阵
Repeated Train/Test Splits Estimated (1 reps, 75%) Confusion Matrix 

(entries are un-normalized aggregated counts)
 
Confusion Matrix and Statistics

              Reference
Prediction     unsuccessful successful
  unsuccessful           24         26
  successful             31        107
                                          
               Accuracy : 0.6968          
                 95% CI : (0.6257, 0.7616)
    No Information Rate : 0.7074          
    P-Value [Acc > NIR] : 0.6591          
                                          
                  Kappa : 0.2475          
                                          
 Mcnemar's Test P-Value : 0.5962          
                                          
            Sensitivity : 0.4364          
            Specificity : 0.8045          
         Pos Pred Value : 0.4800          
         Neg Pred Value : 0.7754          
             Prevalence : 0.2926          
         Detection Rate : 0.1277          
   Detection Prevalence : 0.2660          
      Balanced Accuracy : 0.6204          
                                          
       'Positive' Class : unsuccessful

由于样本出现类失衡问题导致敏感度降低，对于类失衡问题我们有很多解决方法。

1.重新选择分类阈值
2.比如使用朴素贝叶斯分类器等，可以调整先验概率
3.采取以些特殊的抽样方法，比如向上抽样、向下抽样、SMOTE等等方法
4.成本敏感训练
这里就不对具体的解决类失衡问题的方法作出详细的解释。

特征选择

特征选择的原因：
1.在没有太多信息损失的情况下，去除多余或不相关的特征.
2.防止由于模型参数过多导致模型过拟合.
3.减少由于过多变量导致模型变化、模型系数估计不稳定.
4.减少模型的训练以及收敛时间.
5.通常情形下建立简单易解释的模型

## 递归特征选择筛选变量
> set.seed(1024)
> control <- rfeControl(functions = rfFuncs,method = 'cv',
+                       verbose = F,returnResamp = 'all',
+                       number = 20)
> result <- rfe(x = df.train.lr[,-1],y = df.train.lr[,1],
+               size = 1:10,rfeControl = control) # 选取相对10个重要的变量
> result

Recursive feature selection

Outer resampling method: Cross-Validated (20 fold) 

Resampling performance over subset size:

 Variables   RMSE Rsquared    MAE  RMSESD RsquaredSD   MAESD Selected
         1 0.8993   0.2696 0.7087 0.11786    0.11529 0.07681         
         2 0.7226   0.4956 0.5784 0.06215    0.08040 0.04630         
         3 0.7449   0.5129 0.6061 0.06976    0.09188 0.06090         
         4 0.7606   0.4885 0.6212 0.07010    0.09181 0.05870         
         5 0.7756   0.4755 0.6327 0.06670    0.09017 0.05449         
         6 0.7132   0.5044 0.5706 0.08148    0.11077 0.06248         
         7 0.7170   0.5029 0.5747 0.07690    0.10058 0.06086         
         8 0.7245   0.4951 0.5830 0.07453    0.09552 0.05898         
         9 0.7110   0.5065 0.5689 0.07990    0.10148 0.05778         
        10 0.7093   0.5124 0.5706 0.07660    0.09865 0.05322         
        19 0.7007   0.5330 0.5623 0.07131    0.09258 0.05360        *

The top 5 variables (out of 19):
   贷款数量, 每月用于偿还贷款的比例, 信用评级, 当前资产, 是否有手机
> head(result$optVariables,10)
> set.seed(1024)
> lr.Reduce <- train(df.train.lr[,head(result$optVariables,10)],
+                    y = df.train.lr[,20],
+                    method = 'glm',
+                    metric = 'ROC',
+                    control = list(maxit = 500),
+                    trControl = ctrl)

> lr.Reduce                   
  Generalized Linear Model 

750 samples
 10 predictor
  2 classes: 'unsuccessful', 'successful' 

No pre-processing
Resampling: Repeated Train/Test Splits Estimated (1 reps, 75%) 
Summary of sample sizes: 750 
Resampling results:

  ROC  Sens  Spec
  1    1     1   

                 
> confusionMatrix(lr.Reduce,norm = 'none')
Repeated Train/Test Splits Estimated (1 reps, 75%) Confusion Matrix 

(entries are un-normalized aggregated counts)
 
Confusion Matrix and Statistics

              Reference
Prediction     unsuccessful successful
  unsuccessful           26         21
  successful             29        112
                                          
               Accuracy : 0.734           
                 95% CI : (0.6648, 0.7957)
    No Information Rate : 0.7074          
    P-Value [Acc > NIR] : 0.2370          
                                          
                  Kappa : 0.3289          
                                          
 Mcnemar's Test P-Value : 0.3222          
                                          
            Sensitivity : 0.4727          
            Specificity : 0.8421          
         Pos Pred Value : 0.5532          
         Neg Pred Value : 0.7943          
             Prevalence : 0.2926          
         Detection Rate : 0.1383          
   Detection Prevalence : 0.2500          
      Balanced Accuracy : 0.6574          
                                          
       'Positive' Class : unsuccessful

glmnet

简单介绍惩罚模型：通常情形下当预测变量的数目很多时使用惩罚来提高对数据的拟合程度，对于逻辑回归我们可以添加一个惩罚项，通过极大似然估计求解参数：
$LogL(p)-\lambda\sum_{i=1}^{p}\beta_i^2$
这种惩罚与lasso与ridge类似，极大地稳定了回归模型的系数解。
另一种加入正则化地方法SCAD惩罚，其惩罚函数为： $p_{\lambda}(x)= \begin{cases} \lambda|x|, & \text {if $|x| <\lambda,$ } \\ \frac{(a^2-1)\lambda^2-(|x|-a\lambda)^2}{2(a-1)}, & \text{if $\lambda <|x|\leq a\lambda,$ } \\ \frac{1}{2}(a+1)\lambda^2, & \text{if $|x|>\lambda,$ } \end{cases}$
根据范剑青老师论文中的说明：a=3.7,对于调节参数 $\lambda$ 的选择根据重抽样方法决定。
最后介绍glmnet模型：类似于SCAD同时使用了L1与L2，惩罚函数的形式为：
$LogL(p)-\lambda[(1-\alpha)\frac{1}{2}\sum_{j=1}^{p}\beta_{j}^{2}+\alpha\sum_{j=1}^{p}|\beta_{j}|]$ 调优参数： $\alpha$控制L1与L2的混合比例, $\lambda$ 控制惩罚的总体比重。

手动实现glmnet的MCMC交叉验证

由于caret中的train函数报错，这里手动实现glmnet的MCMC交叉验证。
这里手动暴力实现了glmnet的MCMC交叉验证,MCMC.glmnet函数实现了MCMC的交叉验证。

> df.train[,1] <- factor(as.character(df.train[,1]),levels = rev(levels(df.train[,1])))
> levels(df.train[,1]) <- c('successful','unsuccessful')
> 
> df.test[,1] <- factor(as.character(df.test[,1]),levels = rev(levels(df.test[,1])))
> levels(df.test[,1]) <- c('successful','unsuccessful')
> 
> data1 <- rbind(df.train,df.test)
> 
> temp1 <- as.data.frame(model.matrix(~ +当前余额 + 先前贷款的支付状态 + 存款 + 工作时间 + 
+                          每月用于偿还贷款的比例 + 婚姻状态 + 
+                         是否有担保人 + 当前住址的居住时间 + 当前资产 + 
+                         是否还有其他贷款 + 住房类型 + 贷款的总项数 + 
+                         当前职业 + 家属人数 + 是否有手机 + 贷款目的-1,data1))
> data1 <- cbind(data1[,c(1,3,6,14)],temp1)

> MCMC.glmnet <- function(data,k = 25,p = .75,alpha.se){
+         A <- vector(mode = 'list',length = k)
+         lapply(1:k,function(x){
+                 A[[x]] <<- sample(1:nrow(data),size = round(nrow(data) * p),
+                               replace = T)})
+         P = lapply(A,function(x){
+           glmnetModel <- glmnet(x = as.matrix(data1[x,-1]),
+                       y = data1$信用评级[x],family = 'binomial',alpha = alpha.se,
+                       lambda = seq(.01,.2,length = 40))
+ 
+     pred <- predict(glmnetModel,newx = as.matrix(data1[-x,-1]),
+                       s = sort(glmnetModel$lambda),type = 'class')
+            
+     pred1 <- predict(glmnetModel,newx = as.matrix(data1[-x,-1]),
+                       s = sort(glmnetModel$lambda),type = 'response')
+     pred1 <- apply(pred1,2,as.numeric)
+ 
+     pred1[which(pred == 'unsuccessful')] <- 1 - pred1[which(pred == 'unsuccessful')]
+     p = x
+     p1 = apply(pred,2,function(x) {
+            temp = as.factor(x)
+            Sen = sensitivity(data = temp,reference = data1[-p,1],
+   positive = 'successful')
+            Spe = specificity(data = temp,reference = data1[-p,1],
+   negative = 'unsuccessful')
+            return(c(Sen,Spe))})
+     p2 <- apply(pred1,2,function(x){
+                 return(auc(roc(
+                           response = data1[-p,1],
+                           predictor = x,
+                           levels = rev(levels(data1[-p,1])))))})
+     rm(p)
+     temp <- rbind(p1,p2)
+     return(temp)                       })
+     P = as.data.frame(do.call('rbind',P))
+     P$class = rep(c('Sen','Spe','ROC'),k)
+     A = aggregate(P[colnames(P)[-ncol(P)]],by=list(Class=P$class),mean)
+     return(A) } # MCMC产生数据
> 
> P = MCMC.glmnet(data = data1,alpha.se = 1)

以上代码可以根据计算的ROC,Sen,Spe选择最优参数

> B <- vector(mode = 'list',length = 7)
> alpha = c(0,.1,.2,.4,.6,.8,1)
> for(i in 1:7){
   B[[i]] <- MCMC.glmnet(data1,alpha.se = alpha[i])   }

> lapply(1:7,function(x) {
          B[[x]] <<- t(B[[x]])[-1,]})


> B1 <- do.call('rbind',B)
> B1 <- as.data.frame(B1)
> B1[colnames(B1)] <- lapply(B1[colnames(B1)],as.numeric)
> colnames(B1) <- c('ROC','Sen','Spe')
> B1$alpha <- rep(c(0,.1,.2,.4,.6,.8,1),each = 40)
> B1$lambda <- rep(seq(.01,.2,length = 40),times = 7)
> B1 <- B1[,c(4,5,3,2,1)]
> B1[order(-B1$Sen),]
      alpha     lambda       Spe          Sen       ROC
s1.2    0.2 0.01000000 0.8773780 0.4565402000 0.6906873
s1.1    0.1 0.01000000 0.8792204 0.4507720000 0.6917418
s1      0.0 0.01000000 0.8713582 0.4500569000 0.6823905
s2      0.0 0.01487179 0.8737397 0.4440072000 0.6889882
s1.3    0.4 0.01000000 0.8774883 0.4437838000 0.6887070
s2.2    0.2 0.01487179 0.8826193 0.4431183000 0.7001430
s2.1    0.1 0.01487179 0.8846952 0.4405946000 0.6997022
s3      0.0 0.01974359 0.8764096 0.4342729000 0.6941954
s1.4    0.6 0.01000000 0.8827725 0.4335121000 0.7030060

对于glmnet模型选取 $\alpha = 0.2,\lambda=.01$ 作为最优模型进行训练。比较逻辑回归与惩罚逻辑回归的ROC曲线。

> df.train <- cbind(df.train[,c(1,3,6,14)],temp1)
> 
> glmnetModel <- glmnet(x = as.matrix(df.train[,-1]),
+                       y = df.train$信用评级,family = 'binomial',alpha = .2,
+                       lambda = .01)
> 
> pred1 <- predict(glmnetModel,newx = as.matrix(df.train[,-1]),
+                             s = .01,type = 'response') # 感兴趣的类为successful
> 
> pred1[which(pred == 'unsuccessful')] <- 1 - pred1[which(pred == 'unsuccessful')]
> 
> 
> Fullroc <- roc(response = lr.Full$pred$obs,
+                predictor = lr.Full$pred$successful
+                )
Setting levels: control = unsuccessful, case = successful
Setting direction: controls < cases
> Reduceroc <- roc(response = lr.Reduce$pred$obs,
+                  predictor = lr.Reduce$pred$successful,
+                  levels = rev(levels(lr.Reduce$pred$obs)))
Setting direction: controls < cases
> Glmnetroc <- roc(response = as.character(df.train[,1]),
+                  predictor = pred1[,1],
+                  levels = rev(levels(df.train[,1])))
Setting direction: controls > cases
> 
> plot(Fullroc, type = "s", col = 'grey', legacy.axes = TRUE)
> plot(Reduceroc, add = TRUE, type = "s", legacy.axes = TRUE,col = 'black')
> plot(Glmnetroc,add = T,type = 's',legacy.axes = R,col = '#DFC27D')
> legend('bottomright',legend = c('lr.Full','lr.Reduce','Glmnet'),
+        col = c('grey','black','#DFC27D'),lwd = 1)

svm

> library(e1071)
> library(caret)
> library(kernlab)
> library(pROC)

> ctrl <- trainControl(method = 'repeatedcv',number = 10,repeats = 2,
+                     classProbs = TRUE,summaryFunction = twoClassSummary)

> df.train[,1] <- factor(as.character(df.train[,1]),
+                       levels = c('1','2'),labels = +c('unsuccessful','successful'))
> levels(df.train[,1]) <- rev(levels(df.train[,1]))

> Sigma = sigest(as.matrix(df.train[,-1]))
> svmGrid = expand.grid(.sigma = Sigma[1],
+                     .C = 2^(seq(-4,4)))
> set.seed(1234)
> svmTune <- train(df.train[,-1],
+                 y = df.train[,1],
+                 method = 'svmRadial',
+                 tuneGrid = svmGrid,
+                 metric = 'ROC',
+                 trControl = ctrl) 
> save(svmTune,file = 'svmTune.RData')
> svmroc <- roc(response = df.test[,1],
+               predictor = prob$successful,
+               levels = rev(levels(df.test[,1])))
Setting direction: controls < cases
> 
> plot(svmroc,legacy.axes = T)

总结

由于时间的原因，所使用的机器学习算法只涉及到了逻辑回归，glmnet,svm,其他的模型包括模型集成、bagging、随机森林、神经网络、模型平均、boosting等等算法在此案例的第二篇博客详细介绍。

介于本人水平有限，博客中出现错误欢迎大家批评指正，您的批评是我继续创作的动力。

你可能感兴趣的:(机器学习,数据科学,机器学习,r语言,glmnet,客户信用风险预测,逻辑回归,svm)

新闻传播的未来：新媒体时代下的新闻传播趋势预测？巴中尧哥
随着新媒体的发展和普及，新闻传播方式和媒体生态正在发生深刻变革。未来的新闻传播将呈现出一系列新的趋势和特点。本文将探讨新媒体时代下的新闻传播趋势，并进行预测。首先，新媒体时代下的新闻传播将更加多元化和平衡。随着新媒体的发展和普及，新闻传播的渠道和形式将会更加多样化，包括社交媒体、移动应用、短视频等，这将使得新闻传播更加平衡和多元化。另外，新媒体还将推动新闻报道的深度和广度，使得新闻报道更加全面和客
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
数据库管理-第316期 Oracle DB 23.8新特性一览（20250417）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理316期2025-04-17数据库管理-第316期OracleDB23.8新特性一览（20250417）1客户端完整支持稀疏向量2DBMS_HYBRID_VECTOR.GET_SQL函数3PL/SQL函数的动态统计信息4非ADB-S部署中的弹性向量内存管理5DBMS_HYBRID_VECTOR支持FILTER_BY6JSON类型定义功能增强：数据大小和数组规范7JSON到二元性迁移：提示
【可信数据空间】 flyair_China 安全
分阶段设计可信数据空间（TrustedDataSpace,TDS）方案，覆盖数据处理、存储、加密及AI工作流全生命周期。一、预备阶段（Preliminary）目标：定义数据空间治理框架组织对齐设立TDS治理委员会（含安全官、数据科学家、合规专家），制定《可信数据共享宪章》：数据主权原则：所有权、使用权、存储权分离（GDPR/CCPA合规）最小授权机制：基于用途的访问控制（Purpose-based
一比一高仿服装货源，3分钟讲解攻略及经验大全天坛众
一比一高仿服装货源是指服装零售商、批发商或电商平台从供应商处采购的商品来源。获取优质、价格合理的服装货源对于服装业界的商家来说至关重要，因为这直接关系到他们的销售利润和客户满意度。一比一高仿服装货源的主要渠道包括：1.**品牌制造商**：一些大型批发商或零售商可能会直接从服装品牌的制造商或总公司采购商品，以确保商品质量和供应的稳定性。2.**批发市场**：世界各地有许多著名的服装批发市场，如中国的
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
Axios泛型参数解析与使用指南编程随想▿ TypeScript TS axios 前端 web 开发语言
目录一、Axios泛型参数的核心价值二、基本用法解析1.响应数据泛型参数2.POST请求中的泛型应用三、高级泛型参数配置1.自定义响应结构2.完整AxiosResponse泛型3.错误处理泛型四、实战应用示例1.封装带泛型的API客户端2.带分页的泛型响应处理五、最佳实践与注意事项六、总结一、Axios泛型参数的核心价值Axios的泛型参数允许我们为HTTP响应数据指定类型，使TypeScript
移动网络http请求不到数据，wifi下可以添码星空 Android开发 HTTP 网络连接
今天客户反馈手机登录不上去，用wifi可以，但是切换到移动网络就不行。查找相关文档发现由于AndroidP(版本27以上)限制了明文流量的网络请求，非加密的流量请求都会被系统禁止掉。所以如果当前应用的请求是htttp请求，而非https,这样就会导系统禁止当前应用进行该请求。请看下面的官方说法：Android致力于保护用户们的设备和数据安全。我们保证数据安全的方法之一是保护所有进入或离开Andro
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI推演人类进化：计算人类学与基因仿真的融合革命
AI推演人类进化：计算人类学与基因仿真的融合革命引言：数字达尔文主义的新纪元“进化不是直线，而是亿万次迭代的多元宇宙”——李·克罗宁（计算化学家）当AlphaFold解开蛋白质折叠之谜，AI开始重构生命演化的底层逻辑。本文通过多智能体仿真、古基因组重建与文化演化建模三大技术支柱，揭示AI如何推演人类从南方古猿到智人的百万年征程，并预测未来千年的进化轨迹。一、进化动力学的基础模型1.1扩展的哈迪-温
IO多路复用 04aaaze 服务器运维
一.构建tcp并发服务器单循环服务器：服务器同一时刻只能响应一个客户端的请求并发服务器：服务器在同一时刻可以响应多个客户端的请求构建TCP并发服务器：让TCP服务端具备同时响应多个客户端的能力。1.多进程资源消耗大，同资源平台下，并发量小。2.多线程创建线程、进程，比较耗时3.线程池提前预创建大量线程，避免任务执行过程中创建线程的耗时4.IO多路复用在不创建新的进程和线程的前提下，可以在一个进程中
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
借助 Amazon SageMaker Catalog 功能，简化从数据到洞察的路径
在数据驱动的时代，企业常陷于数据孤岛、特征重复开发、模型溯源困难等困境。AmazonSageMakerCatalog应运而生，作为统一的数据和特征治理中心，它能打通从原始数据到模型部署的全链路，显著加速数据科学项目落地。一、痛点：数据科学项目中的常见瓶颈数据发现困难：数据分散在S3、Redshift等不同存储中，缺乏统一视图特征管理混乱：特征工程脚本散落各处，无法复用和共享模型溯源缺失：无法追踪模
使用 Amazon RDS Proxy 提升应用程序可用性
AmazonRDSProxy的最大优势，在于显著缩短数据库故障转移之后的应用程序恢复时间。RDSProxy能够同时支持MySQL与PostgreSQL引擎，但在本文中，我们将单纯使用MySQL测试工作负载向大家展示RDSProxy如何在故障转移之后，将AmazonAuroraMySQL客户端的恢复时间缩短达79%，并将AmazonRDSforMySQL的故障恢复时间缩短达32%。本文还将阐述RDS
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
适合男人长期做的行业高省飞智导师
在许多家庭中，男孩通常会承担一些家务活，以分担家庭负担并赚取一些额外的收入。以下是一些男孩可以从事的挣钱比较快的家务活：1.洗车和打蜡：男孩可以提供洗车和打蜡服务，这是一个简单而挣钱的家务活。这项服务可以通过社交媒体和邻里宣传来获得客户。在洗车和打蜡时，使用正确的工具和技巧，可以提高效率和质量，从而吸引更多的客户。2.园艺工作：男孩可以提供园艺服务，包括修剪草坪、种植花草和树木等。这项工作不仅可以
Python 网络编程从入门到精通：架构、协议与 Socket 实现
Python网络编程从入门到精通：架构、协议与Socket实现网络编程是现代软件开发的核心技术之一，它允许不同设备上的程序通过网络进行通信和数据交换。本文将深入探讨网络编程的基础知识，包括软件架构设计模式、网络通信三要素、TCP与UDP协议的特点，以及Python中Socket编程的实现方法。一、软件架构设计模式1.C/S架构（Client/Server）C/S架构是最经典的网络应用架构，由客户端
适配器模式 (Adapter Pattern) 步行cgn JavaWeb 适配器模式 java 开发语言
适配器模式(AdapterPattern)适配器模式是一种结构型设计模式，用于解决两个不兼容接口之间的兼容性问题，充当两个不同接口之间的桥梁。核心思想转换接口：将一个类的接口转换成客户端期望的另一个接口，使原本不兼容的类能够协同工作。模式结构组件说明Target客户端期望的目标接口Adaptee需要被适配的已存在类（不兼容的类）Adapter适配器类，实现Target接口并包装Adaptee对象C
周周见2018年46周-人不能太忙青梅煮酒2022
随着年龄的增长，精力明显不如从前。中午我要眯一小会，晚上加班到10点，就睡意袭人。而这些时候如果强打精神继续工作，效率就会低下，出错的概率也会比较高。通常我的做法就是，放下工作，先休息一会。下半年公司业务繁忙，客户也是项目建设的工作积压在下半年开展。于是我们到处赶场，没有片刻的安宁可以静下心来整理与复盘阶段性的工作。不少工作做的很粗糙，总想着腾出空来在进行整理。目前采取《稀缺》中提到的一个做法，预
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
甘肃省天水市13家亲子鉴定中心大全(附2024年9月汇总鉴定) 鼎律基因刘主任
宗旨：在提高亲子鉴定咨询结果的准确性和真实性，为每一位受检客户得到一个公平、公证、真实、可靠的咨询结果，长期关注国内亲子鉴定师编写论文，从而确保提供实时亲子鉴定解答，是我们作为一家有责任心企业的标准的原则。实验室实力：配备了多套高端实验设备，包括美国AB公司3500XL遗传分析仪、9700金座PCR扩增仪、普洛麦格公司超精确检测系统PP21+PPY23，准确度高达99.9999%超高精确试剂盒等，
美团外卖红包如何每日免费领取,看这里就行测评君高省
在美团外卖中我们通过领到一些红包的方法购买到比较便宜的产品，红包怎么领坚信针对新客户也还是不会操作的，实际上只需寻找美团卡券就能领红包了。美团红包怎么领：方法一：1、首先打开美团，点击右下角“我的”2、接着点开上面的“红包卡券”3、再点击其中的“免费领券”4、进入后，如果有可用的红包就可以点击抢了。5、抢到后，在红包卡券中点击“立即使用”就可以了。方法二：1、打开手机应用商店搜索“高省”下载【高省
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
常用的Modbus、Profibus、EtherCAT和OPC UA协议介绍 qq_25467441 网络
常用的Modbus、Profibus、EtherCAT和OPCUA协议介绍_opc协议和modbus协议-CSDN博客1、Modbus协议协议概述：Modbus是一个串行通信协议，用于连接工业设备。它是一种请求/响应协议，使用客户端/服务器模型。主要分Modbus-RTU、Modbus-ASCII、Modbus-TCP。传输方式：可以通过RTU（远程终端单元）或ASCII（美国标准信息交换码）方式
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号