qq_16365849

大数据项目2：内存受限的大数据预测模型

一、项目简介：回归树用于分类预测

1、项目集数据介绍

使用randomForest包和party包来创建随机森林的区别：randomForest包无法处理包含缺失值或者拥有超过32个等级水平的分类变量。

本例子是在内存受限的情况下简历一个预测模型。由于训练集太大而不能直接通过R构建决策树，所以需要先从训练集中通过随机抽样的方式抽取多个子集，并分别对每一个子集构建决策树，只选取决策树中存在的所有变量，以便缩减训练集的规模。在评分时，得分的集合同样被划分为多个子集，以便在内存受限的条件下成功运行。

数据简介 KDD Cup 1998年竞赛的目标是估计一个直邮的回复量，以便获得最多的捐款。数据集的格式是以逗号作为分隔符，其中学习数据集”cup98lrn.txt”包含了95412条记录，481个字段，验证数据集“cup98val.txt”包含了96367条记录，479个字段。每条记录都包含一个CONTROLN字段，该字段是记录的唯一标识符；有两个目标变量TARGET_B和TARGET_D，TARGET_B是一个二进制变量，表示当一条记录中的TARGET_D变量中有捐款时，该条记录是否对邮件做了回复。学习数据集和验证数据集的数据格式相同，但是在验证数据集中没有包含TARGET_B和TARGET_D这两个变量。

2、研究方法

本例的数据分为两类：目标客户和非目标客户，分别为1和0，与客户的风险模型相似。本例仍然使用决策树技术，因为对于商人和管理者来说，决策树更易于理解，规则也更简单。与SVM或神经网络相比，决策树应用到业务上更容易被接受和执行。决策树还支持分类变量和数值变量的混合数据类型，同时还可以处理缺失值。特别地，party包中提供了函数ctree()来构建决策树。在大数据上训练模型需要花费很长时间，特别是对于分类变量含有多个水平值的情况。一种方法是使用一个小样本来训练模型。这里我们使用另一种方法：它能够使用尽可能多的数据进行训练。首先，从训练数据中抽取20个随机样本集，并分别对每一个样本集创建一棵决策树，每一棵树中含大约20-30个变量，其中有多棵决策树包含了相同的变量。然后，收集包含在决策树中的所有变量，大约60个。接着使用原始数据中的这60个变量的数据进行训练。这样的方法可以将所有的训练实例都用于最后模型的训练，而不仅仅是抽样数据的20棵决策树中的变量。

二、项目过程

1、加载数据并查看

#1）加载数据
cup98 <- read.csv("F:\\R\\Rworkspace\\cup98lrn/cup98lrn.txt")
dim(cup98)

## [1] 95412   481

n.missing <- rowSums(is.na(cup98))
sum(n.missing > 0)  #计算存在NA值的行数

## [1] 95412

#2）选择变量
varSet <- c(
 #demographics
 "ODATEDW", "OSOURCE", "STATE", "ZIP", "PVASTATE", "DOB", "RECINHSE", "MDMAUD",
 "DOMAIN", "CLUSTER", "AGE", "HOMEOWNR", "CHILD03", "CHILD07", "CHILD12", "CHILD18",
 "NUMCHLD", "INCOME", "GENDER", "WEALTH1", "HIT",
 #donor interests
 "COLLECT1", "VETERANS", "BIBLE", "CATLG", "HOMEE", "PETS", "CDPLAY", "STEREO",
 "PCOWNERS", "PHOTO", "CRAFTS", "FISHER", "GARDENIN", "BOATS", "WALKER", "KIDSTUFF",
 "CARDS", "PLATES", "PEPSTRFL",
 #summary variables of promotion history
 "CARDPROM", "MAXADATE", "NUMPROM", "CARDPM12", "NUMPRM12",
 #summary variables of giving history
 "RAMNTALL", "NGIFTALL", "CARDGIFT", "MINRAMNT", "MAXRAMNT", "LASTGIFT", "LASTDATE",
 "FISTDATE", "TIMELAG", "AVGGIFT",
 #ID & targets
 "CONTROLN", "TARGET_B", "TARGET_D", "HPHONE_D", 
 #RFA
 "RFA_2F", "RFA_2A", "MDMAUD_R", "MDMAUD_F", "MDMAUD_A",
 #OTHERS
 "CLUSTER2", "GEOCODE2")

#删除Id和TARGET_D属性
vars <- setdiff(varSet, c("CONTROLN", "TARGET_D"))
cup98 <- cup98[, vars]
dim(cup98)

## [1] 95412    64

2、使用随机森林创建模型

查看缺失值以及分类变量等级超过10 的数据

library(randomForest)

## randomForest 4.6-12

## Type rfNews() to see new features/changes/bug fixes.

#model <- randomForest(TARGET_B~., data=cup98)
#此时会报：存在缺失值

#1）检测缺失值
n.missing <- rowSums(is.na(cup98))
(tab.missing <- table(n.missing))

## n.missing
##     0     1     2     3     4     5     6     7 
##  6782 36864 23841 13684 11716  2483    41     1

#查看没有确实值数据的比例
round(tab.missing["0"]/nrow(cup98), digits=2)

##    0 
## 0.07

#2）检查分类变量的等级大于10的属性
(idx.cat <- which(sapply(cup98, is.factor)))

##  OSOURCE    STATE      ZIP PVASTATE RECINHSE   MDMAUD   DOMAIN HOMEOWNR 
##        2        3        4        5        7        8        9       12 
##  CHILD03  CHILD07  CHILD12  CHILD18   GENDER COLLECT1 VETERANS    BIBLE 
##       13       14       15       16       19       22       23       24 
##    CATLG    HOMEE     PETS   CDPLAY   STEREO PCOWNERS    PHOTO   CRAFTS 
##       25       26       27       28       29       30       31       32 
##   FISHER GARDENIN    BOATS   WALKER KIDSTUFF    CARDS   PLATES PEPSTRFL 
##       33       34       35       36       37       38       39       40 
##   RFA_2A MDMAUD_R MDMAUD_F MDMAUD_A GEOCODE2 
##       59       60       61       62       64

all.levels <- sapply(names(idx.cat), function(x) nlevels(cup98[, x]))
(levels10 <- all.levels[all.levels > 10])

## OSOURCE   STATE     ZIP  MDMAUD  DOMAIN 
##     896      57   19938      28      17

#3)创建训练集和测试集数据：
ind <- sample(1:2, nrow(cup98), prob=c(80, 20), replace = T)
trainData <- cup98[ind==1, ]
testData <- cup98[ind==2, ]

#4)使用party包中的函数cforest()创建随机森林：内存受限而报错
library(party)

## Loading required package: grid

## Loading required package: mvtnorm

## Loading required package: modeltools

## Loading required package: stats4

## Loading required package: strucchange

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: sandwich

(time1 <- Sys.time())

## [1] "2016-02-16 11:54:18 CST"

#cf <- cforest(TARGET_B~., data=trainData, control=cforest_unbiased(mtry=2, ntree=50))
#错误: 无法分配大小为11.4 Gb的矢量
(time2 <- Sys.time())

## [1] "2016-02-16 11:54:18 CST"

(time2-time1)

## Time difference of 0.06253886 secs

#print(object.size(cf), units="Mb")
#注意：此处代码不能正确运行，回报内存溢出。因为ZIP有19938个分类等级，OSOURCE有896个分类等级。

#5）减少内存需要的一种方法是对有多个等级水平的分类变量进行分组或者删除。删除"ZIP", "OSOURCE"两个属性，并重新创建测试集和训练集数据
cup <- cup98[, setdiff(names(cup98), c("ZIP", "OSOURCE"))]
train <- cup[ind==1, ]
test <- cup[ind==2, ]

#建模
#(teme1 <- Sys.time())
#cf <- cforest(TARGET_B~., data=train, controls = cforest_unbiased(mtry=2, ntree=50))
#print(object.size(cf), units="Mb")
#(time2 <- Sys.time())
#(time2 - time1)

#预测
#myPrediction <- predict(cf, newdata=test)
#(time3 <- Sys.time())
#print(object.size(myPrediction), units="Mb")
#time3 -time2
#总结：10万条记录，62个字段，字段的最大等级水平为57个；80%的数据用于建模，耗时将近一个小时；20%的数据用于预测，耗时10多分钟。（删除"ZIP"19938, "OSOURCE896"两个属性的情况下）

3、解决内存受限问题

减少内存需求的一种方法是对含有多个等级水平的分类变量进行分组或者删除。确定哪些变量用于建模：为了找出哪些变量将用于建模，在本节中需要对创建决策树的过程重复10次。然后收集出现在所有决策树中的每一个变量，并将收集到的变量用于建立最终模型。

#1)创建训练集数据和测试集数据：将数据集划分为3个子集，训练数据集30%、测试数据集20%和其余的数据。划分出一小部分的数据是为了缩减训练数据和测试数据的规模，以便在内存受限的环境下成功的执行训练和测试。
library(party)
trainPercentage <- 30
testPercentage <- 20
restPercentage <- 100 - trainPercentage - testPercentage
(fileName <- paste("cup98-ctree", trainPercentage, testPercentage, sep="-"))

## [1] "cup98-ctree-30-20"

(vars <- setdiff(varSet, c("TARGET_D", "CONTROLN", "ZIP", "OSOURCE")))

##  [1] "ODATEDW"  "STATE"    "PVASTATE" "DOB"      "RECINHSE" "MDMAUD"  
##  [7] "DOMAIN"   "CLUSTER"  "AGE"      "HOMEOWNR" "CHILD03"  "CHILD07" 
## [13] "CHILD12"  "CHILD18"  "NUMCHLD"  "INCOME"   "GENDER"   "WEALTH1" 
## [19] "HIT"      "COLLECT1" "VETERANS" "BIBLE"    "CATLG"    "HOMEE"   
## [25] "PETS"     "CDPLAY"   "STEREO"   "PCOWNERS" "PHOTO"    "CRAFTS"  
## [31] "FISHER"   "GARDENIN" "BOATS"    "WALKER"   "KIDSTUFF" "CARDS"   
## [37] "PLATES"   "PEPSTRFL" "CARDPROM" "MAXADATE" "NUMPROM"  "CARDPM12"
## [43] "NUMPRM12" "RAMNTALL" "NGIFTALL" "CARDGIFT" "MINRAMNT" "MAXRAMNT"
## [49] "LASTGIFT" "LASTDATE" "FISTDATE" "TIMELAG"  "AVGGIFT"  "TARGET_B"
## [55] "HPHONE_D" "RFA_2F"   "RFA_2A"   "MDMAUD_R" "MDMAUD_F" "MDMAUD_A"
## [61] "CLUSTER2" "GEOCODE2"

ind <- sample(3, nrow(cup98), replace = T, prob=c(trainPercentage, testPercentage, restPercentage))
trainData <- cup98[ind==1, vars]
testData <- cup98[ind==2, vars]

#2)检查抽样后的训练集和测试集中的因变量，看其分布与原始数据中的分布时候一致，如果不一致，可是使用分层抽样
round(prop.table(table(cup98$TARGET_B)), digits = 3)

## 
##     0     1 
## 0.949 0.051

round(prop.table(table(trainData$TARGET_B)), digits = 3)

## 
##     0     1 
## 0.951 0.049

round(prop.table(table(testData$TARGET_B)), digits = 3)

## 
##    0    1 
## 0.95 0.05

#rm(cup98, ind)
gc()

##           used (Mb) gc trigger  (Mb) max used  (Mb)
## Ncells  578656 31.0     940480  50.3   750400  40.1
## Vcells 9117436 69.6   83217080 634.9 91593727 698.9

#3)创建决策树
myCtree <- NULL
startTime <- Sys.time()
myCtree <- ctree(TARGET_B~., data=trainData)
Sys.time() - startTime

## Time difference of 5.178561 secs

print(object.size(myCtree), units="Mb")

## 4.4 Mb

memory.size()

## [1] 417.92

pdf(paste("F:\\R\\Rworkspace\\", fileName, ".pdf", sep=""))
plot(myCtree, type="simple",  ip_args=list(pval=F), ep_args=list(digits=0), main=fileName)
graphics.off()

#4）创建10棵决策树：通过自定义的脚本创建
#source('F:/R/Rworkspace/ctreeN.R')
#ctreeN(10)
#大约耗时6分钟

4、使用已选变量建立模型

上面建立了10棵决策树之后，选取其中包含的所有变量来创建最后的模型。这一次所有的数据都用于学习，80%作为训练集和20%作为测试集。

#1）选择变量
vars.selected <- c("CARDS", "CARDGIFT", "CARDPM12", "CHILD12", "CLUSTER2", "DOMAIN", "GENDER", "GEOCODE2", "HIT", "HOMEOWNR", "INCOME", "LASTDATE", "MINRAMNT", "NGIFTALL", "PEPSTRFL", "RECINHSE", "RFA_2A", "RFA_2F", "STATE", "WALKER")

#2）创建训练集和测试集数据
trainPercentage <- 80
testPercentage <- 20
(fileName <- paste("cup98-ctree", trainPercentage, testPercentage, sep="-"))

## [1] "cup98-ctree-80-20"

vars <- c("TARGET_B", vars.selected)
ind <- sample(2, nrow(cup98), replace=T, prob=c(trainPercentage, testPercentage))
trainData <- cup98[ind==1, vars]
testData <- cup98[ind==2, vars]
round(100*prop.table(table(trainData$TARGET_B)), digits = 1)

## 
##  0  1 
## 95  5

round(100*prop.table(table(testData$TARGET_B)), digits = 1)

## 
##    0    1 
## 94.7  5.3

#3)建模
myCtree <- ctree(TARGET_B~., data=trainData)
print(object.size(myCtree), units="Mb")

## 43.6 Mb

memory.size()

## [1] 344.93

print(myCtree)

## 
##   Conditional inference tree with 23 terminal nodes
## 
## Response:  TARGET_B 
## Inputs:  CARDS, CARDGIFT, CARDPM12, CHILD12, CLUSTER2, DOMAIN, GENDER, GEOCODE2, HIT, HOMEOWNR, INCOME, LASTDATE, MINRAMNT, NGIFTALL, PEPSTRFL, RECINHSE, RFA_2A, RFA_2F, STATE, WALKER 
## Number of observations:  76081 
## 
## 1) RFA_2A == {D, E}; criterion = 1, statistic = 416.197
##   2) LASTDATE <= 9611; criterion = 1, statistic = 79.624
##     3) RFA_2F <= 2; criterion = 1, statistic = 69.366
##       4) INCOME <= 6; criterion = 0.997, statistic = 49.32
##         5)*  weights = 7159 
##       4) INCOME > 6
##         6)*  weights = 429 
##     3) RFA_2F > 2
##       7) WALKER == {Y}; criterion = 1, statistic = 58.471
##         8)*  weights = 1762 
##       7) WALKER == { }
##         9) CARDPM12 <= 4; criterion = 0.999, statistic = 55.405
##           10)*  weights = 1295 
##         9) CARDPM12 > 4
##           11) PEPSTRFL == {X}; criterion = 0.998, statistic = 37.816
##             12) LASTDATE <= 9512; criterion = 0.978, statistic = 37.025
##               13)*  weights = 3794 
##             12) LASTDATE > 9512
##               14)*  weights = 4693 
##           11) PEPSTRFL == { }
##             15)*  weights = 3310 
##   2) LASTDATE > 9611
##     16) RFA_2F <= 2; criterion = 0.962, statistic = 29.529
##       17)*  weights = 237 
##     16) RFA_2F > 2
##       18)*  weights = 363 
## 1) RFA_2A == {F, G}
##   19) PEPSTRFL == {X}; criterion = 1, statistic = 109.472
##     20) LASTDATE <= 9607; criterion = 1, statistic = 59.983
##       21) RFA_2F <= 1; criterion = 1, statistic = 55.059
##         22) MINRAMNT <= 13; criterion = 0.993, statistic = 37.24
##           23) INCOME <= 2; criterion = 0.964, statistic = 34.578
##             24)*  weights = 1929 
##           23) INCOME > 2
##             25)*  weights = 6252 
##         22) MINRAMNT > 13
##           26) RFA_2A == {F}; criterion = 0.999, statistic = 24.021
##             27)*  weights = 76 
##           26) RFA_2A == {G}
##             28)*  weights = 250 
##       21) RFA_2F > 1
##         29) GENDER == { , A, J}; criterion = 0.999, statistic = 54.434
##           30) GENDER == {A, J}; criterion = 0.994, statistic = 32.28
##             31)*  weights = 36 
##           30) GENDER == { }
##             32)*  weights = 316 
##         29) GENDER == {F, M, U}
##           33)*  weights = 8015 
##     20) LASTDATE > 9607
##       34) CARDPM12 <= 10; criterion = 1, statistic = 27.286
##         35)*  weights = 874 
##       34) CARDPM12 > 10
##         36)*  weights = 109 
##   19) PEPSTRFL == { }
##     37) CARDGIFT <= 3; criterion = 1, statistic = 90.392
##       38) CLUSTER2 <= 42; criterion = 1, statistic = 100.831
##         39) STATE == {AA, AE, AP, AZ, CA, CO, CT, HI, ID, ND, NE, OK, OR, PA, SC, SD, WY}; criterion = 0.985, statistic = 90.333
##           40)*  weights = 7563 
##         39) STATE == {AK, AL, AR, AS, DE, FL, GA, IA, IL, IN, KS, KY, LA, MA, MD, ME, MI, MN, MO, MS, MT, NC, NJ, NM, NV, NY, OH, RI, TN, TX, UT, VA, VI, VT, WA, WI}
##           41)*  weights = 12950 
##       38) CLUSTER2 > 42
##         42)*  weights = 9404 
##     37) CARDGIFT > 3
##       43) CLUSTER2 <= 20; criterion = 0.959, statistic = 46.778
##         44)*  weights = 2153 
##       43) CLUSTER2 > 20
##         45)*  weights = 3112

#4)将所有已建立的决策树保存为一个Rdata文件，并将决策树的图像保存到一个PDF文件中
save(myCtree, file=paste("F:\\R\\Rworkspace/项目/", fileName, ".rdata", sep=""))
#pdf(paste("F:\\R\\Rworkspace/项目/", ".pdf", sep=""),width=12, height=9, paper="a4r", pointsize=6)
#plot(myCtree, type="simple", ip_args=list(pval=F), ep_args=list(digits=0),main=fileName)
#plot(myCtree, terminal_panel=node_barplot(myCtree), ip_args=list(pval=F), ep_args=list(digits=0),main=fileName)
#graphics.off()

#5)预测并使用测试数据对决策树模型进行测试
myPrediction <- predict(myCtree, testData)
myPrediction <- predict(myCtree, testData, type="node")
str(myPrediction)

##  int [1:19331] 45 42 41 41 8 5 41 41 41 33 ...

(testResult <- table(myPrediction, testData$TARGET_B))

##             
## myPrediction    0    1
##           5  1778  108
##           6   103    8
##           8   399   38
##           10  262   43
##           13  911   73
##           14 1150  110
##           15  808   45
##           17   70    8
##           18   86    9
##           24  446   19
##           25 1504   68
##           27   17    2
##           28   54    5
##           31   10    0
##           32   47    5
##           33 1944  114
##           35  205   16
##           36   27    7
##           40 1827   84
##           41 3119  123
##           42 2241   75
##           44  505   26
##           45  798   34

(percentageOfOne <- round(100*testResult[, 2]/(testResult[, 1] + testResult[, 2]), digits=1))

##    5    6    8   10   13   14   15   17   18   24   25   27   28   31   32 
##  5.7  7.2  8.7 14.1  7.4  8.7  5.3 10.3  9.5  4.1  4.3 10.5  8.5  0.0  9.6 
##   33   35   36   40   41   42   44   45 
##  5.5  7.2 20.6  4.4  3.8  3.2  4.9  4.1

(testResult <- cbind(testResult, percentageOfOne))

##       0   1 percentageOfOne
## 5  1778 108             5.7
## 6   103   8             7.2
## 8   399  38             8.7
## 10  262  43            14.1
## 13  911  73             7.4
## 14 1150 110             8.7
## 15  808  45             5.3
## 17   70   8            10.3
## 18   86   9             9.5
## 24  446  19             4.1
## 25 1504  68             4.3
## 27   17   2            10.5
## 28   54   5             8.5
## 31   10   0             0.0
## 32   47   5             9.6
## 33 1944 114             5.5
## 35  205  16             7.2
## 36   27   7            20.6
## 40 1827  84             4.4
## 41 3119 123             3.8
## 42 2241  75             3.2
## 44  505  26             4.9
## 45  798  34             4.1

#绘制预测数据0/1的箱线图
boxplot(myPrediction~testData$TARGET_B, xlab="TARGET_B", ylab="Prediction", ylim=c(0, 0.25))

#模型评估
s1 <- sort(myPrediction, decreasing = T, method="quick", index.return=T)
testSize <- nrow(testData)
TotalNumOfTarget <- sum(testData$TARGET_B)
NumOfTarget <- rep(0, testSize)
NumOfTarget[1] <- (testData$TARGET_B)[s1$ix[1]]
for(i in 2:testSize) {
  NumOfTarget[i] <- NumOfTarget[i-1] + testData$TARGET_B[s1$ix[i]]
}
plot(1:testSize, NumOfTarget, pty=".", type="l", lty="solid", col="red", ylab="Count Of Responses in Top k", xlab="Top K", main=fileName)
grid(col="gray", lty="dotted")

percentile <- 100*(1:testSize)/testSize
percentileTarget <- 100*NumOfTarget/TotalNumOfTarget
plot(percentile, percentileTarget, pty=".", type="l", lty="solid", col="red", ylab="Percentage of Predicted Donations(%)", xlab="Percentage of Pool", main=fileName)
grid(col="gray", lty="dotted")

5、评分

当使用一棵较大的决策树对大数据评分是，将会出现内存溢出。为了减少内存消耗，将评分数据划分为多个子集，并对每一个子集分别使用预测模型，然后再将所有的评分结果进行融合。

#1)加载评分数据
cup98val <- read.csv("F:\\R\\Rworkspace\\cup98lrn/cup98val.txt")
cup98 <- read.csv("F:\\R\\Rworkspace\\cup98lrn/cup98lrn.txt")
library(party)
treeFileName <- "cup98-ctree-80-20"
splitNum <- 10

#2)设置评分数据的因子水平：把评分数据scoreData中的分类变量的等级水平设置和训练集数据trainData的一致
trainData <- cup98[, vars]
vars2 <- setdiff(c(vars, "CONTROLN"), "TARGET_B")

scoreData <- cup98val[, vars2]
#rm(cup98, cup98val)
trainNames <- names(trainData)
scoreNames <- names(scoreData)
newScoreData <- scoreData

variableList <- intersect(trainNames, scoreNames)

for(i in 1:length(variableList)) {
   varname <- variableList[i]
   trainLevels <- levels(trainData[, varname])
   scoreLevels <- levels(newScoreData[, varname])
   if(is.factor(trainData[, varname]) & setequal(trainLevels, scoreLevels)==F) {
    cat("Waring: new values found in score data, and they will be changed to NA!\n")
 cat(varname, "\n")
 cat("train:", length(trainLevels), ", ", trainLevels, "\n")
 cat("score:", length(scoreLevels), ", ", scoreLevels, "\n\n")
 newScoreData[, varname] <- factor(newScoreData[, varname], levels=trainLevels)
   }
}

## Waring: new values found in score data, and they will be changed to NA!
## GENDER 
## train: 7 ,    A C F J M U 
## score: 5 ,    F J M U 
## 
## Waring: new values found in score data, and they will be changed to NA!
## STATE 
## train: 57 ,  AA AE AK AL AP AR AS AZ CA CO CT DC DE FL GA GU HI IA ID IL IN KS KY LA MA MD ME MI MN MO MS MT NC ND NE NH NJ NM NV NY OH OK OR PA RI SC SD TN TX UT VA VI VT WA WI WV WY 
## score: 59 ,  AA AE AK AL AP AR AS AZ CA CO CT DC DE FL GA GU HI IA ID IL IN KS KY LA MA MD ME MI MN MO MS MT NC ND NE NH NJ NM NV NY OH OK OR PA PR PW RI SC SD TN TX UT VA VI VT WA WI WV WY

#3)加载决策树模型并查看其大小
load(paste("F:\\R\\Rworkspace/项目/", fileName, ".rdata", sep=""))
print(object.size(trainData), units="Mb")

## 8 Mb

print(object.size(scoreData), units="Mb")

## 8.1 Mb

print(object.size(newScoreData), units="Mb")

## 8.1 Mb

print(object.size(myCtree), units="Mb")

## 43.6 Mb

#回收内存
memory.size()

## [1] 1086.55

gc()

##             used  (Mb) gc trigger   (Mb)  max used   (Mb)
## Ncells    702415  37.6    1442291   77.1   1168576   62.5
## Vcells 113783508 868.1  172988376 1319.8 172951373 1319.6

#4）将预测（评分）数据划分为多个子集，并对每一个子集建立一棵决策树以便降低内存消耗
nScore <- dim(newScoreData)[1]
(splitSize <- round(nScore/splitNum))

## [1] 9637

myPred <- NULL
for(i in 1:splitNum) {
 startPos <- 1 + (i-1)*splitSize
 if(i==splitNum) { 
  endPos <- nScore
 }  else{
  endPos <- i*splitSize
 }
 print(paste("Predictions:", startPos, "-", endPos))
 tmpPred <- predict(myCtree, newdata=newScoreData[startPos:endPos, ])
 myPred <- c(myPred, tmpPred)
}

## [1] "Predictions: 1 - 9637"
## [1] "Predictions: 9638 - 19274"
## [1] "Predictions: 19275 - 28911"
## [1] "Predictions: 28912 - 38548"
## [1] "Predictions: 38549 - 48185"
## [1] "Predictions: 48186 - 57822"
## [1] "Predictions: 57823 - 67459"
## [1] "Predictions: 67460 - 77096"
## [1] "Predictions: 77097 - 86733"
## [1] "Predictions: 86734 - 96367"

#计算预测的数量及其所占的百分比
length(myPred)

## [1] 96367

(rankedLevels <- table(round(myPred, digits=4)))

## 
## 0.0262 0.0295   0.03 0.0402 0.0443 0.0467 0.0515  0.055 0.0553  0.056 
##  11904   2358  16415   3978   7848   9650   8997   4226  10208    311 
## 0.0595 0.0651 0.0665 0.0789  0.084 0.0862 0.0928 0.1061 0.1127 0.1928 
##   2628   4705    367   1138   6122    552    358   2172   1623    465 
## 0.1944 0.2105 0.2294 
##     68    133    141

#颠倒rankedLevels
rankedLevels <- rankedLevels[length(rankedLevels):1]
(levelNum <- length(rankedLevels))

## [1] 23

cumCnt <- rep(0, levelNum)
cumCnt[1] <- rankedLevels[1]
for(i in 2:levelNum) {
 cumCnt[i] <- cumCnt[i-1] + rankedLevels[i]
}

(cumPercent <- 100*cumCnt/nScore)

##  [1]   0.1463156   0.2843297   0.3548933   0.8374236   2.5216101
##  [6]   4.7754937   5.1469902   5.7198003  12.0725975  13.2534996
## [11]  13.6343354  18.5167122  21.2437868  21.5665114  32.1593492
## [16]  36.5446678  45.8808513  55.8946527  64.0385194  68.1664885
## [21]  85.2003279  87.6472236 100.0000000

cumPercent <- round(cumPercent,digits=1)
percent <- 100*rankedLevels/nScore
precent <- round(percent,digits=1)
cumRanking <- data.frame(rankedLevels,  cumCnt, percent, cumPercent)
names(cumRanking) <- c("Frequency", "CumFrequency", "Percentage", "CumPercentage")
print(cumRanking)

##        Frequency CumFrequency  Percentage CumPercentage
## 0.2294       141          141  0.14631565           0.1
## 0.2105       133          274  0.13801405           0.3
## 0.1944        68          342  0.07056357           0.4
## 0.1928       465          807  0.48253033           0.8
## 0.1127      1623         2430  1.68418650           2.5
## 0.1061      2172         4602  2.25388359           4.8
## 0.0928       358         4960  0.37149647           5.1
## 0.0862       552         5512  0.57281019           5.7
## 0.084       6122        11634  6.35279712          12.1
## 0.0789      1138        12772  1.18090218          13.3
## 0.0665       367        13139  0.38083576          13.6
## 0.0651      4705        17844  4.88237675          18.5
## 0.0595      2628        20472  2.72707462          21.2
## 0.056        311        20783  0.32272458          21.6
## 0.0553     10208        30991 10.59283780          32.2
## 0.055       4226        35217  4.38531863          36.5
## 0.0515      8997        44214  9.33618355          45.9
## 0.0467      9650        53864 10.01380141          55.9
## 0.0443      7848        61712  8.14386668          64.0
## 0.0402      3978        65690  4.12796912          68.2
## 0.03       16415        82105 17.03383938          85.2
## 0.0295      2358        84463  2.44689572          87.6
## 0.0262     11904        96367 12.35277637         100.0

#5)保存结果
#write.csv(cumRanking, "F:\\R\\Rworkspace/项目/cup98-cumulative-ranking.csv", row.names=T)
#pdf(paste("F:\\R\\Rworkspace/项目/cup98-score-distribution.pdf", sep=""))
#plot(rankedLevels, x=names(rankedLevels), type="h", xlab="Score", ylab="# of Customers")
#graphics.off()

#6)使用预测结果得分对客户进行排名，并将结果保存到一个.csv文件中
s1 <- sort(myPred, decreasing=T, method="quick", index.return=T)
varToOutput <-  c("CONTROLN")
score <- round(myPred[s1$ix], digits=4)
table(score, useNA="ifany")

## score
## 0.0262 0.0295   0.03 0.0402 0.0443 0.0467 0.0515  0.055 0.0553  0.056 
##  11904   2358  16415   3978   7848   9650   8997   4226  10208    311 
## 0.0595 0.0651 0.0665 0.0789  0.084 0.0862 0.0928 0.1061 0.1127 0.1928 
##   2628   4705    367   1138   6122    552    358   2172   1623    465 
## 0.1944 0.2105 0.2294 
##     68    133    141

result <- data.frame(cbind(newScoreData[s1$ix, varToOutput]), score)
names(result) <- c(varToOutput, "score")
#write.csv(result, "cup98-predicted-score.csv", row.names=F)

你可能感兴趣的:(大数据,机器学习,大数据集,回归树,party包)

python 支持向量机回归_深入浅出python机器学习---支持向量机SVM 笔记0114-2020 weixin_39864387 python 支持向量机回归
题前故事：小D最近也交了一个女朋友，但是这个女孩好像非常情绪化，喜怒无常，让小D捉摸不透，小D女朋友的情绪完全不是“线性可分”的，于是小D想到了SVM算法，也就是大名鼎鼎的一一支持向量机。支持向量机理解引入首先需要知道线性可分和线性不可分的概念我们提取样本特征是“是否有妹子”和“是否有好吃的”这两项的时候，能够很容易用图中的直线把男生的情绪分成“开心”和“不开心”两类，这种情况下我们说样本是线性可
大模型时代，为什么模型都是多少B？人工智能大模型llm
大模型时代，为什么模型都是多少B？前言在当今这个被大模型技术重塑的时代，无论是在科技新闻的报道中，还是专业技术论坛的讨论里，我们常常会看到诸如“某模型是70B”“13B模型表现出色”这样的表述。这里的“B”究竟代表着什么？为何模型规模要用这样的度量方式来呈现？它对于模型的性能、应用乃至整个大模型技术发展格局又有着怎样的意义？带着这些疑问，让我们一同深入探索大模型规模背后的奥秘。模型规模中的“B”是
解析：婚恋交友系统APP源码开发攻略,语音视频聊天功能实现步骤核心功能前端后端小程序数据库程序员
系统功能特点1.自定义小程序管理：本系统提供完整的后台管理功能，开发者可以根据自己的需求进行定制和修改，包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了，操作方便，大大降低了开发门槛。2.完整的安装代码包：本系统提供完整的安装代码包，包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置，即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能
ts学习笔记江小年 go 笔记
TypeScript本文引用枫枫知道不做商用，仅用于学习枫枫知道可以购买枫枫知道的课程安装node建议下载长期维护版安装之后把node加入环境变量命令行输入node-vnpm-vnpm就是node里面安装第三方包的工具，相当于pip安装tsc它的作用就是将ts文件编译为js文件//.ts=>.jsnpmitypescript-gtsc-vtsc--init//生成一个json文件tsc//会编译项
大模型——Spring Boot 整合 Spring AI 实现项目接入ChatGPT 不二人生大模型人工智能大模型
大模型——SpringBoot整合SpringAI实现项目接入ChatGPT随着人工智能技术的快速发展，越来越多的应用程序开始集成人工智能功能，以提供更智能、更个性化的体验。诸如ChatGPT等开放性大型语言模型的出现，使得自然语言处理和对话系统的开发变得更加容易和普及。这些技术已经在社交媒体、客户服务、教育等领域展现出巨大潜力，对于提升用户体验和提高工作效率至关重要。优势在之前，openai已经
MongoDB 集群模式简单了解黑风风网络运维 NoSQL mongodb 数据库
MongoDB集群模式简单了解在现代应用架构中，数据库的扩展性和高可用性至关重要，而MongoDB作为NoSQL数据库的佼佼者，提供了多种集群模式来应对不同场景的需求。这篇文章将深入探讨MongoDB的主要集群模式，并分析它们的适用场景和优缺点。1.MongoDB的三大集群模式MongoDB主要提供以下三种集群模式，每种模式都有其独特的应用场景和优势：副本集（ReplicaSet）——高可用性与数
配置文件对比工具 foolishboy_w 开发工具提效小工具服务器 json
配置文件对比工具文章目录配置文件对比工具Introdutiongit地址QuickStart1.下载源码，获取可执行的jar包2.执行jar包，对比文件3.执行结果说明Introdutionconfig-compare是一个小工具，你可以使用它来对比配置文件。目前支持的配置文件格式有yaml、yml、properties以及json，甚至你可以对比两个类型不同的文件，比如yml和json。git地
大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！大模型入门教程语言模型 llama 人工智能 DeepSeek prompt AI大模型大模型
近年来，大语言模型（LLMs）如GPT、LLaMA、BERT等已经成为人工智能领域的核心驱动力。然而，如何高效地运行和优化这些模型，成为了开发者和研究者面临的重要挑战。为此，一系列专为大语言模型设计的引擎应运而生。本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅
Python发布自定义模块和包到PyPI 大数据张老师 Python程序设计 python java 服务器
Python拥有一个庞大的第三方库生态系统，其中大部分包都托管在PythonPackageIndex（PyPI）上。PyPI（https://pypi.org/）是Python官方的软件包仓库，开发者可以在这里发布、管理和共享Python模块，使其他人能够直接使用pipinstall命令安装和使用你的代码。本节将详细介绍如何创建并发布一个自定义Python模块到PyPI，包括打包、上传和管理的全过
使用JAVA上抓取Socket服务端和客户端通信TCP数据包螺旋大西瓜 JAVA java tcpip
使用Java抓取Socket通信TCP数据包使用WireShark默认使用的是winpcap去抓本地环回的数据包，需要安装npcap再在Wireshark选择本地环回的网卡抓包在Java-Socket中，在本地Socket不使用127网段无法与服务端进行通信。但是常用的Jcap和Pcap4j都是依据libpcap/winpcap实现的。但是这俩又抓不到本地127网段的数据包。所以选择在局域网中使用
数据分析面试全攻略：业务分析能力篇代码CC 数据分析（包括各种面试题）面试数据分析面试 python sql
前言：业务分析能力考察重点在数据分析岗位面试中，业务分析能力是区分初级与中高级候选人的核心要素。本篇将从指标设计、异常分析、用户增长三大模块，解析业务分析能力提升路径。一、指标设计：用数据定义业务价值1.1用户留存分析体系留存率计算模型定义公式：次日留存率=第2天活跃用户数/首日新增用户数×100%7日留存率=第8天活跃用户数/首日新增用户数×100%SQL计算模板：WITHfirst_login
基于文本特征的微博谣言检测机器懒得学习人工智能大数据图像处理计算机视觉
随着社交媒体的普及，微博等平台成为了信息传播的重要渠道。然而，虚假信息和谣言的传播也带来了严重的社会问题。因此，自动化的谣言检测技术变得尤为重要。本文将介绍如何基于文本特征，使用深度学习模型（如LSTM、CNN）和传统机器学习模型（如SVM）来实现微博谣言检测，并对这些模型的性能进行比较。完整项目地址：基于文本特征的微博谣言检测1.项目概述本项目旨在通过分析微博文本内容，自动检测其中的谣言。系统通
快瞳通用文档解析技术是怎样赋能下游各类大语言模型任务？深圳市快瞳科技有限公司语言模型 easyui 人工智能
、为什么不直接用大模型去解析文档？在文档、票据结构化识别这个赛道上，大语言模型存在天然的局限性：1.结构化数据生成效率低大模型在处理表格、公式等结构化内容时，需消耗大量计算资源，生成速度慢且成本高昂。例如，生成复杂表格可能导致响应延迟或格式错误。2.幻觉与准确性不足大模型可能虚据（如编造表格内容）或偏离文档原意，尤其在处理专业领域文档时，缺乏对上下文和实体关系的精准把控。3.格式兼容性差大模型难以
基于机器学习的恶意软件检测系统的详细设计与实现源码空间站11 机器学习人工智能课程设计 python 网络安全信息安全恶意软件检测
以下是一个基于机器学习的恶意软件检测系统的详细设计与实现，适合作为课程作业或项目开发。我们将实现一个通过机器学习模型分析恶意软件特征来检测文件是否为恶意软件的系统。总体思路数据准备：选择现有的恶意软件数据集（如Kaggle的恶意软件数据集）或构造模拟数据集。数据集中包含文件的特征（如二进制特征、字符串特征、API调用特征等）和标签（"恶意"或"正常"）。特征提取：提取文件的静态特征（如文件大小、字
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
反内卷，大疆强制21点下班；网易数智回应“关闭公有云”传闻；ChatGPT成为全球职场最受欢迎AI工具 | 极客头条极客日报 chatgpt 人工智能
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！反内卷，消息称大疆开始实施的“强制9点下班”政策网易数智回应“关闭公有云”传闻：公司业务正常运营，蜂巢只是其中一个模块国家超算互联网平台QwQ-32BAPI接口服务上线，免费提供100万Tokens西湖大学
信息安全基石：深入解析CIA三元组（机密性、完整性、可用性）挣扎与觉醒中的技术人网络安全入门及实战人工智能外包转型网络
1.什么是CIA三元组？**CIA三元组（CIATriad）**是信息安全领域的核心模型，定义了信息保护的三大核心目标：Confidentiality（机密性）Integrity（完整性）Availability（可用性）该模型被广泛应用于网络安全架构设计、风险评估和合规性建设中（如ISO27001、GDPR等）。2.核心要素详解2.1机密性（Confidentiality）定义：确保信息仅被授权
高速PCB设计(布线设计) 四代目水门高速PCB设计学习笔记 fpga开发嵌入式硬件 pcb工艺
以下是针对高速PCB布线设计的综合笔记，结合用户提供的设计规范及行业通用原则整理而成：一、关键信号布线原则布线优先级顺序：射频信号＞中/低频信号＞时钟信号＞高速信号射频信号需包地处理，线宽≥8mil且满足阻抗要求，禁止无关信号穿越射频区域阻抗控制优先选择地平面作为参考层，线宽/间距按工艺计算结果严格控制5G以上高速信号需在过孔处增加回流地孔拓扑结构DDR2以下用T型拓扑，DDR3以上建议菊花链拓扑
【DuodooTEKr】Odoo 18设备管理双剑客：Maintenance设备模块与IOT模块的深度解析与实践邹工转型手札 Duodoo开源 Odoo18开源风吟九宵人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月9日作为拥有16年制造业信息化实战经验的从业者，我见证过企业从传统设备管理向数字化转型的全过程。在Odoo生态中，设备模块（Maintenance）与IOT模块（InternetofThings）堪称制造业数字化的"任督二脉"。本文将通过三组对比、四维差异、六大场景带您掌握这两个核心模块的应用精髓。一、模块定位的"一体两面"（1）设备模块
快速入门Anthropic Chat模型的使用 wad485486aw python 开发语言
在这篇文章中，我们将深入探讨如何开始使用Anthropic的Chat模型。你将学习如何通过AWSBedrock和GoogleVertexAI来访问这些模型。此外，我们还将介绍如何安装和使用langchain-anthropic包来集成Anthropic的聊天功能。技术背景介绍Anthropic提供了一系列强大的聊天模型，这些模型可以通过不同的平台访问，如AWSBedrock和GoogleVerte
AI Agent: AI的下一个风口从图形用户界面到自然语言的进化 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口从图形用户界面到自然语言的进化文章目录AIAgent:AI的下一个风口从图形用户界面到自然语言的进化1.背景介绍1.1人机交互的演变历程1.1.1命令行界面时代1.1.2图形用户界面时代1.1.3自然语言交互的兴起1.2AI技术的发展现状1.2.1机器学习和深度学习的突破1.2.2自然语言处理技术的进步1.2.3知识图谱和语义理解的发展1.3AIAgent的概念与意
数据集与云计算：云端数据集的管理与应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的数据挑战步入21世纪，我们见证了信息技术的爆炸式增长，数据以前所未有的速度产生、存储和使用。从社交媒体互动到科学研究，从电子商务交易到物联网传感器，各行各业都被海量数据所淹没。这种数据爆炸式增长带来了前所未有的机遇和挑战。1.1.1机遇：数据驱动型决策数据的激增为企业和组织提供了前所未有的洞察力。通过分析和理解这些数据，我们可以识别趋势、预测未来行为并做出更明智的决策
详解HTTP：HTTP基本介绍青衫一笔墨网络相关 http 网络协议网络
什么是Http？Http是一种超文本传输协议（HyperTextTransferProtocol），是客户端与服务器端传输数据的一种协议；（通俗来说，大家约定好数据应该怎么传输，定一套传输规则）超文本超文本其实是指我们通过客户端在请求服务器时，请求的数据包，但这个数据包有些特殊，它是可以包含文本，图片，视频等混合数据包；传输传输其实就是指我们通过客户端将数据发送给服务端的过程；（例如：我们通过浏览
linux/shell find命令模糊查询多个文件青衫一笔墨 Linux/Shell相关 shell linux
find查找文件.表示当前目录typef查询文件（-typed查询目录）name文件名*代表全部|管道符将左边的查询结果集放到右边xargs通俗讲：将一大段参数（参数列表）分成小段ls查询当前目录下内容#查询出当前路径下以.txt和.sh结尾的全部文件find.-typef-name"*.txt"-o-name"*.sh"|xargsls
Springboot中使用@Async注解7大失效场景及解决方案江-小北 Java面试题 spring boot 数据库 java
前言在SpringBoot中，@Async注解就像一把瑞士军刀，能帮你轻松处理那些耗时的任务，让主线程可以继续忙别的事儿。不过，跟所有强大的工具一样，用不好它也可能出岔子。有时候，你可能因为线程池没配好、异常没处理好，或者Spring代理没生效等原因，导致@Async没按你期望的那样工作。为了避免这些坑，咱们得深入了解下@Async是怎么工作的，还要知道怎么用才能不出问题。接下来，咱们就来聊聊7种
探索前端应用的新纪元：FABs —— 前端应用包祖崧革
探索前端应用的新纪元：FABs——前端应用包fabFABprojectspecification&monorepo项目地址:https://gitcode.com/gh_mirrors/fab2/fab项目介绍在现代Web开发中，前端应用的形式多种多样，从纯静态网站到复杂的单页应用（SPA），再到服务器端渲染（SSR）应用，每种形式都有其独特的优势和挑战。然而，如何将这些不同类型的应用统一打包并高
AWS WorkSpaces：企业级云桌面的三大杀手锏，重新定义远程生产力 AWS官方合作商 aws 云计算远程工作 sass
引言：当远程办公从“应急方案”变为“核心战略”2023年Gartner报告显示，全球78%的企业已将混合办公纳入长期战略。但传统VDI方案的高成本、低弹性与复杂运维，让IT管理者陷入两难。如何让员工在任意设备安全访问企业级算力？AmazonWorkSpaces以云原生DaaS（桌面即服务）破局，实测部署效率提升90%，运维成本降低60%。一、揭秘AmazonWorkSpaces：云桌面的技术进化论
基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习 Wis4e 深度学习机器学习 pytorch
首先，给出一个数组x，然后基于表达式y=3x2+2，加上一些噪音数据到达另一组数据y。然后，构建一个机器学习模型，学习表达式y=wx2+b的两个参数w、b。利用数组x，y的数据为训练数据。最后，采用梯度梯度下降法，通过多次迭代，学习到w、b的值。以下为具体步骤：1)导入需要的库。importnumpyasnp%matplotlibinlinefrommatplotlibimportpyplotas
Java基础系列：深入解析抽象类、接口与Lambda表达式及避坑指南 JouJz java 开发语言
目录一、抽象类：半成品的艺术1.核心特征解析2.典型应用场景3.三大经典陷阱陷阱1：尝试实例化抽象类陷阱2：未实现全部抽象方法陷阱3：构造方法调用可覆盖方法二、接口：行为契约的进化1.接口的现代形态（Java8+）2.接口与抽象类对比3.五大核心陷阱陷阱1：默认方法冲突陷阱2：常量隐藏陷阱3：静态方法陷阱陷阱4：函数式接口误用陷阱5：接口演化风险三、Lambda表达式：简洁之美与暗礁1.核心语法全
Java虚拟机之内存分配原则 JouJz java 开发语言 jvm
目录一、JVM内存模型概览二、核心内存分配原则1.对象优先分配在Eden区2.大对象直接进入老年代3.长期存活对象晋升老年代4.空间分配担保5.TLAB（线程本地分配缓冲）三、内存分配流程图解四、调优参数与实战建议1.堆内存配置2.避免内存泄漏与频繁GC3.案例分析五、总结一、JVM内存模型概览JVM的内存分配围绕“堆（Heap）”展开，堆内存按对象生命周期划分为不同区域，以实现高效的内存管理和垃
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文