R语言数据建模流程分析

Intro

近期在整理数据分析流程，找到了之前写的一篇代码，分享给大家。这是我上学时候做的一个项目，当时由于经验不足产生了一些问题，这些问题会在之后一点一点给大家讨论，避免各位踩坑。本篇分享会带一些讲解，可能有些地方不够清楚，欢迎留言讨论。

本次除了分享之外也是对自己之前项目的一个复盘。还是使用R语言（毕竟是我钟爱的语言）。Python的如果有需求之后会放别的项目。

本篇中包含了数据导入，清洗，可视化，特征工程，建模的代码，大家可以选择需要的去参考。

项目背景

数据来自Online Shopper’s Intention 包含12,330 条数据, 10个计数型特征和8个类别型特征。使用‘Revenue’ 作为标签进行建模。最终目的就是根据拿到的这些数据去建立一个可以预测Revenue的模型。

前期准备

首先你要下载一个R语言以及它的舒适版本R studio。怎么下载呢，把我之前文章上的话直接粘过来哈哈

安装R以及Rstudio
如果之前有用过R的朋友请忽略这一段。
安装R非常简单，直接官网下载

之后下载Rstudio，这个相当于R语言的开挂版，界面相比于R来说非常友好，辅助功能也很多，下载地址

#注意Rstudio是基于R语言的，需要下载安装R语言后才可以安装使用。

安装好了后运行以下代码来导入package们。

setwd("~/Desktop/STAT5003/Ass") #选择项目存放的位置，同样这也是你数据csv存放的位置
# install.packages("xxx") 如果之前没有装过以下的包，先用这句话来装包，然后再去load
# the following packages are for the EDA part
library(GGally)
library(ggcorrplot)
library(psych)
library(ggstatsplot)
library(ggplot2)
library(grid)
# the following packages are for the Model part
library(MASS)
library(Boruta)  # Feature selection with the Boruta algorithm
library(caret)
library(MLmetrics)
library(class)
library(neuralnet)
library(e1071)
library(randomForest)
library(keras)

导入的包有些多，keras那个的安装可以参考我之前的文章（R语言基于Keras的MLP神经网络详解
https://www.jb51.net/article/234031.htm ）

数据描述

首先啊把这个数据下载到你的电脑上，然后用以下代码导入R就可以了。

dataset <- read.csv("online_shoppers_intention.csv")
str(dataset)

str（）这个function可以看到你这个数据的属性，输出如下：

此时发现数据格式有int，number，factor等等。为了之后建分析和建模方便，我们先统一数据格式。

dataset$OperatingSystems <- as.factor(dataset$OperatingSystems)
dataset$Browser <- as.factor(dataset$Browser)
dataset$Region <- as.factor(dataset$Region)
dataset$TrafficType <- as.factor(dataset$TrafficType)
dataset$Weekend <- as.factor(dataset$Weekend)
dataset$Revenue <- as.factor(dataset$Revenue)
dataset$Administrative <- as.numeric(dataset$Administrative)
dataset$Informational <- as.numeric(dataset$Informational)
dataset$ProductRelated <- as.numeric(dataset$ProductRelated)
summary(dataset)

现在数据格式基本统一啦，分为factor和numeric，这方便我们之后的操作。因为R里面的一些package（尤其是建模的package）对数据的输入格式有要求，所以提前处理好非常重要。这可以帮助你更好的整理数据以及敲出简洁舒爽的代码。
记住整理好数据格式之后summary（）一下，你可以从这里发现一些数据的小问题。比如下面的这个‘Administrative_Duration ’。

你看这min=-1就离谱，（当然这也是一个小坑）我们知道duration不可能是<0的。但这是我们的主观思维，由于不知道这个数据在采集入数据库的时候是怎么定义的，所以这个-1是为啥我们不会知道原因。这也是为什么我推荐做数据分析的时候要从头开始跟项目，这样你对数据了如指掌，而不是像现在这样只凭主观思想去判断数据对错（虽然大部分时候你的主观思想没啥问题）

以下给一些数据解释，就不翻译了，看或不看都可（但你自己做项目的时候一定一定一定要仔细看）

Variables are described as follows：
Administrative : Administrative Value
Administrative_Duration : Duration in Administrative Page
Informational : Informational Value
Informational_Duration : Duration in Informational Page
ProductRelated : Product Related Value
ProductRelated_Duration : Duration in Product Related Page
BounceRates : Bounce Rates of a web page
ExitRates : Exit rate of a web page
PageValues : Page values of each web page
SpecialDay : Special days like valentine etc
Month : Month of the year
OperatingSystems : Operating system used
Browser : Browser used
Region : Region of the user
TrafficType : Traffic Type
VisitorType : Types of Visitor
Weekend : Weekend or not
Revenue : Revenue will be generated or not

数据清洗

我们在上一部分的summary已经发现了duration有小于0的，因此所有小于0的duration相关的，我们把它变成NA，然后算一下NA率，来判断这些数是给它填补上还是直接删。个人认为如果missing rate很小删了就成。但如果你的数据集本身就不大，那建议你使用填值法填进去。因为数据太少的话就没啥分析的必要。具体多少算少，见仁见智吧，感兴趣的话之后可以写一篇做讨论。

dataset$Administrative_Duration[dataset$Administrative_Duration < 0] = NA
dataset$Informational_Duration[dataset$Informational_Duration < 0] = NA
dataset$ProductRelated_Duration[dataset$ProductRelated_Duration < 0] = NA
missing.rate <- 1 - nrow(na.omit(dataset))/nrow(dataset)
paste("missing rate =", missing.rate * 100, "%")

"missing rate = 0.381184103811838 %"还挺小的，所以直接删掉有问题的数据。

dataset <- na.omit(dataset)

然后记得用summary再查一次哦，看看是否删干净了。

预分析及预处理

数值型数据

下面三种分别是箱形图，ggpairs以及相关性矩阵。箱形图可以用来观察数据整体的分布情况。ggpairs绘制的相关关系图可以查看数据分布和相关性。相关性矩阵专注于看相关系数以及是否相关性是否significant。这几个各有其注重点，根据需要去做就可以。

par(mfrow = c(2, 5)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$Administrative, main = "Administrative")
boxplot(dataset$Administrative_Duration, main = "Administrative_Duration")
boxplot(dataset$Informational, main = "Informational")
boxplot(dataset$Informational_Duration, main = "Informational_Duration")
boxplot(dataset$ProductRelated, main = "ProductRelated")
boxplot(dataset$ProductRelated_Duration, main = "ProductRelated_Duration")
boxplot(dataset$BounceRates, main = "BounceRates")
boxplot(dataset$ExitRates, main = "ExitRates")
boxplot(dataset$PageValues, main = "PageValues")
boxplot(dataset$SpecialDay, main = "SpecialDay")

ggpairs(dataset[, c(1:10)])

corr = cor(dataset[, c(1:10)])
p.mat <- cor_pmat(dataset[, c(1:10)], use = "complete", method = "pearson")
ggcorrplot(corr, hc.order = TRUE, type = "lower", lab = TRUE, p.mat = p.mat, 
    insig = "blank")

类别型数据

针对类别型数据我们主要是看他的分布，因此直接画bar plot就成。下面的代码用到了ggplot，是个非常好用的可视化包。grid.newpage()这里主要是为了让这些图片都显示在一张图上，这样把图片导出或是直接在markdown上显示的时候所有图都会显示在一个页面上面，看起来比较美观和舒适。

p1 <- ggplot(dataset, aes(x = SpecialDay)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p2 <- ggplot(dataset, aes(x = Month)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p3 <- ggplot(dataset, aes(x = OperatingSystems)) + geom_bar(fill = "#CF6A1A", 
    colour = "black") + theme_bw()
p4 <- ggplot(dataset, aes(x = Browser)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p5 <- ggplot(dataset, aes(x = Region)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p6 <- ggplot(dataset, aes(x = TrafficType)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p7 <- ggplot(dataset, aes(x = VisitorType)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p8 <- ggplot(dataset, aes(x = Weekend)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
p9 <- ggplot(dataset, aes(x = Revenue)) + geom_bar(fill = "#CF6A1A", colour = "black") + 
    theme_bw()
grid.newpage()
pushViewport(viewport(layout = grid.layout(4, 3, heights = unit(c(1, 3, 3, 3), 
    "null"))))
grid.text("Bar Plot of All Categorical Feature", vp = viewport(layout.pos.row = 1, 
    layout.pos.col = 1:3))
vplayout = function(x, y) viewport(layout.pos.row = x, layout.pos.col = y)
print(p1, vp = vplayout(2, 1))
print(p2, vp = vplayout(2, 2))
print(p3, vp = vplayout(2, 3))
print(p4, vp = vplayout(3, 1))
print(p5, vp = vplayout(3, 2))
print(p6, vp = vplayout(3, 3))
print(p7, vp = vplayout(4, 1))
print(p8, vp = vplayout(4, 2))
print(p9, vp = vplayout(4, 3))

我们可以看到，数据还是比较偏。我们想要预测的revenue也是非常imbalance（标签中的false与true占比不均衡）。因此在处理数据或是选择模型的时候要注意这一点。这里不作详细讨论。针对imbalance data应该是有很多可以说的东西。之后有空的话可以细聊~

其实到目前为止，作为一个普通的项目来说，预分析可以结束了，我们查看了所有数据的分布，并且对现有的数据有了一些直观的印象。但我们不能满足于此，因此对每一个类别型变量再做一次更细致的分析。

首先看一下这个 Special Day 。原数据里给的这个special day给的是0，0.2，0.4这种数值，代表的是距离节日当天的日子，比如1就是节日当天，0.2是节日的前几天（我记得大概是这样）但这种就比较迷惑，我不知道这个具体是咋划分的（这也是为啥希望大家对你所研究的项目有非常深入的了解，你如果对此很了解，那么很多分析的步骤是可以省略的），所以只能让数据告诉我，special day应该如何存在于我们之后的模型中。

special_day_check <- dataset[, c(10, 18)]
special_day_check$Revenue <- ifelse(special_day_check$Revenue == "FALSE", 0, 
    1)
special_day_check$SpecialDay[special_day_check$SpecialDay == 0] = NA
special_day_check <- na.omit(special_day_check)
special_day_glm <- glm(Revenue ~ SpecialDay, data = special_day_check, family = binomial(link = "logit"))
summary(special_day_glm)
## 
## Call:
## glm(formula = Revenue ~ SpecialDay, family = binomial(link = "logit"), 
##     data = special_day_check)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.3961  -0.3756  -0.3560  -0.3374   2.4491  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -2.3954     0.2986  -8.021 1.05e-15 ***
## SpecialDay   -0.5524     0.4764  -1.159    0.246    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 578.11  on 1247  degrees of freedom
## Residual deviance: 576.77  on 1246  degrees of freedom
## AIC: 580.77
## 
## Number of Fisher Scoring iterations: 5

首先，我们要检查的是special day 是否应该是一个数值变量。因此，建立一个glm模型（revenue = a+b*special_day)，发现special day的p值=0.246（>0.05），因此可以数值型的认为“SpecialDay”不对revenue有显著的影响，因此specialday可以被当作类别型变量。

现在我们把它当作类别型变量分析一下。用ggbarstats这个function。ggstatsplot是ggplot2包的扩展，主要用于创建美观的图片同时自动输出统计学分析结果，其统计学分析结果包含统计分析的详细信息，该包对于经常需要做统计分析的科研工作者来说非常有用。

ggbarstats(data = dataset, main = Revenue, condition = SpecialDay, sampling.plan = "jointMulti", 
    title = "Revenue by Special Days", xlab = "Special Days", perc.k = 0.5, 
    x.axis.orientation = "slant", ggstatsplot.layer = FALSE, messages = FALSE)

用此函数可以绘制出呈现分类变量的柱状图，图中的上半部分( x P e a r s o n 2 x^2_{Pearson} xPearson2, p p p , V C r a m e r V_{Cramer} VCramer 等)代表传统的统计学方法（Frequentist）的一些统计值，下面的部分( l o g e ( B F 01 ) log_e(BF_{01}) loge(BF01)等)代表贝叶斯（Bayesian）的一些统计值。

在本项目中，我们主要关注p-value，我们发现，p<0.001并且在柱状图上方所有都是***，这代表了非常显著。因此我们可以确定special day就这样作为类别型变量使用。

之后把每一个类别型变量都这样做一下。过程不赘述了，挑一个有代表性的给大家看一下。

我们看一下operating systems的ggbarstats（）。

ggbarstats(data = dataset, main = Revenue, condition = OperatingSystems, sampling.plan = "jointMulti", 
    title = "Revenue by Different Operating Systems", xlab = "Operating Systems", 
    perc.k = 0.5, x.axis.orientation = "slant", ggstatsplot.layer = FALSE, messages = FALSE)

我们发现整体的p<0.001但是，因为在子类别的样本少，所以柱状图上面出现了ns。我们知道，如果数据很少，那么该数据便不具有统计价值，因此我们把这些少样本的子类别合并在一起，再看一次。

dataset$OperatingSystems <- as.integer(dataset$OperatingSystems)
dataset$OperatingSystems[dataset$OperatingSystems == "5"] <- "other"
dataset$OperatingSystems[dataset$OperatingSystems == "6"] <- "other"
dataset$OperatingSystems[dataset$OperatingSystems == "7"] <- "other"
dataset$OperatingSystems <- as.factor(dataset$OperatingSystems)
ggbarstats(data = dataset, main = Revenue, condition = OperatingSystems, sampling.plan = "jointMulti", 
    title = "Revenue by Different Operating Systems", xlab = "Operating Systems", 
    perc.k = 0.5, x.axis.orientation = "slant", ggstatsplot.layer = FALSE, messages = FALSE)

现在看起来就比较舒适了，都很显著。
预处理和预分析到此结束。

特征

我们进行特征工程的最终目的就是提升模型的性能，比如你的数据特征很少的话我们需要建立一些二阶、三阶特征来丰富我们的数据。或是特征太多的时候我们需要进行降维处理。这里我没有做太多的特征工程，只是把特征进行了一下基本的筛选，把没有用的特征删掉。这里的逻辑是先用pca看一下可以保留多少特征，再用Boruta算法和stepAIC去选一下。

# PCA Since pca can only use on numeric data, so we use the os[,c(1:9)]
pcdata <- os[, c(1:9)]
pclable <- ifelse(os$Revenue == "TRUE", "red", "blue")
pc <- princomp(os[, c(1:9)], cor = TRUE, scores = TRUE)
summary(pc)
## Importance of components:
##                           Comp.1    Comp.2    Comp.3    Comp.4    Comp.5
## Standard deviation     1.8387377 1.2923744 1.0134790 1.0020214 0.9697619
## Proportion of Variance 0.3756618 0.1855813 0.1141266 0.1115608 0.1044931
## Cumulative Proportion  0.3756618 0.5612431 0.6753697 0.7869305 0.8914236
##                            Comp.6     Comp.7    Comp.8      Comp.9
## Standard deviation     0.65008195 0.59319914 0.3510795 0.281849096
## Proportion of Variance 0.04695628 0.03909836 0.0136952 0.008826546
## Cumulative Proportion  0.93837989 0.97747825 0.9911735 1.000000000
plot(pc, type = "lines")

从pca里面我们可以发现，保留7个numeric变量就可以有95%以上的方差。因此之后我们可以按着至少7个numeric variable这个标准去保留。

Boruta算法

set.seed(123)
boruta.train <- Boruta(Revenue ~ ., data = os, doTrace = 2, maxRuns = 15)
print(boruta.train)
# Boruta performed 14 iterations in 3.920271 mins.  13 attributes confirmed
# important: Administrative, Administrative_Duration, BounceRates, Browser,
# ExitRates and 8 more; 1 attributes confirmed unimportant: SpecialDay; 2
# tentative attributes left: OperatingSystems, Weekend; so SpecialDay can be
# delete when we fit the model. OperatingSystems and Weekend need to check
# by other ways.

StepAIC

full.model <- glm(Revenue ~ . - SpecialDay, data = os, family = binomial(link = "logit"))

# Backward Stepwise AIC
stepback <- stepAIC(full.model, direction = "backward", steps = 3)
summary(stepback)

# OperatingSystems, Weekend are all above the , combine the previous
# result by Boruta algorithm, it can be delete when we fit model.  Browser
# has the minimum AIC, it can be delete when we fit model.  PCA shows we
# should keep 7 numeric variables in the dataset when fit the model, so two
# numeric variables should be remove. Informational_Duration and
# Administrative has the minimum AIC in numeric variables, so remove these
# two variables.

综合上面三个特征选择的方法 SpecialDay, OperatingSystems, Weekend, Browser, Informational_Duration 和 Administrative 应当在建模的时候被移除。有兴趣的可以跑一下上面的代码，由于运行时间有点长，结果就直接码在代码框里了。

建模

现在把用来建模数据整理好，准备建模。

os_modeldata <- os[, -c(1, 4, 10, 11, 12, 16)]
# summary(os_modeldata)
write.csv(os_modeldata, "os_modeldata.csv")

首先划分训练集和测试集（train 和 test）

set.seed(123)
os_modeldata <- read.csv("os_modeldata.csv")
os_modeldata <- os_modeldata[, -1]
os_modeldata$Revenue <- as.factor(os_modeldata$Revenue)
inTrain <- createDataPartition(os_modeldata$Revenue, p = 0.9)[[1]]
Train <- os_modeldata[inTrain, ]
Test <- os_modeldata[-inTrain, ]

然后把训练集拆成train和val。这里加了个10-cv。有些模型的function可以自己加cv，但由于要用到不同的建模package，为了避免不同package之间划分cv的差异，咱自己建~

add_cv_cohorts <- function(dat, cv_K) {
    if (nrow(dat)%%cv_K == 0) {
        # if perfectly divisible
        dat$cv_cohort <- sample(rep(1:cv_K, each = (nrow(dat)%/%cv_K)))
    } else {
        # if not perfectly divisible
        dat$cv_cohort <- sample(c(rep(1:(nrow(dat)%%cv_K), each = (nrow(dat)%/%cv_K + 
            1)), rep((nrow(dat)%%cv_K + 1):cv_K, each = (nrow(dat)%/%cv_K))))
    }
    return(dat)
}
# add 10-fold CV labels to real estate data
train_cv <- add_cv_cohorts(Train, 10)
# str(train_cv)

首先建一个基准模型，Logistic regression classifer（benchmark model）

train_cv_glm <- train_cv
glm.acc <- glm.f1 <- c()
train_cv_glm$Revenue <- ifelse(train_cv_glm$Revenue == "TRUE", 1, 0)
# str(train_cv_glm)
for (i in 1:10) {
    # Segement my data by fold using the which() function
    indexes <- which(train_cv_glm$cv_cohort == i)
    train <- train_cv_glm[-indexes, ]
    val <- train_cv_glm[indexes, ]
    # Model
    glm.model <- glm(Revenue ~ . - cv_cohort, data = train, family = binomial(link = "logit"))
    # predict
    glm.pred <- predict(glm.model, newdata = val, type = "response")
    glm.pred <- ifelse(glm.pred > 0.5, 1, 0)
    # evaluate
    glm.f1[i] <- F1_Score(val$Revenue, glm.pred, positive = "1")
    glm.acc[i] <- sum(glm.pred == val$Revenue)/nrow(val)
}
# F1 and ACC
glm.acc.train <- round(mean(glm.acc), 5) * 100
glm.f1.train <- round(mean(glm.f1), 5) * 100
# print(glm.cm <- table(glm.pred, val$Revenue))
paste("The accuracy by Logistic regression classifier by 10-fold CV in train data is", 
    glm.acc.train, "%")
paste("The F1-score by Logistic regression classifier by 10-fold CV in train data is", 
    glm.f1.train, "%")
# f1 = 0.50331

然后建立我们用来对比的机器学习模型。这里使用网格搜索法调参。

KNN

# since knn() function can't use factor as indenpent variable So re-coding
# data, factor to dummy variable)
train_cv_knn <- as.data.frame(model.matrix(~., train_cv[, -11]))
train_cv_knn$Revenue <- train_cv$Revenue
train_cv_knn <- train_cv_knn[, -1]
# head(train_cv_knn)
knn.grid <- expand.grid(k = c(1:30))
knn.grid$acc <- knn.grid$f1 <- NA
knn.f1 <- knn.acc <- c()
for (k in 1:nrow(knn.grid)) {
    for (i in 1:10) {
        # Segement my data by fold using the which() function
        indexes <- which(train_cv_knn$cv_cohort == i)
        train <- train_cv_knn[-indexes, ]
        val <- train_cv_knn[indexes, ]
        # model and predict
        knn.pred <- knn(train[, -c(34, 35)], val[, -c(34, 35)], train$Revenue, 
            k = k)
        # evaluate
        knn.f1[i] <- F1_Score(val$Revenue, knn.pred, positive = "TRUE")
        knn.acc[i] <- sum(knn.pred == val$Revenue)/nrow(val)
    }
    knn.grid$f1[k] <- mean(knn.f1)
    knn.grid$acc[k] <- mean(knn.acc)
    print(paste("finished with =", k))
}
print(knn.cm <- table(knn.pred, val$Revenue))
knn.grid[which.max(knn.grid$f1), ]
# k = 7, f1=0.5484112, acc=0.885042

SVM

svm.grid <- expand.grid(cost = c(0.1, 1, 10), gamma = seq(0.2, 1, 0.2))
svm.grid$acc <- svm.grid$f1 <- NA
svm.f1 <- svm.acc <- c()
for (k in 1:nrow(svm.grid)) {
    for (i in 1:10) {
        # Segement my data by fold using the which() function
        indexes <- which(train_cv$cv_cohort == i)
        train <- train_cv[-indexes, ]
        val <- train_cv[indexes, ]
        # model
        svm.model <- svm(Revenue ~ ., kernel = "radial", type = "C-classification", 
            gamma = svm.grid$gamma[k], cost = svm.grid$cost[k], data = train[, 
                -12])
        svm.pred <- predict(svm.model, val[, -12])
        # evaluate
        svm.f1[i] <- F1_Score(val$Revenue, svm.pred, positive = "TRUE")
        svm.acc[i] <- sum(svm.pred == val$Revenue)/nrow(val)
    }
    svm.grid$f1[k] <- mean(svm.f1)
    svm.grid$acc[k] <- mean(svm.acc)
    print(paste("finished with:", k))
}
print(svm.cm <- table(svm.pred, val$Revenue))
svm.grid[which.max(svm.grid$f1), ]
# cost=1, gamma=0.2,f1= 0.5900601,acc= 0.8948096

Random Forest

rf.grid <- expand.grid(nt = seq(100, 500, by = 100), mrty = c(1, 3, 5, 7, 10))
rf.grid$acc <- rf.grid$f1 <- NA
rf.f1 <- rf.acc <- c()
for (k in 1:nrow(rf.grid)) {
    for (i in 1:10) {
        # Segement my data by fold using the which() function
        indexes <- which(train_cv$cv_cohort == i)
        train <- train_cv[-indexes, ]
        val <- train_cv[indexes, ]
        # model
        rf.model <- randomForest(Revenue ~ ., data = train[, -12], n.trees = rf.grid$nt[k], 
            mtry = rf.grid$mrty[k])
        rf.pred <- predict(rf.model, val[, -12])
        # evaluate
        rf.f1[i] <- F1_Score(val$Revenue, rf.pred, positive = "TRUE")
        rf.acc[i] <- sum(rf.pred == val$Revenue)/nrow(val)
    }
    rf.grid$f1[k] <- mean(rf.f1)
    rf.grid$acc[k] <- mean(rf.acc)
    print(paste("finished with:", k))
}
print(rf.cm <- table(rf.pred, val$Revenue))
rf.grid[which.max(rf.grid$f1), ]
# nt=200,mtry=3 ,f1 = 0.6330392, acc=0.8960723

Neural Network

nndata <- Train
nndata$Revenue <- ifelse(nndata$Revenue == "TRUE", 1, 0)
train_x <- model.matrix(~., nndata[, -11])
train_x <- train_x[, -1]
train_y <- to_categorical(as.integer(as.matrix(array(nndata[, 11]))), 2)
model <- keras_model_sequential()
# defining model's layers
model %>% layer_dense(units = 30, input_shape = 33, activation = "relu") %>% 
    layer_dense(units = 40, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 60, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 30, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 2, activation = "sigmoid")
# defining model's optimizer
model %>% compile(loss = "binary_crossentropy", optimizer = "adam", metrics = c("accuracy"))
# Metrics: The performance evaluation module provides a series of functions
# for model performance evaluation. We use it to determine when the NN
# should stop train. The ultimate measure of performance is F1.
# Check which column in train_y is FALSE
table(train_y[, 1])  # the first column is FALSE
table(train_y[, 1])[[2]]/table(train_y[, 1])[[1]]
# Define a dictionary with your labels and their associated weights
weight = list(5.5, 1)  # the proportion of FALSE and TURE is about 5.5:1
# fitting the model on the training dataset
model %>% fit(train_x, train_y, epochs = 50, validation_split = 0.2, batch_size = 512, 
    class_weight = weight)
# after epoch = 20, val_loss not descrease and val_acc not increase, so NN
# should stop at epoch = 20

模型对比

GLM

glmdata <- Train
glmdata$Revenue <- ifelse(glmdata$Revenue == "TRUE", 1, 0)
testglm <- Test
testglm$Revenue <- ifelse(testglm$Revenue == "TRUE", 1, 0)
glm.model.f <- glm(Revenue ~ ., data = glmdata, family = binomial(link = "logit"))
glm.pred.f <- predict(glm.model.f, newdata = Test, type = "response")
glm.pred.f <- ifelse(glm.pred.f > 0.5, 1, 0)
glm.f1.f <- F1_Score(testglm$Revenue, glm.pred.f, positive = "1")
paste("The F1-score by Logistic regression classifier in test data is", glm.f1.f)

KNN

knndata <- as.data.frame(model.matrix(~., Train[, -11]))
knndata <- knndata[, -1]
knntest <- as.data.frame(model.matrix(~., Test[, -11]))
knntest <- knntest[, -1]
knn.model.f.pred <- knn(knndata, knntest, Train$Revenue, k = 7)
knn.f1.f <- F1_Score(Test$Revenue, knn.model.f.pred, positive = "TRUE")
paste("The F1-score by KNN classifier in test data is", knn.f1.f)

SVM

svm.model.f <- svm(Revenue ~ ., kernel = "radial", type = "C-classification", 
    gamma = 0.2, cost = 1, data = Train)
svm.pred.f <- predict(svm.model.f, Test)
svm.f1.f <- F1_Score(Test$Revenue, svm.pred.f, positive = "TRUE")
paste("The F1-score by SVM classifier in test data is", svm.f1.f)

Random Forests

rf.model.f <- randomForest(Revenue ~ ., data = Train, n.trees = 200, mtry = 3)
rf.pred.f <- predict(rf.model.f, Test)
rf.f1.f <- F1_Score(Test$Revenue, rf.pred.f, positive = "TRUE")
paste("The F1-score by Random Forests classifier in test data is", rf.f1.f)

nndata <- Train
nndata$Revenue <- ifelse(nndata$Revenue == "TRUE", 1, 0)
train_x <- model.matrix(~., nndata[, -11])
train_x <- train_x[, -1]
train_y <- to_categorical(as.integer(as.matrix(array(nndata[, 11]))), 2)
model <- keras_model_sequential()
# defining model's layers
model %>% layer_dense(units = 30, input_shape = 33, activation = "relu") %>% 
    layer_dense(units = 40, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 60, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 30, activation = "relu") %>% layer_dropout(rate = 0.4) %>% 
    layer_dense(units = 2, activation = "sigmoid")
# defining model's optimizer
model %>% compile(loss = "binary_crossentropy", optimizer = "adam", metrics = c("accuracy"))
weight = list(5.5, 1)
model %>% fit(train_x, train_y, epochs = 20, batch_size = 512, class_weight = weight)
# test data
testnn <- Test
testnn$Revenue <- ifelse(testnn$Revenue == "TRUE", 1, 0)
test_x <- model.matrix(~., testnn[, -11])
test_x <- test_x[, -1]
nn.pred <- model %>% predict(test_x)
nn.pred <- as.data.frame(nn.pred)
nn.pred$label <- NA
nn.pred$label <- ifelse(nn.pred$V2 > nn.pred$V1, "TRUE", "FALSE")
nn.pred$label <- as.factor(nn.pred$label)
nn.f1 <- F1_Score(Test$Revenue, nn.pred$label, positive = "TRUE")
paste("The F1-score by Neural network in test data is", nn.f1)

看一下结果对比哈，RF和NN的表现较好。最后做个混淆矩阵看一下。

# RF
print(rf.cm.f <- table(rf.pred.f, Test$Revenue))
##          
## rf.pred.f FALSE TRUE
##     FALSE   987   74
##     TRUE     50  116
# NN
print(nn.cm.f <- table(nn.pred$label, Test$Revenue))
##        
##         FALSE TRUE
##   FALSE   980   69
##   TRUE     57  121

到此这篇关于R语言数据建模流程分析的文章就介绍到这了,更多相关R语言数据建模内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

R语言中的函数32：seq_along() zoujiahui_2018 #R语言中的函数 r语言开发语言
介绍seq_along函数在R语言中用于生成一个整数序列，其长度与给定对象的长度相同。这个函数特别有用，当你想要创建一个索引序列来遍历一个向量或列表时。用法seq_along(x)参数x:任何R对象（如向量、列表等）。返回值:返回一个从1到x的长度的整数序列。示例#创建一个向量vec<-c("a","b","c")#使用seq_along生成索引indices<-seq_along(vec)pri
IPoIB 接收数据流程分析 109702008 编程 #C语言网络人工智能 linux 网络
1.引言IPoIB（InfiniBandoverIP）是一种将InfiniBand协议封装在IP网络中的技术，允许通过标准的以太网基础设施传输InfiniBand数据。本文将详细分析IPoIB驱动程序中接收数据的处理流程，重点关注关键函数的实现和数据处理的关键步骤。2.网络设备操作结构体staticconststructnet_device_opsipoib_netdev_default_pf_r
containerd系统分析（六）-CRI接口奇谱容器技术分析 kubernetes 容器云原生 linux
containerd系列文章：containerd系统分析（一）-系统组成-CSDN博客containerd系统分析（二）-镜像管理-CSDN博客containerd系统分析（三）-容器创建流程分析-CSDN博客containerd系统分析（四）-容器启动流程分析-CSDN博客containerd系统分析（五）-网络分析-CSDN博客containerd系统分析（六）-CRI接口-CSDN博客co
containerd系统分析（四）-容器启动流程分析奇谱容器技术分析容器云原生 linux
containerd系列文章：containerd系统分析（一）-系统组成-CSDN博客containerd系统分析（二）-镜像管理-CSDN博客containerd系统分析（三）-容器创建流程分析-CSDN博客containerd系统分析（四）-容器启动流程分析-CSDN博客containerd系统分析（五）-网络分析-CSDN博客containerd系统分析（六）-CRI接口-CSDN博客1启
containerd系统分析（五）-网络分析奇谱容器技术分析容器 linux 云原生 kubernetes
containerd系列文章：containerd系统分析（一）-系统组成-CSDN博客containerd系统分析（二）-镜像管理-CSDN博客containerd系统分析（三）-容器创建流程分析-CSDN博客containerd系统分析（四）-容器启动流程分析-CSDN博客containerd系统分析（五）-网络分析-CSDN博客containerd系统分析（六）-CRI接口-CSDN博客1网
使用R语言绘制山脊图的ggridges包心之飞翼 r语言开发语言 R语言
使用R语言绘制山脊图的ggridges包山脊图（ridgeplot）是一种用于可视化多个分布或变量之间关系的图表类型。在R语言中，可以使用ggridges包来创建漂亮的山脊图。本文将介绍如何使用ggridges包绘制山脊图，并提供相应的源代码供参考。首先，确保已经安装了ggridges包。可以使用以下代码来安装：install.packages("ggridges")安装完毕后，加载ggridge
Anaconda3 介绍和安装 gorgor在码农 #python入门基础 python conda
介绍Anaconda是一个开源的Python和R语言发行版，专注于数据科学、机器学习和科学计算，主要面向数据科学和机器学习领域。它集成了大量常用的科学计算库（如NumPy、Pandas、Matplotlib、Scikit-learn等），并提供了强大的包管理工具Conda和环境管理功能，适合快速部署和管理复杂的开发环境。特点：预装丰富库：包含250+常用的数据科学工具包，无需手动安装。跨平台支持：
SQLMesh 系列教程4- 详解模型特点及模型类型梦想画家数据分析工程数据工程 sqlmesh
SQLMesh作为一款强大的数据建模工具，以其灵活的模型设计和高效的增量处理能力脱颖而出。本文将详细介绍SQLMesh模型的特点和类型，帮助读者快速了解其强大功能。我们将深入探讨不同模型类型（如增量模型、全量模型、SCDType2等）的适用场景和优势，并通过实际示例展示如何利用这些模型高效加载数据。无论你是数据工程师还是数据科学家，SQLMesh都能为你提供强大的支持。让我们一起探索SQLMesh
$ operator is invalid for atomic vectors什么意思滚菩提哦呢
"$operatorisinvalidforatomicvectors"意思是在对原子向量使用"$"操作符时是无效的。"$"操作符是R语言中用于访问数据框(dataframe)中的列的常用操作符。但是，原子向量(atomicvector)是R中的一种基本数据类型，它是一个长度固定的向量，并且所有元素都是相同的数据类型。因此，在对原子向量使用"$"操作符时是无效的，因为原子向量没有列的概念。例如，下
5-R循环 qwy715229258163 R语言 r语言 python 算法
R循环有的时候，我们可能需要多次执行同一块代码。一般情况下，语句是按顺序执行的：函数中的第一个语句先执行，接着是第二个语句，依此类推。编程语言提供了更为复杂执行路径的多种控制结构。循环语句允许我们多次执行一个语句或语句组，下面是大多数编程语言中循环语句的流程图：R语言提供的循环类型有:repeat循环while循环for循环R语言提供的循环控制语句有：break语句Next语句循环控制语句改变你代
Redis系列之Redis持久化机制 2501_90339150 redis 数据库缓存
执行flushall命令flushall复制代码清空Redis之前，保存当前Redis快照执行主从复制操作(第一次)第一次主从复制时需要生成rdb文件，会保存当前Redis快照RDB执行流程流程分析Redis父进程首先判断:当前是否在执行save或bgsave/bgrewriteaof(aof文件重写命令)的子进程，如果在执行则bgsave命令直接返回。父进程执行fork(调用操作系统函数复制主进
基于分布式架构的毕业设计题目50例 love_java_code 计算机专业毕业设计题目分布式架构系统架构
基于分布式架构的毕业设计题目1-10题1、基于分布式架构的网络考试系统的设计2、基于分布式架构的融合客户数据中心探讨3、基于分布式架构的内网监控系统的应用与研究4、基于分布式架构的铁路企业社会保障管理信息系统设计5、基于分布式架构打造证券交易新核心6、基于分布式架构的融合用户数据中心部署方案研究7、基于分布式架构的大数据建模实践8、基于分布式架构的通航运营管理系统研究9、基于分布式架构的网络流量分
R语言可视化散点图实战：为每一个数据点都绘制指示线段或者都不绘制、ggrepel包 statistics.insight r语言开发语言数据挖掘机器学习
R语言可视化散点图实战：为每一个数据点都绘制指示线段或者都不绘制、ggrepel包目录R语言可视化散点图（scatterplot）、为每一个数据点都绘制指示线段或者都不绘制、ggrepel包来帮忙#ggrepel包的安装和加载#为每一个数据点都绘制指示线段或者都不绘制#文本标签相互排斥，远离数据点，远离绘图区域（面板）的边缘。#ggrepel包的安装和加载#从CRAN安装install.packa
三菱PLC大型项目实战指南：从零基础到成功实施 Mountain and sea 三菱plc入门系列学习自动化
三菱PLC大型项目实战指南：从零基础到成功实施作为一名刚入门的电气工程师，想要通过一个大型项目来实践三菱PLC可能会感到有些挑战，但这是一个非常有意义的过程。以下将详细介绍如何从零基础开始，一步步完成一个大型项目，并最终成功实施。一、前期准备学习基础知识了解PLC的基本组成：首先，熟悉三菱PLC的基本结构，包括中央处理单元（CPU）、程序存储器、数据存储器和输入输出端口。掌握Ladder语言：三菱
22章9节：使用 R Markdown 和 Shiny 结合R语言进行数据报告和交互式应用的创建 DAT｜R科学用R探索医药数据科学 r语言开发语言大数据人工智能 r语言-4.2.1
R语言是数据科学领域中广泛应用的编程语言之一，它的强大之处不仅在于数据分析能力，还体现在其丰富的可视化和报告生成功能上。在数据分析的过程中，生成报告、展示结果和与他人共享工作成果是非常重要的任务。Shiny是一个用于构建交互式Web应用的R包，它能够将R语言的分析能力与动态、互动的Web界面结合起来，允许用户与数据交互、实时更新结果。在本文中，我们将探讨如何使用RMarkdown和Shiny结合R
4-R判断语句 qwy715229258163 R语言 r语言 python 开发语言
R判断语句判断结构要求程序员指定一个或多个要评估或测试的条件，以及条件为真时要执行的语句（必需的）和条件为假时要执行的语句（可选的）。下面是大多数编程语言中典型的判断结构的一般形式：R语言提供了以下类型的判断语句：if语句if…else语句switch语句1.if语句一个if语句由一个布尔表达式后跟一个或多个语句组成。语法格式如下：if(boolean_expression){//布尔表达式为真将
hive数仓的分层与建模 korry24 hive hadoop 数据仓库
Hive数据仓库分层和数据建模是一种常见的数据仓库设计方法，旨在通过分层的方式组织数据，提高数据的可维护性、可复用性和查询性能。以下是关于Hive数据仓库分层和数据建模的详细知识：一、Hive数据仓库分层数据仓库通常采用分层架构，目的是将数据按照不同的处理阶段和用途进行划分，便于管理和优化。常见的分层架构包括以下四层：1.ODS（OperationalDataStore，操作数据存储层）作用：OD
MacOS安装Milvus向量数据库大龄码农有梦想 AI人工智能 macos milvus 向量数据库安装部署 milvus安装
Milvus是一个高性能、高度可扩展的矢量数据库，可在从笔记本电脑到大规模分布式系统的各种环境中高效运行。Milvus提供强大的数据建模功能，使您能够将非结构化或多模态数据组织成结构化集合。Milvus是Apache2.0许可分发的开源项目。Milvus提供三种部署模式:MilvusLite是一个Python库，可以轻松集成到您的应用程序中。作为Milvus的轻量级版本，它非常适合快速原型设计或在
关于阿里云DataWorks的20道面试题编织幻境的妖阿里云云计算
1.请简要介绍阿里云DataWorks的基本概念和主要功能。阿里云DataWorks是一个全链路的大数据开发治理平台，其主要功能包括数据集成、数据建模与开发、数据地图、数据质量和数据服务等。DataWorks的基本概念围绕其作为一个大数据开发和治理的平台，它整合了多种大数据引擎如MaxCompute、Hologres、EMR、AnalyticDB、CDP等，旨在为数据仓库、数据湖及湖仓一体化解决方
ProtoBuf 官方文档（二）- 语法指引（proto2） n大橘为重n C++ProtoBuf protobuf rpc 序列化数据结构
翻译查阅外网资料过程中遇到的比较优秀的文章和资料，一是作为技术参考以便日后查阅，二是训练英文能力。此文翻译自ProtocolBuffers官方文档LanguageGuide部分翻译为意译，不会照本宣科的字字对照翻译以下为原文内容翻译语法指引（proto2）本指南介绍如何使用protocolbuffer语言来构造protocolbuffer数据，包括.proto文件语法以及如何从.proto文件生成
R语言机器学习与临床预测模型77--机器学习预测常用R语言包武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
R小盐准备介绍R语言机器学习与预测模型的学习笔记你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】01预测模型常用R包常见回归分析包:rpart包含有分类回归树的方法;earth包可以实现多元自适应样条回归;mgev包含广义加性模型回归;Rweka包中的MSP函数可用于回归。pls包中的plsr函数实现偏最小二乘和主成分回归。stats包中的ppr函数实现投影寻踪分析，同时包括线性回归的方
R语言文本分析天龙八部 waterHBO R语言 r语言开发语言
起因，目的:前面有人对“倚天屠龙记”进行分析，我这里只是进行模仿而已。完整的文件，已经绑定了，反正读者可以找一下。案例背景小说《天龙八部》是金庸先生所著的武侠小说，也是“射雕三部曲”的前传。全书共50章，字数超过一百万字。故事发生在北宋末年，以大理国、大辽、西夏、吐蕃和北宋五国之间的纷争为背景，讲述了乔峰、虚竹、段誉三位主角的江湖恩怨和爱恨情仇。小说中融入了丰富的历史元素和深刻的人生哲理，展现了人
ggalign：热图等复杂组合图及图形数据对齐的 ggplot2 扩展万木春❀ r语言
ggalign一个R语言绘图工具ggplot2的高级扩展，它专注于在多个图形之间对齐观察值，利用vctrs包中的“numberofobservations”或NROW()函数，确保图形组织的一致性。无论是自包含排序图形的对齐，还是在多个图形中应用一致的分组和排序（如k-means聚类），ggalign都可以帮助简化这一过程。文档：Aggplot2ExtensionforConsistentAxis
R语言数据分析案例：使用R进行销售数据分析 ByteWhisper r语言数据分析开发语言 R语言
R语言数据分析案例：使用R进行销售数据分析数据分析在现代业务决策中起着重要的作用。R语言作为一种功能强大且广泛使用的数据分析工具，为分析师提供了许多有用的功能和库。在本案例中，我们将使用R语言来分析销售数据，帮助我们了解销售趋势、客户行为以及产品表现。首先，让我们导入所需的库，并加载我们的销售数据集。#导入库library(dplyr)library(ggplot2)#加载数据集sales_dat
MongoDB开发规范与数据建模胡尚深入学习总结笔记 #MongoDB篇 mongodb oracle 数据库
文章目录MongoDB开发规范MongoDB数据建模嵌入式文档一对一关系模型嵌入式文档模型子集模式嵌入式文档一对多关系模型嵌入式文档模型子集模式文档引用一对多关系模型物联网时序数据建模MongoDB开发规范命名原则数据库名使用小写字符，集合名称使用统一命名风格。可以统一大小写或者驼峰命名。数据库名和集合名均不能超过64个字符集合设计对于少量数据的包含关系，使用嵌套模式有利于读写性能和保证原子性的写
R语言如何对excel数据进行操作安宁ᨐ r语言 excel 开发语言
在R语言中，可以使用`readxl`包来读取和操作Excel数据。首先，需要安装`readxl`包，可以使用以下命令安装：```install.packages("readxl")```安装完成后，加载`readxl`包：```library(readxl)```读取Excel文件：```data<-read_excel("path_to_excel_file.xls")```其中，`path_t
使用R语言进行数据框操作代码创造者 r语言开发语言 R语言
使用R语言进行数据框操作数据框（DataFrames）是R语言中一种常用的数据结构，它类似于表格，可以用于存储和处理结构化数据。本文将介绍如何使用R语言进行数据框的操作，包括创建数据框、添加和删除列、选择和过滤数据等常见操作。创建数据框首先，我们需要了解如何创建一个数据框。下面的代码演示了如何使用data.frame函数创建一个包含学生信息的数据框：#创建数据框students<-data.fra
Java类字节码详解深入浅出面试题用verbose工具查看字节码朱道阳 web后端开发 #深入了解JVM java 开发语言
目录出处参考图解案例编译指令字节码内容面试题deepseek字节码分析-publicintfoo();方法基础信息正常执行流程分析异常处理流程异常表结构场景1：捕获java.lang.Exception场景2：捕获其他异常（非Exception）关键逻辑还原核心结论深度思考：回答：字节码顺序的逻辑解析1.字节码顺序的两层设计2.指令顺序必要性3.关键顺序对执行结果的影响4.字节码顺序的优化空间（潜
安卓启动流程 fanged Andorid学习 Android
还是以高通为例子。这次整理并不是很完善，下来会参考一些文档再整理。。。高通平台手机开发之Bring-up_测试里面bring-up-CSDN博客高通平台启动过程_高通平台启动流程-CSDN博客https://www.cnblogs.com/schips/p/how_qualcomm_soc_boot.html【AndroidSDM660开机流程】-UEFIXBL代码流程分析_loaddxecore
Rust代写 OCaml代做 Go R语言 SML Haskell Prolog DrRacket Lisp matlabgoodboy rust golang r语言
Rust：Rust是一种注重性能和安全性的系统编程语言。它具有严格的内存管理，能够防止许多常见的内存错误。Rust作业可能涉及编写高效的算法、处理并发问题、与操作系统接口等。OCaml：OCaml是一种函数式编程语言，具有强大的类型系统和模块系统。它适合用于开发高性能、高可靠性的应用程序。OCaml作业可能涉及编写函数、处理数据结构、实现算法等。Go：Go（又称Golang）是一种编译型、并发型，
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他