涂零测试

R语言实例：基于Boston数据集的数据分析报告——用 logistic 回归、LDA（线性判别法）、K 临近法（k=1 和 k=5）构建分类模型。目的是预测一个区域的犯罪率是否高于所有犯罪率的中位数

文章目录

问题
Boston 数据集
- 查看数据集
- 数据描述
构建分类模型
- 数据可视化
- logistic 分类模型
- - 构建分类模型的因变量
  - 构建三个不同自变量的模型
  - 交叉验证
  - 结果分析
- LDA 回归模型
- - 结果分析
- K 临近模型
最优子集构建回归模型
- 最优子集
- 划分学习和测试数据集
- 预测犯罪率
代码

问题

请分析 Boston 数据集，并撰写一个数据分析报告。

在报告中主要分析并回答以下两个问题。

用 logistic 回归、LDA（线性判别法）、K 临近法（k=1 和 k=5）构建分类模型。目的是预测一个区域的犯罪率是否高于所有犯罪率的中位数。

在构建每种类型的模型时，请分别选择三组（三个不同子集的）自变量。从三组自变量构造的模型中分别选出一个你认为最好的，你的选择应当基于交叉验证法。请讨论你得到的结果。
用最优子集的方法构建回归模型，预测一个区域的犯罪率。

Boston 数据集

查看数据集

> library(MASS)
> head(Boston) # 查看数据前6行
     crim zn indus chas   nox    rm  age    dis rad tax ptratio  black lstat medv
1 0.00632 18  2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90  4.98 24.0
2 0.02731  0  7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90  9.14 21.6
3 0.02729  0  7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83  4.03 34.7
4 0.03237  0  2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63  2.94 33.4
5 0.06905  0  2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90  5.33 36.2
6 0.02985  0  2.18    0 0.458 6.430 58.7 6.0622   3 222    18.7 394.12  5.21 28.7

数据描述

在命令行中输入?Boston命令，Rstudio 界面出现该数据集的解释界面，如图所示：

Boston数据集描述波士顿郊区的房价，该数据集共506行、14列。

变量	含义
crim	城镇人均犯罪率
zn	25000平方英尺以上地块的住宅用地比例
indus	每个城镇的非零售业务面积比例
chas	Charles River 哑变量¹（如果道沿河而行，该项数值为 1，否则为0）
nox	氮氧化物浓度(千万分之一)
rm	每个住宅的平均房间数
age	1940年以前建造的自有住房比例
dis	五个波士顿就业中心距离的加权平均数
rad	辐射状公路通达性指数
tax	按每10,000美元计算的全值物业税税率
ptratio	城镇师生比例
black	$1000(Bk-0.63)^ 2$ ，其中 $B k$ 是城镇黑人的比例
lstat	底层阶级人口占比（%）
medv	业主自住住宅的中位价值（以1000美元为单位）

构建分类模型

数据可视化

通过查看数据描述，我们知道了每个变量的含义。通过数据可视化，我们可以快速知道数据分布情况，便于下一步构造模型。查看 crim 变量，绘制箱线图。因为数值多分布在0-1范围内，所以在该箱线图中，对y轴的显示取对数，便于更方便地观察数据。

boxplot <- boxplot(Boston$crim,outline = T,log= "y")
boxplot$stats
abline(h=boxplot$stats[1,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[1,], "minimum=0.00632", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[2,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[2,], "Q1=0.08199", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[3,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[3,], "median=0.25651", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[4,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[4,], "Q3=3.67822", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[5,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[5,], "maximum=8.98296", col = 2,adj=c(0,-0.4))

logistic 分类模型

构建分类模型的因变量

构建 logistic 分类模型的因变量，该因变量是二分类的。我们将高于犯罪率（crim）中位数的项记为“1”，否则为“0”。

dt <- Boston# 将 Boston 赋值给 dt
# 构建新变量 crim_bi
# crim_bi：高于 crim 中位数的项记为“1”, 否则为“0”
dt$crim_bi <- ifelse(dt$crim > median(dt$crim), 1, 0)

构建三个不同自变量的模型

#### 构建3个模型 ####
log.fit <- glm(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
               data = dt , family = "binomial")
summary(log.fit)
log.fit2 <- glm(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
               data = dt , family = "binomial")
summary(log.fit2)
log.fit3 <- glm(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
                data = dt , family = "binomial")
summary(log.fit3)

交叉验证

进行交叉验证，将准确率作为衡量标准。

fold_log <- function(log.fit,dt){
  library(caret)
  set.seed(3)
  folds <- createFolds(y=dt[,10],k=10)
  accuracy <- as.numeric()
  for (i in 1:10){
    fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
    fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
    fold_pre<- predict(log.fit,fold_test,type = "response")
    log.class <- ifelse(fold_pre > 0.5, 1, 0)
    a <- table(log.class, fold_test$crim_bi)
    accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
  }
  return(mean(accuracy))
}

fold_log(log.fit,dt)
fold_log(log.fit2,dt)
fold_log(log.fit3,dt)

结果分析

> fold_log(log.fit,dt)
[1] 0.9150087
> fold_log(log.fit2,dt)
[1] 0.9229287
> fold_log(log.fit3,dt)
[1] 0.9090433

由输出结果可知，log.fit2 即第二个模型的准确率更高，为 $0.9229287$ 。

LDA 回归模型

同理，

lda <- lda(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
           data = dt) 
lda2 <- lda(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
           data = dt) 
lda3 <- lda(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
           data = dt) 
fold_lda <- function(lda,dt){
  library(caret)
  set.seed(3)
  folds <- createFolds(y=dt[,10],k=10)
  accuracy <- as.numeric()
  for (i in 1:10){
    fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
    fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
    fold_pre<- predict(lda,fold_test)
    a <- table(predict(lda,fold_test)$class, fold_test$crim_bi)
    accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
  }
  return(mean(accuracy))
}
fold_lda(lda,dt)
fold_lda(lda2,dt)
fold_lda(lda3,dt)

结果分析

> fold_lda(lda,dt)
[1] 0.8556253
> fold_lda(lda2,dt)
[1] 0.8575861
> fold_lda(lda3,dt)
[1] 0.8635469

由输出结果可知，lda3 即第三个模型的准确率更高，为 $0.8635469$ 。

K 临近模型

#### 模型1 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

#### 模型2 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

#### 模型3 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

最优子集构建回归模型

最优子集

library(leaps)
leaps<- regsubsets(crim ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
           data=dt)
plot(leaps,scale = "adjr2")

如图所示，截距+rad的调整R平方值为 $0.39$ 。调整R平方值越高的模型越好，因此最佳预测变量为：
zn+nox+dis+rad+ptratio+black+lstat+medv。

故有：

lmfit<- lm(crim ~ zn+nox+dis+rad+ptratio+black+lstat+medv,
                   data=dt)

划分学习和测试数据集

随机抽取 $\%$ 的数据放入学习数据集，剩余 $30\%$ 放入测试数据集。

dim(dt)
length <- dim(dt)[1]
set.seed(1)
pre <- sample(length,length*0.7)# 随机抽取70 %的观测放入学习数据集
pre <- sort(pre)
train <- dt[pre,]# 学习数据集train
test <-  dt[-pre,]# 剩余30 %放入测试数据集test

预测犯罪率

写一个计算均方误差的函数RMSE:

RMSE=function(t,p){
  return(sqrt(mean((t-p)^2)))
}

用测试数据集预测犯罪率，并计算均方误差：

lm_pre<- predict(lmfit, test) 
RMSE(test$crim,lm_pre)

计算知：

> RMSE(test$crim,lm_pre)
[1] 7.557481

则均方误差为 $7.557481$ 。

代码

rm(list=ls())# 把当前环境中的对象全部删除
library(ggplot2)
library(dplyr)
library(MASS)
head(Boston)# 查看数据前6行
#### 箱线图 ####
boxplot <- boxplot(Boston$crim,outline = T,log= "y")
boxplot$stats
abline(h=boxplot$stats[1,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[1,], "minimum=0.00632", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[2,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[2,], "Q1=0.08199", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[3,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[3,], "median=0.25651", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[4,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[4,], "Q3=3.67822", col = 2,adj=c(0,-0.4))

abline(h=boxplot$stats[5,],lwd=1,col=2,asp = 2,lty = 2)
text(1.25,boxplot$stats[5,], "maximum=8.98296", col = 2,adj=c(0,-0.4))

#### logistic 回归模型 ####
dt <- Boston# 将 Boston 赋值给 dt
# 构建新变量 crim_bi
# crim_bi：高于 crim 中位数的项记为“1”, 否则为“0”
dt$crim_bi <- ifelse(dt$crim > median(dt$crim), 1, 0)

#### 构建3个模型 ####
log.fit <- glm(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
               data = dt , family = "binomial")
summary(log.fit)
log.fit2 <- glm(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
               data = dt , family = "binomial")
summary(log.fit2)
log.fit3 <- glm(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
                data = dt , family = "binomial")
summary(log.fit3)


fold_log <- function(log.fit,dt){
  library(caret)
  set.seed(3)
  folds <- createFolds(y=dt[,10],k=10)
  accuracy <- as.numeric()
  for (i in 1:10){
    fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
    fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
    fold_pre<- predict(log.fit,fold_test,type = "response")
    log.class <- ifelse(fold_pre > 0.5, 1, 0)
    a <- table(log.class, fold_test$crim_bi)
    accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
  }
  return(mean(accuracy))
}

fold_log(log.fit,dt)
fold_log(log.fit2,dt)
fold_log(log.fit3,dt)

#### 划分测试和学习数据集 ####
dim(dt)
length <- dim(dt)[1]
set.seed(5)
pre <- sample(length,length*0.8)#随机抽取 80%的观测放入学习数据集
pre <- sort(pre)# 排序
train <- dt[pre,]# 随机抽取 80%的观测放入学习数据集train
test <-  dt[-pre,]# 测试数据集test

log.pred <- predict(log.fit2, test, type = "response")
log.class <- ifelse(log.pred > 0.5, 1, 0)
# 混淆矩阵
table(log.class, test$crim_bi)

#### LDA 回归模型 ####
lda <- lda(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
           data = dt) 
lda2 <- lda(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
           data = dt) 
lda3 <- lda(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
           data = dt) 
fold_lda <- function(lda,dt){
  library(caret)
  set.seed(3)
  folds <- createFolds(y=dt[,10],k=10)
  accuracy <- as.numeric()
  for (i in 1:10){
    fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
    fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
    fold_pre<- predict(lda,fold_test)
    a <- table(predict(lda,fold_test)$class, fold_test$crim_bi)
    accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
  }
  return(mean(accuracy))
}
fold_lda(lda,dt)
fold_lda(lda2,dt)
fold_lda(lda3,dt)
#### K 临近模型 ####
#### 模型1 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

#### 模型2 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+indus+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

#### 模型3 ####
# k=1
library(kknn)
library(caret)
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=1)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)
# k=5
set.seed(3)
folds <- createFolds(y=dt[,10],k=10)
accuracy <- as.numeric()
for (i in 1:10){
  fold_test <- dt[folds[[i]],] #取folds[[i]]作为测试集
  fold_train <- dt[-folds[[i]],] # 剩下的数据作为训练集
  knn <- kknn(crim_bi ~ zn+nox+age+dis+rad+tax+ptratio+black+medv,
              fold_train,fold_test,k=5)
  pre_knn <- fitted(knn)
  pre_knn <- ifelse(pre_knn > 0.5, 1, 0)
  a <- table(pre_knn, fold_test$crim_bi)
  accuracy <- append(accuracy,(a[1]+a[4])/sum(a))
}
mean(accuracy)

library(leaps)
leaps<- regsubsets(crim ~ zn+indus+chas+nox+rm+age+dis+rad+tax+ptratio+black+lstat+medv,
           data=dt)
plot(leaps,scale = "adjr2")
lmfit<- lm(crim ~ zn+nox+dis+rad+ptratio+black+lstat+medv,
                   data=dt)

dim(dt)
length <- dim(dt)[1]
set.seed(1)
pre <- sample(length,length*0.7)# 随机抽取70 %的观测放入学习数据集
pre <- sort(pre)
train <- dt[pre,]# 学习数据集train
test <-  dt[-pre,]# 剩余30 %放入测试数据集test

lm_pre<- predict(lmfit, test) 
RMSE=function(t,p){
  return(sqrt(mean((t-p)^2)))
}
RMSE(test$crim,lm_pre)

哑变量一般指虚拟变量。虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明。 ↩︎

零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
软件测试基础知识必备之浅谈单元测试程序员阿沐软件测试软件测试单元测试
什么是单元测试？单元测试是指，对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作，这里的最小可测试单元通常是指函数或者类。单元测试都是以自动化的方式执行，所以在大量回归测试的场景下更能带来高收益。单元测试代码里提供函数的使用示例，因为单元测试的具体表现形式就是对函数以各种不同输入参数组合进行调用。如何做好单元测试？1）代码的基本特征与产生错误的原因无论是开发语言还是脚本语言
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
Pandas库中pd.to_datetime()函数用法详细介绍 Pythoner研习社零基础学python pandas python 开发语言
pd.to_datetime()是Pandas库中用来将日期和时间字符串转换为日期时间对象的一个非常有用的函数，常用它进行时间上的计算和数据分析。1功能简介在Pandas中，pd.to_datetime()函数可以接收多种格式的日期时间字符串、列表、数组或者Pandas的Series对象，然后将它们转换成Pandas的datetime64类型。转换后的数据可以更好地与Pandas的日期时间功能集成
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
HarmonyOS5开发：Ark-TS 深度解析：从状态管理到性能优化，揭秘鸿蒙开发的底层逻辑 harmonyos-next
Ark-TS作为鸿蒙生态的核心开发语言，其设计哲学和技术细节值得让我们一起深入挖掘以下下。这篇文章将会带您和我们一起聚焦Ark-TS的状态管理机制、类型系统优化及声明式UI的底层实现，通过代码示例和原理分析，带您揭开Ark-TS高效开发的神秘面纱。一、状态管理：Ark-TS的“神经中枢”在Ark-TS中，状态管理是驱动UI更新的核心机制。不同的状态装饰器（如@State、@Prop、@Link）各
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

R语言实例：基于Boston数据集的数据分析报告——用 logistic 回归、LDA（线性判别法）、K 临近法（k=1 和 k=5）构建分类模型。目的是预测一个区域的犯罪率是否高于所有犯罪率的中位数

文章目录

问题

Boston 数据集

查看数据集

数据描述

构建分类模型

数据可视化

logistic 分类模型

构建分类模型的因变量

构建三个不同自变量的模型

交叉验证

结果分析

LDA 回归模型

结果分析

K 临近模型

最优子集构建回归模型

最优子集

划分学习和测试数据集

预测犯罪率

代码

你可能感兴趣的:(R语言,r语言,数据分析,开发语言)