a_achengsong

Adative-lasso+灰色预测（R）

最近在看特征的选择，看到lasso对特征选择不错，下面直接上干货

数据为广州统计年检2015年数据

目标：

1) 梳理影响地方财政收入的关键特征，分析、识别影响地方财政收入的关键特征的选择模型；

2) 结合目标1的因素分析，对广州市2015年的财政总收入及各个类别收入进行预测。

下面为R语言代码部分

head(data)

##        x1     x2      x3       x4      x5      x6     x7      x8    x9
## 1 3831732 181.54  448.19  7571.00 6212.70 6370241 525.71  985.31 60.62
## 2 3913824 214.63  549.97  9038.16 7601.73 6467115 618.25 1259.20 73.46
## 3 3928907 239.56  686.44  9905.31 8092.82 6560508 638.94 1468.06 81.16
## 4 4282130 261.58  802.59 10444.60 8767.98 6664862 656.58 1678.12 85.72
## 5 4453911 283.14  904.57 11255.70 9422.33 6741400 758.83 1893.52 88.88
## 6 4548852 308.58 1000.69 12018.52 9751.44 6850024 878.26 2139.18 92.85
##      x10   x11   x12  x13      y
## 1  65.66 120.0 1.029 5321  64.87
## 2  95.46 113.5 1.051 6529  99.75
## 3  81.16 108.2 1.064 7008  88.11
## 4  91.70 102.2 1.092 7694 106.07
## 5 114.61  97.7 1.200 8027 137.32
## 6 152.78  98.5 1.198 8549 188.14

Data <- data

###数据概括性度量
Min=sapply(Data,min)      #最小值
Max=sapply(Data,max)      #最大值
Mean=sapply(Data,mean)    #均值
SD=sapply(Data,sd)        #方差
cbind(Min,Max,Mean,SD)

##             Min         Max         Mean           SD
## x1  3831732.000 7599295.000 5579519.9500 1.262195e+06
## x2      181.540    2110.780     765.0350 5.956983e+02
## x3      448.190    6882.850    2370.8250 1.919167e+03
## x4     7571.000   42049.140   19644.6850 1.020302e+04
## x5     6212.700   33156.830   15870.9480 8.199771e+03
## x6  6370241.000 8323096.000 7350513.6000 6.213419e+05
## x7      525.710    4454.550    1712.2390 1.184714e+03
## x8      985.310   15420.140    5705.7990 4.478400e+03
## x9       60.620     228.460     129.4935 5.050983e+01
## x10      65.660     852.560     340.2165 2.515779e+02
## x11      97.500     120.000     103.3050 5.513283e+00
## x12       1.029       1.906       1.4222 2.532348e-01
## x13    5321.000   41972.000   17273.8000 1.110919e+04
## y        64.870    2088.140     618.0840 6.092545e+02

#pearson相关系数，保留两位小数
round(cor(Data,method = c("pearson")),2)

##        x1    x2    x3    x4    x5    x6    x7    x8    x9   x10   x11
## x1   1.00  0.95  0.95  0.97  0.97  0.99  0.95  0.97  0.98  0.98 -0.29
## x2   0.95  1.00  1.00  0.99  0.99  0.92  0.99  0.99  0.98  0.98 -0.13
## x3   0.95  1.00  1.00  0.99  0.99  0.92  1.00  0.99  0.98  0.99 -0.15
## x4   0.97  0.99  0.99  1.00  1.00  0.95  0.99  1.00  0.99  1.00 -0.19
## x5   0.97  0.99  0.99  1.00  1.00  0.95  0.99  1.00  0.99  1.00 -0.18
## x6   0.99  0.92  0.92  0.95  0.95  1.00  0.93  0.95  0.97  0.96 -0.34
## x7   0.95  0.99  1.00  0.99  0.99  0.93  1.00  0.99  0.98  0.99 -0.15
## x8   0.97  0.99  0.99  1.00  1.00  0.95  0.99  1.00  0.99  1.00 -0.15
## x9   0.98  0.98  0.98  0.99  0.99  0.97  0.98  0.99  1.00  0.99 -0.23
## x10  0.98  0.98  0.99  1.00  1.00  0.96  0.99  1.00  0.99  1.00 -0.17
## x11 -0.29 -0.13 -0.15 -0.19 -0.18 -0.34 -0.15 -0.15 -0.23 -0.17  1.00
## x12  0.94  0.89  0.89  0.91  0.90  0.95  0.89  0.90  0.91  0.90 -0.43
## x13  0.96  1.00  1.00  1.00  0.99  0.94  1.00  1.00  0.99  0.99 -0.16
## y    0.94  0.98  0.99  0.99  0.99  0.91  0.99  0.99  0.98  0.99 -0.12
##       x12   x13     y
## x1   0.94  0.96  0.94
## x2   0.89  1.00  0.98
## x3   0.89  1.00  0.99
## x4   0.91  1.00  0.99
## x5   0.90  0.99  0.99
## x6   0.95  0.94  0.91
## x7   0.89  1.00  0.99
## x8   0.90  1.00  0.99
## x9   0.91  0.99  0.98
## x10  0.90  0.99  0.99
## x11 -0.43 -0.16 -0.12
## x12  1.00  0.90  0.87
## x13  0.90  1.00  0.99
## y    0.87  0.99  1.00

#加载adapt-lasso源代码

lasso.adapt.bic2<-function(x,y){
require(lars)
ok<-complete.cases(x,y)
x<-x[ok,]                           
y<-y[ok]                             
m<-ncol(x)
n<-nrow(x)
x<-as.matrix(x)                      
one <- rep(1, n)
meanx <- drop(one %*% x)/n
xc <- scale(x, meanx, FALSE)         
normx <- sqrt(drop(one %*% (xc^2)))
names(normx) <- NULL
xs <- scale(xc, FALSE, normx)        
out.ls=lm(y~xs)                      
beta.ols=out.ls$coeff[2:(m+1)]       
w=abs(beta.ols)                      
xs=scale(xs,center=FALSE,scale=1/w) 
object=lars(xs,y,type="lasso",normalize=FALSE)
sig2f=summary(out.ls)$sigma^2        
bic2=log(n)*object$df+as.vector(object$RSS)/sig2f       
step.bic2=which.min(bic2)            
fit=predict.lars(object,xs,s=step.bic2,type="fit",mode="step")$fit
coeff=predict.lars(object,xs,s=step.bic2,type="coef",mode="step")$coefficients
coeff=coeff*w/normx                 
st=sum(coeff !=0)                    
mse=sum((y-fit)^2)/(n-st-1)          
if(st>0) x.ind<-as.vector(which(coeff !=0)) else x.ind<-0
intercept=as.numeric(mean(y)-meanx%*%coeff)
return(list(fit=fit,st=st,mse=mse,x.ind=x.ind,coeff=coeff,intercept=intercept,object=object,
            bic2=bic2,step.bic2=step.bic2))
}
out1<-lasso.adapt.bic2(x=Data[,1:13],y=Data$y)

## Loading required package: lars

## Loaded lars 1.2

#adapt-lasso输出结果名称
names(out1)

## [1] "fit"       "st"        "mse"       "x.ind"     "coeff"     "intercept"
## [7] "object"    "bic2"      "step.bic2"

#变量选择输出结果序号
out1$x.ind

## [1] 1 2 3 4 5 7

#保留五位小数
round(out1$coeff,5)

##       x1       x2       x3       x4       x5       x6       x7       x8 
## -0.00008 -0.23088  0.13746 -0.04005  0.07601  0.00000  0.30692  0.00000 
##       x9      x10      x11      x12      x13 
##  0.00000  0.00000  0.00000  0.00000  0.00000

#加载GM(1,1)源文件
gm11<-function(x0,t){ #x0为输入学列，t为预测个数
x1<-cumsum(x0) #一次累加生成序列1-AG0序列
b<-numeric(length(x0)-1)
n<-length(x0)-1
for(i in 1:n){ #生成x1的紧邻均值生成序列
b[i]<--(x1[i]+x1[i+1])/2 
b} #得序列b，即为x1的紧邻均值生成序列
D<-numeric(length(x0)-1)
D[]<-1
B<-cbind(b,D)
BT<-t(B)#做逆矩阵
M<-solve(BT%*%B)
YN<-numeric(length(x0)-1)
YN<-x0[2:length(x0)]
alpha<-M%*%BT%*%YN  #模型的最小二乘估计参数列满足alpha尖
alpha2<-matrix(alpha,ncol=1)
a<-alpha2[1]
u<-alpha2[2]
cat("GM(1,1)参数估计值：",'\n',"发展系数-a=",-a,"  ","灰色作用量u=",u,'\n','\n') #利用最小二乘法求得参数估计值a,u
y<-numeric(length(c(1:t)))
y[1]<-x1[1]
for(w in 1:(t-1)){  #将a,u的估计值代入时间响应序列函数计算x1拟合序列y
y[w+1]<-(x1[1]-u/a)*exp(-a*w)+u/a 
}
##cat("x(1)的模拟值：",'\n',y,'\n')
xy<-numeric(length(y))
xy[1]<-y[1]
for(o in 2:t){ #运用后减运算还原得模型输入序列x0预测序列
xy[o]<-y[o]-y[o-1] 
} 
cat("x(0)的模拟值：",'\n',xy,'\n','\n')                       

#计算残差e
e<-numeric(length(x0))
for(l in 1:length(x0)){
e[l]<-x0[l]-xy[l] #得残差
}
##cat("残差：",'\n',e,'\n')
#计算相对误差
e2<-numeric(length(x0))
for(s in 1:length(x0)){
e2[s]<-(abs(e[s])/x0[s]) #得相对误差
}
##cat("相对残差：",'\n',e2,'\n','\n')
cat("残差平方和=",sum(e^2),'\n')
cat("平均相对误差=",sum(e2)/(length(e2)-1)*100,"%",'\n')
cat("相对精度=",(1-(sum(e2)/(length(e2)-1)))*100,"%",'\n','\n')

#后验差比值检验
avge<-mean(abs(e));esum<-sum((abs(e)-avge)^2);evar=esum/(length(e)-1);se=sqrt(evar)  #计算残差的方差se
avgx0<-mean(x0);x0sum<-sum((x0-avgx0)^2);x0var=x0sum/(length(x0));sx=sqrt(x0var)  #计算原序列x0的方差sx
cv<-se/sx  #得验差比值
cat("后验差比值检验:",'\n',"C值=",cv,'\n')#对后验差比值进行检验，与一般标准进行比较判断预测结果好坏。
if(cv < 0.35){     
cat("C值<0.35, GM(1,1)预测精度等级为：好",'\n','\n')
}else{
if(cv<0.5){
cat("C值属于[0.35,0.5), GM(1,1)模型预测精度等级为：合格",'\n','\n')
}else{
if(cv<0.65){
cat("C值属于[0.5,0.65), GM(1,1)模型预测精度等级为：勉强合格",'\n','\n')
}else{
cat("C值>=0.65, GM(1,1)模型预测精度等级为：不合格",'\n','\n')
}
}
}
#画出输入序列x0的预测序列及x0的比较图像
plot(xy,col='blue',type='b',pch=16,xlab='时间序列',ylab='值')
points(x0,col='red',type='b',pch=4)
legend('topleft',c('预测值','原始值'),pch=c(16,4),lty=l,col=c('blue','red'))
}

gm11(Data$x1/10000,length(Data$x1/10000)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.03835295    灰色作用量u= 370.7037 
##  
## x(0)的模拟值： 
##  383.1732 392.8855 408.2465 424.2081 440.7937 458.0279 475.9358 494.5439 513.8795 533.9711 554.8483 576.5417 599.0833 622.5062 646.8449 672.1352 698.4143 725.7208 754.095 783.5785 814.2148 846.0489 
##  
## 残差平方和= 2305.495 
## 平均相对误差= 1.544396 % 
## 相对精度= 98.4556 % 
##  
## 后验差比值检验: 
##  C值= 0.05756843 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

gm11(Data$x2,length(Data$x2)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.1420708    灰色作用量u= 114.3558 
##  
## x(0)的模拟值： 
##  181.54 150.5915 173.5805 200.079 230.6227 265.8292 306.4102 353.1862 407.1031 469.2507 540.8857 623.4564 718.6322 828.3373 954.7899 1100.546 1268.554 1462.209 1685.428 1942.722 2239.295 2581.142 
##  
## 残差平方和= 203945.3 
## 平均相对误差= 11.91801 % 
## 相对精度= 88.08199 % 
##  
## 后验差比值检验: 
##  C值= 0.1253891 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

gm11(Data$x3,length(Data$x3)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.1481547    灰色作用量u= 325.0103 
##  
## x(0)的模拟值： 
##  448.19 421.8931 489.2662 567.3983 658.0074 763.0861 884.9451 1026.264 1190.151 1380.209 1600.617 1856.224 2152.648 2496.41 2895.067 3357.387 3893.536 4515.304 5236.363 6072.57 7042.313 8166.916 
##  
## 残差平方和= 2632445 
## 平均相对误差= 14.39723 % 
## 相对精度= 85.60277 % 
##  
## 后验差比值检验: 
##  C值= 0.1294414 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

gm11(Data$x4,length(Data$x4)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.09153405    灰色作用量u= 6623.01 
##  
## x(0)的模拟值： 
##  7571 7661.301 8395.668 9200.427 10082.33 11048.76 12107.83 13268.41 14540.24 15933.98 17461.32 19135.06 20969.24 22979.22 25181.87 27595.66 30240.82 33139.52 36316.08 39797.13 43611.84 47792.22 
##  
## 残差平方和= 28272186 
## 平均相对误差= 6.861215 % 
## 相对精度= 93.13878 % 
##  
## 后验差比值检验: 
##  C值= 0.06165169 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

gm11(Data$x5,length(Data$x5)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.09096704    灰色作用量u= 5379.414 
##  
## x(0)的模拟值： 
##  6212.7 6223.333 6815.999 7465.106 8176.03 8954.657 9807.435 10741.43 11764.36 12884.72 14111.77 15455.67 16927.56 18539.62 20305.2 22238.93 24356.8 26676.37 29216.84 31999.24 35046.63 38384.22 
##  
## 残差平方和= 23928475 
## 平均相对误差= 8.349924 % 
## 相对精度= 91.65008 % 
##  
## 后验差比值检验: 
##  C值= 0.05264316 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

gm11(Data$x7,length(Data$x7)+2)

## GM(1,1)参数估计值： 
##  发展系数-a= 0.1253527    灰色作用量u= 333.0637 
##  
## x(0)的模拟值： 
##  525.71 425.0468 481.811 546.1559 619.094 701.7729 795.4933 901.73 1022.154 1158.661 1313.398 1488.8 1687.626 1913.006 2168.484 2458.081 2786.353 3158.466 3580.273 4058.412 4600.405 5214.78 
##  
## 残差平方和= 677775.7 
## 平均相对误差= 9.980516 % 
## 相对精度= 90.01948 % 
##  
## 后验差比值检验: 
##  C值= 0.1109471 
## C值<0.35, GM(1,1)预测精度等级为：好 
##

#读入数据
library(nnet)
Data=read.csv("C:\\Users\\Administrator\\Desktop\\R\\adaptive-lasso\\revenue.csv",header=F)
asData=scale(Data)
colnames(asData) <- c("x1","x2","x3","x4","x5","x7","y") #每列列名
nn<-nnet(y~.,asData[1:21,],size=6,decay=0.00000001,maxit=10000,linout=T,trace=T)

## # weights:  49
## initial  value 40.317478 
## iter  10 value 0.326297
## iter  20 value 0.121196
## iter  30 value 0.034224
## iter  40 value 0.023359
## iter  50 value 0.016672
## iter  60 value 0.014192
## iter  70 value 0.011420
## iter  80 value 0.008432
## iter  90 value 0.007245
## iter 100 value 0.005231
## iter 110 value 0.004414
## iter 120 value 0.003734
## iter 130 value 0.002781
## iter 140 value 0.002027
## iter 150 value 0.001551
## iter 160 value 0.001449
## iter 170 value 0.001375
## iter 180 value 0.001350
## iter 190 value 0.001335
## iter 200 value 0.001256
## iter 210 value 0.001244
## iter 220 value 0.001208
## iter 230 value 0.001193
## iter 240 value 0.001139
## iter 250 value 0.001079
## iter 260 value 0.001027
## iter 270 value 0.000970
## iter 280 value 0.000913
## iter 290 value 0.000849
## iter 300 value 0.000797
## iter 310 value 0.000761
## iter 320 value 0.000740
## iter 330 value 0.000724
## iter 340 value 0.000706
## iter 350 value 0.000665
## iter 360 value 0.000620
## iter 370 value 0.000535
## iter 380 value 0.000493
## iter 390 value 0.000344
## iter 400 value 0.000276
## iter 410 value 0.000263
## iter 420 value 0.000238
## iter 430 value 0.000216
## iter 440 value 0.000186
## iter 450 value 0.000175
## iter 460 value 0.000145
## iter 470 value 0.000129
## final  value 0.000099 
## converged

predict<-predict(nn,asData[,1:6])
predict=predict*sd(Data[1:21,7])+mean(Data[1:21,7])
a=1994:2015
#画出序列预测值、真实值图像
plot(predict,col='red',type='b',pch=16,xlab='年份',ylab='地方财政收入 / 万元',xaxt="n")
points(Data[1:21,7],col='blue',type='b',pch=4)
legend('topleft',c('地方财政收入预测值','地方财政收入真实值'),pch=c(16,4),col=c('red','blue'))
axis(1,at=1:22,labels=a)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Adative-lasso+灰色预测（R）

你可能感兴趣的:(数据挖掘(R语言))