R常用语法

1、查看变量类型: class查看第一层类别,mode查看第二层类别,typeof查看第三层类别

2、查看长度:length()

3、查看行列:nrow-行 ncol-列

4、分组统计:tapply(y,x,sum)    以x分组统计y,统计函数是sum

5、行列转置:t()

6、查看数组维数:dim()

7、所有参数通用查看函数:str、attribute

8、行列合并:cbind-扩展列,rbind-扩展行

9、获取数据框的所有行名:rownames(数据框名)

10、获取数据框的所有列明:colnames(数据框名)

11、测试集训练集划分:

set.seed(1234)

nn=0.8

data=iris

length(iris[,1])

sub<-sample(1:nrow(data),round(nrow(data)*nn))

length(sub)

data_train<-audit2[sub,]#取0.8的数据做训练集

data_test<-audit2[-sub,]#取0.2的数据做测试集

dim(data_train)#训练集行数和列数

dim(data_test) #测试集的行数和列数

12、我们需要对工资按2 000~3 000,3 000~4 000,4 000以上进行分组,并用table()函数整理成频数表形式: 

> salaryg=cut(salary,breaks=c(2000,3000,4000,max(salary)))

> table(salaryg)

salaryg

  (2e+03,3e+03]   (3e+03,4e+03] (4e+03,4.2e+03] 

             11               6               1 

--

plot(x$x1,x$x2,

main='课程1与课程2的关系', #设置标题

xlab='课程1',#设置横坐标名称,如果不写则默认为该变量的名称

ylab='课程2',#设置纵坐标名称

xlim=c(0,100),#设置横坐标的范围

ylim=c(0,100),#设置纵坐标的范围

xaxs='r',#xaxs='r', yaxs='i':分别设定 x 和y 轴的形式。 "i"(内部)与 "r"(预设值) 形式的刻度都会依照资料的范围而自动调整,但是 "r" 形式的刻度会在刻度范围两边留一些空隙。

yaxs='r',

col='red',#设置点的颜色

pch=20 #设置画图的样式,20表示为圆点

)

-- 绘制预测值与真实值对比

#GMV预测:训练集预测值与真实值拟合折线图:红色-真实,蓝色-预测

plot(c(1,88),c(1,800000),type='n',xlab='城市序号',ylab='GMV')

abline(h=seq(1,800000,by=50000),v=seq(0,88,by=1),col='lightgray',lty=3)

lines(fit_result$gsgmv11,col='red')

lines(fit_result$fitgsgmv11,col='blue')

#GMV预测:测试集预测值与真实值拟合折线图:红色-真实,蓝色-预测

plot(c(1,22),c(1,800000),type='n',xlab='城市序号',ylab='GMV')

abline(h=seq(1,800000,by=50000),v=seq(0,22,by=1),col='lightgray',lty=3)

lines(pred_result$gsgmv11,col='red')

lines(pred_datag$predgsgmv11,col='blue')

cat('GMV预测结果的RMSE为:',rmse_gmv)

-- 绘制图形时添加图例

legend("topright",legend=c("real","predict"), col=c("red","blue"),  lty=1,lwd=2)

-- plot(lm.sol)的四幅图的含义

第一幅残差值为y轴,拟合值为x轴,检验回归模型是否合理,且是否有异方差性,比如残差的分布呈喇叭形

第二幅正态QQ图,检验残差是否正态,因为做线性拟合的时候,假定不确定项服从正态分布,好的拟合残差要服从正态分布

第三幅残差标准差开方为y轴,拟合值为x轴,检验模型是否具有异方差或多重共线性

第四幅残差与杠杆值,检验是否有关于X的outliers

13、探索性分析

str(data_all)  #查看变量特征

table(data_all$city)  #分类变量频数观察是否有重复数据

summary(data_all$ldmoney07)  #营收统计指标

fivenum(data_all$ldmoney07)  #营收五等分数值

car包中的scatterplot()函数,可以很容易、方便地绘制二元关系图

  1. scatterplot(weight~height,  

  2.             data=women,  

  3.             spread=FALSE,  

  4.             lty.smooth=2,  

  5.             pch=19,  

  6.             main="Women Age 30-39",  

  7.             xlab="Height (inches)",  

  8.             ylab="Weight(lbs.)")  

 

 

 

 

你可能感兴趣的:(R,数据探索)