1、查看变量类型: class查看第一层类别,mode查看第二层类别,typeof查看第三层类别
2、查看长度:length()
3、查看行列:nrow-行 ncol-列
4、分组统计:tapply(y,x,sum) 以x分组统计y,统计函数是sum
5、行列转置:t()
6、查看数组维数:dim()
7、所有参数通用查看函数:str、attribute
8、行列合并:cbind-扩展列,rbind-扩展行
9、获取数据框的所有行名:rownames(数据框名)
10、获取数据框的所有列明:colnames(数据框名)
11、测试集训练集划分:
set.seed(1234)
nn=0.8
data=iris
length(iris[,1])
sub<-sample(1:nrow(data),round(nrow(data)*nn))
length(sub)
data_train<-audit2[sub,]#取0.8的数据做训练集
data_test<-audit2[-sub,]#取0.2的数据做测试集
dim(data_train)#训练集行数和列数
dim(data_test) #测试集的行数和列数
12、我们需要对工资按2 000~3 000,3 000~4 000,4 000以上进行分组,并用table()函数整理成频数表形式:
> salaryg=cut(salary,breaks=c(2000,3000,4000,max(salary)))
> table(salaryg)
salaryg
(2e+03,3e+03] (3e+03,4e+03] (4e+03,4.2e+03]
11 6 1
--
plot(x$x1,x$x2,
main='课程1与课程2的关系', #设置标题
xlab='课程1',#设置横坐标名称,如果不写则默认为该变量的名称
ylab='课程2',#设置纵坐标名称
xlim=c(0,100),#设置横坐标的范围
ylim=c(0,100),#设置纵坐标的范围
xaxs='r',#xaxs='r', yaxs='i':分别设定 x 和y 轴的形式。 "i"(内部)与 "r"(预设值) 形式的刻度都会依照资料的范围而自动调整,但是 "r" 形式的刻度会在刻度范围两边留一些空隙。
yaxs='r',
col='red',#设置点的颜色
pch=20 #设置画图的样式,20表示为圆点
)
-- 绘制预测值与真实值对比
#GMV预测:训练集预测值与真实值拟合折线图:红色-真实,蓝色-预测
plot(c(1,88),c(1,800000),type='n',xlab='城市序号',ylab='GMV')
abline(h=seq(1,800000,by=50000),v=seq(0,88,by=1),col='lightgray',lty=3)
lines(fit_result$gsgmv11,col='red')
lines(fit_result$fitgsgmv11,col='blue')
#GMV预测:测试集预测值与真实值拟合折线图:红色-真实,蓝色-预测
plot(c(1,22),c(1,800000),type='n',xlab='城市序号',ylab='GMV')
abline(h=seq(1,800000,by=50000),v=seq(0,22,by=1),col='lightgray',lty=3)
lines(pred_result$gsgmv11,col='red')
lines(pred_datag$predgsgmv11,col='blue')
cat('GMV预测结果的RMSE为:',rmse_gmv)
-- 绘制图形时添加图例
legend("topright",legend=c("real","predict"), col=c("red","blue"), lty=1,lwd=2)
-- plot(lm.sol)的四幅图的含义
第一幅残差值为y轴,拟合值为x轴,检验回归模型是否合理,且是否有异方差性,比如残差的分布呈喇叭形
第二幅正态QQ图,检验残差是否正态,因为做线性拟合的时候,假定不确定项服从正态分布,好的拟合残差要服从正态分布
第三幅残差标准差开方为y轴,拟合值为x轴,检验模型是否具有异方差或多重共线性
第四幅残差与杠杆值,检验是否有关于X的outliers
13、探索性分析
str(data_all) #查看变量特征
table(data_all$city) #分类变量频数观察是否有重复数据
summary(data_all$ldmoney07) #营收统计指标
fivenum(data_all$ldmoney07) #营收五等分数值
car包中的scatterplot()函数,可以很容易、方便地绘制二元关系图
scatterplot(weight~height,
data=women,
spread=FALSE,
lty.smooth=2,
pch=19,
main="Women Age 30-39",
xlab="Height (inches)",
ylab="Weight(lbs.)")