xlab、ylab:添加x、y轴标签
main:添加标题
range(x):查看x的取值范围
pch:默认空心点,可更改选项参数更改点的形状
cex:更改尺寸(绘图字符的尺寸)
cex.axis:坐标轴文字尺寸
cex.lab:坐标轴标签颜色
cex.main:标题尺寸
cex.sub:副标题尺寸
col:更改颜色 与cex参数相对应,只需将cex改为col即可
fg:前景色 bg:背景色
更改颜色与点相同
lty:可更改选项改变线条类型
loess(y~x):画一条拟合的平滑线 fitted(loess(y~x))
pie(x,labels=,col=) #饼图
pie3D(x,labels=) #3D饼图
barplot(x,names.arg=,col=rainbow(10)) #条形图 rainbow自动配色
boxplot(x) #箱线图 从顶到底为max、75%、50%、25%、min
hist(x) #直方图 breaks为组数
lines(density(x),col=,lwd=) #核密度曲线
lines(xfit,yfit,col=,lwd=) #正态密度曲线( xfit<-seq(min(x),max(x),length=100)
yfit<-dnorm(xfit,mean=mean(x),sd=sd(x))
yfit<-yfit*diff(h$mids[1:2])*length(x) )
画布 p<-ggplot(data=,mapping=)
图层 p+绘图命令
绘图命令 geom_XXX()
XXX: area为面积图、bar为条形图、boxplot为箱线图、contour为等高线图
density为密度图、errorbar为误差图、histogram为直方图、
jitter为点、line为线、point为散点图、text为文本
映射 aes(x=,y=,color=,size=) 将数据变量映射到图形属性(坐标、颜色。。)
mapping映射控制二者之间的关系
+ ggtitle(" ") #添加标题
+ labs(y="",x="") #坐标轴修饰
+ guides(size=guide_legend(...)) #修改图例
统计绘图命令 stat_XXX()
XXX 描述 abline 添加线条,用斜率和线条表示 boxplot
绘制带触须的箱线图 contour
绘制三维数据的等高线图 density 绘制密度图 density2d 绘制二维密度图 function 添加函数曲线 hline 添加水平线 smooth 添加平滑曲线 sum 绘制不重复的取值之和(通常在三点图上) summary 绘制汇总数据 标记绘图命令 scale_XXX()
XXX 描述 alpha alpha通道值(灰度) brewer 调色板 continuous 连续标度 data
日期 datetime 日期和时间 discrete
离散值 gradient 2种颜色构建的渐变色 gradient2 3种颜色构建的渐变色 gradientn n种颜色构建的渐变色 grey 灰度颜色 hue 均与色调 identity 直接使用指定的取值,不进行标度转换 linetype 用线条模式来展示不同 manual 手动指定离散标度 shape 用不同形状展示不同数值 size 用不同大小的对象来展示不同的数值 size_continuous 用标度修改大小取值 fill_continuous 同标度设置填充值
1.FALSE(假)
2.NA(缺失值)
3.NULL(未知状态,不会在计算之中)
4.NaN(无意义的数)
is.na(x) 判断x是否为缺失值
complete.cases(x) 判断x是否为完整的函数
利用vim包的aggr函数以图形方式描述缺失数据
利用mice包的md.pattern(x)函数返回数据缺失模式
summary函数显示每个变量的缺失数量
异常值(离群点),指测量数据中的随即错误或偏差,包括错误值或偏离均值的孤立点值
检验方法:箱线图检验、散点图检验、LOF方法检测、聚类方法检测
解释数据分布的特征和类型,分为定量数据(直方图、核密度图、茎叶图)和定性数据(根据分类变量分组)
同比:今年第n月与去年第n月比,即同期比
环比:年报的同比分析就是用报告期的数据与上期或以往几个年报数据进行对比
定基比:环比指数的乘积
三者之间的关系:统计指标按其具体内容、实际作用、表现形式可以分为总量指标(同比)、相对指标(环比)、平均指标(定基比)
集中趋势度量(均值、中位数、众数)
离中趋势度量(极差、标准差、变异系数、四分位数间距)
散点图、散点图矩阵、计算相关系数(Pearson相关系数、Spearman秩相关系数)
缺失数据处理:①缺失数据较少时可直接删除相应样本
②对缺失数据进行插补
③对缺失值不敏感的分析方法,如决策树
数据重复检测函数:unique(对向量适用)、duplicated(对向量、数据框适用)
数据中心化:scale(x,center=T,scale=F)
数据标准化:scale(x,center=T,scale=T)
if-else结构:if(cond) statement
ifelse结构:if(cond,statement1,statement2)
switch结构:switch(expr,...)
repeat循环:执行序列语句多次,并管理循环变量代码
repeat statement
while循环:重复声明语句或语句组,当给定的条件为真,它的测试条件执行在循环体之前
while(cond) statement
for循环:类似while语句,但其测试条件在循环体末尾
for(var i in seq) statement
break语句:终止循环语句和转移的执行语句后立刻到循环后
next语句:下个语句模拟R语言的switch行为
函数定义:function_name<-function(arg_1,arg_2,...){ }
函数调用:function_name(arg_1,arg_2,...)