R语言 part2 数据可视化、数据探索、数据变换、编程

数据可视化

plot( )

1.点  plot(x,y,type="p")

xlab、ylab:添加x、y轴标签

main:添加标题

range(x):查看x的取值范围

pch:默认空心点,可更改选项参数更改点的形状

cex:更改尺寸(绘图字符的尺寸)

        cex.axis:坐标轴文字尺寸

        cex.lab:坐标轴标签颜色

        cex.main:标题尺寸

        cex.sub:副标题尺寸

col:更改颜色   与cex参数相对应,只需将cex改为col即可

        fg:前景色            bg:背景色

2.线  plot(x,y,type="l")    type="b"为下画线

更改颜色与点相同

lty:可更改选项改变线条类型

loess(y~x):画一条拟合的平滑线       fitted(loess(y~x))

3.图像

pie(x,labels=,col=)     #饼图

pie3D(x,labels=)        #3D饼图

barplot(x,names.arg=,col=rainbow(10))     #条形图    rainbow自动配色

boxplot(x)                  #箱线图  从顶到底为max、75%、50%、25%、min

hist(x)                        #直方图     breaks为组数

lines(density(x),col=,lwd=)  #核密度曲线

lines(xfit,yfit,col=,lwd=)       #正态密度曲线( xfit<-seq(min(x),max(x),length=100)

                                                                       yfit<-dnorm(xfit,mean=mean(x),sd=sd(x))

                                                                       yfit<-yfit*diff(h$mids[1:2])*length(x)    )

ggplot2

画布   p<-ggplot(data=,mapping=)

图层   p+绘图命令

绘图命令   geom_XXX()   

                 XXX: area为面积图、bar为条形图、boxplot为箱线图、contour为等高线图

                             density为密度图、errorbar为误差图、histogram为直方图、

                             jitter为点、line为线、point为散点图、text为文本

                 映射  aes(x=,y=,color=,size=)    将数据变量映射到图形属性(坐标、颜色。。)

                          mapping映射控制二者之间的关系

+  ggtitle(" ")   #添加标题

+  labs(y="",x="")    #坐标轴修饰

+  guides(size=guide_legend(...))   #修改图例

统计绘图命令  stat_XXX()

XXX 描述
abline 添加线条,用斜率和线条表示

boxplot

绘制带触须的箱线图

contour

绘制三维数据的等高线图
density 绘制密度图
density2d 绘制二维密度图
function 添加函数曲线
hline 添加水平线
smooth 添加平滑曲线
sum 绘制不重复的取值之和(通常在三点图上)
summary 绘制汇总数据

标记绘图命令  scale_XXX()

XXX 描述
alpha alpha通道值(灰度)
brewer 调色板
continuous 连续标度

data

日期
datetime 日期和时间

discrete

离散值
gradient 2种颜色构建的渐变色
gradient2 3种颜色构建的渐变色
gradientn n种颜色构建的渐变色
grey 灰度颜色
hue 均与色调
identity 直接使用指定的取值,不进行标度转换
linetype 用线条模式来展示不同
manual 手动指定离散标度
shape 用不同形状展示不同数值
size 用不同大小的对象来展示不同的数值
size_continuous 用标度修改大小取值
fill_continuous 同标度设置填充值

数据探索

缺失值

相关概念

1.FALSE(假)

2.NA(缺失值)

3.NULL(未知状态,不会在计算之中)

4.NaN(无意义的数)

检测

is.na(x)   判断x是否为缺失值

complete.cases(x)   判断x是否为完整的函数

利用vim包的aggr函数以图形方式描述缺失数据

利用mice包的md.pattern(x)函数返回数据缺失模式

summary函数显示每个变量的缺失数量

异常值

异常值(离群点),指测量数据中的随即错误或偏差,包括错误值或偏离均值的孤立点值

检验方法:箱线图检验、散点图检验、LOF方法检测、聚类方法检测

数据统计特征分析

分布分析

解释数据分布的特征和类型,分为定量数据(直方图、核密度图、茎叶图)和定性数据(根据分类变量分组)

对比分析

同比:今年第n月与去年第n月比,即同期比

环比:年报的同比分析就是用报告期的数据与上期或以往几个年报数据进行对比

定基比:环比指数的乘积

三者之间的关系:统计指标按其具体内容、实际作用、表现形式可以分为总量指标(同比)、相对指标(环比)、平均指标(定基比)

统计量分析

集中趋势度量(均值、中位数、众数)

离中趋势度量(极差、标准差、变异系数、四分位数间距)

周期性分析

相关性分析

 散点图、散点图矩阵、计算相关系数(Pearson相关系数、Spearman秩相关系数)

数据变换

数据清洗

缺失数据处理:①缺失数据较少时可直接删除相应样本

                         ②对缺失数据进行插补

                         ③对缺失值不敏感的分析方法,如决策树

数据重复检测函数:unique(对向量适用)、duplicated(对向量、数据框适用)

数据中心化:scale(x,center=T,scale=F)

数据标准化:scale(x,center=T,scale=T)

高级编程

控制结构

if-else结构:if(cond) statement

ifelse结构:if(cond,statement1,statement2)

switch结构:switch(expr,...)

循环结构

循环类型

repeat循环:执行序列语句多次,并管理循环变量代码

                repeat statement

while循环:重复声明语句或语句组,当给定的条件为真,它的测试条件执行在循环体之前

                while(cond) statement

for循环:类似while语句,但其测试条件在循环体末尾

                for(var i in seq) statement

循环控制语句

break语句:终止循环语句和转移的执行语句后立刻到循环后

next语句:下个语句模拟R语言的switch行为

用户自定义函数

函数定义:function_name<-function(arg_1,arg_2,...){   }

函数调用:function_name(arg_1,arg_2,...)

你可能感兴趣的:(R语言,r语言,开发语言)