R 语言与统计基础 一

                                                                              R 语言与统计基础        

1、帮助方法help(); 通过helpe方法可以查看函数的方法的信息;如 help(mean),查看平均数

2、install.packages 安装包方法,如: install.packages("car");

常用 包 

agricolae DescTools gplots pastecs scatterplot3d
aplpack e1071 HH plotrix sm
BSDA fmsb Hmisc plyr TeachingDemos
car forecast lm.beta psych vcd
corrgram gmodels lsr reshape vioplot

3、读取数据

     a、读取R文件:load(file); 如 : load("myfile.RData")

     b、读取csv文件 : read.csv(file)  如 read.csv("table.csv") , 不读取标题,read.csv("table.csv",header=FALSE)

     c、读取Excel 和pass数据,导入xlsx 需要用到  xlsx 包 read.xlsx(file) ;导入pass需要foreign 包,read.spss(file);

4、保存数据

   save方法,保存数据为 r文件格式:save(data,file="path/file.RData");

   write.csv方法 ,保存数据为csv格式 write.csv(data,file="path/file.csv")

5、R数据类型

    

向量 向量是用于存储数值型,字符型,逻辑型数据的一维数组;如 a <- c(1,2,3,4,5)
矩阵 矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型,字符型或逻辑性),可通过函数matrix()创建 v <- matrix(1:20,nrow=5,ncol=4),创建5*4矩阵
数组 数组array与矩阵类似,但是维度可以大于2,数组可以通过array函数创建,myarray <- array(vector,dimensisons,simnames); array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
数据框 由于不同的列可以包含不同模式(数值型,字符等)的数据,数据框的概念较矩阵来说为一般,矩阵是特殊的数据框,只含数值;通过data.frame创建数据  data.frame(col,col1,col2..)
因子

类别(名义型)变量和有序类别(有序)变量在R中为因子factor,示列 diabetes <- c("type1","type2","type1","type1") 将此向量存储为(1,2,1,1),内部关联为1=type1,2=type2;

因子类似 枚举

列表 列表是一些对象的有序集合,列表允许你整合若干对象到单个对象名下;如某个列表可能若干向量、矩阵、数据框,列表;可以使用函数list()创建,list(obj1,obj2,obj3)

7、数据可视化 图的简介

           类别数据展示使用图形

条形图 简单条形图 用一个坐标轴表示各类别,另个坐标表示类别频数绘制的条形图,表现分布情况
帕累托图 是简单条形同变种,多一条曲线,容易看出哪类频数出现的多,哪类频数出现的少
复式条形图 当有两个变量时,可以将列联表数据绘制成复式条形图;并列条形图,堆叠条形图,脊形图
马赛克图 当变量有两个以上时,应当绘制马赛克图,其中嵌入矩形的面积与频数成正比
饼图 圆形及园内扇形的角度来表示数值大小的图形,用于表示样本中各类别的频数占全部频数的百分比
扇形图 扇形图是饼图变种,将百分比绘制成扇形

数值数据可视化:直方图(类别化),茎叶图,箱线图,小提琴图,点图,核密度图

茎叶图 在数据比较少的情况下,不但可以观察分布,还可以保留原始数据信息
箱线图 展示数据分布,观察分布是否对称,是否存在离群点,关注,中位数,四分位数,四分位差,内围栏,离群点
小提琴图 箱线图变种,是核密度图和箱线图结合的图形,可以看出数据分布的大致形状
点图 利用数据点绘制点图,检测数据离群点有效工具,少量数据可以代替箱线图观察分布
核密度图 根据一定的核函数和适当的宽度对数据分布密度作出估计,利用该图可看出数据实际分布

展示变量之间关系图形,散点图,气泡图观察关系形态,和强度

散点图 将两个变量的各个对应观测点画在坐标中,观察分布展示两个变量之间的关系,如x,y
气泡图 可看做散点图变种,第三个变量用于表示气泡大小

比较相似的图形

轮廓图 平行坐标图或多线图,横轴表示各样本,用纵轴表示每个样本的多个变量的数值;
雷达图 也称蜘蛛图从一个变量出发,每一个变量用一条射线,P个变量形成P条射线,每个样本在P个变量上的取值链接成线
星图 星图也称雷达图,变量数值差异不能太大,,否者星图 不便于比较
脸谱图 脸谱图由15个变量决定脸部特征,若实际变量更多,多出变量将被忽略,若变量少,则某个变量同时描述多个脸部特征
时间序列图 适合数据是通过不同时间上获得的,用于观察数据随时间变化趋势或特征

洛伦茨曲线:在有序类别变量的频数分布中,如果将各类别的频数逐级累加,即可得到累积频数分布表,根据累计频数分布表绘制累计分布曲线,洛伦茨曲线是一种特殊的累积频数分布曲线

6、常用方法

方法 简介
head与tail 查看数据集头后尾n行数据,
attach,detach

函数attach()可以将数据框添加到R搜索路劲中,R遇到一个变量名以后,检查搜索路径中的数据框;

个人理解将数据框所有的列添加到工作环境,可以直接打列名获取;如 attach(mtcars) ,可以直接访问mpg;

detach(mtcars),删除mtcars 路径;不可以直接访问列名

with

with函数与attcha相同,使用为with(objec,{直接访问objec列工作环境

})

edit 使用界面编辑数据
mean 平均数,mean(obje),
order 排序,order(obj,obj) 如 order(table$col)
colSums,rowSums

列求和,colSums(matrix1(,1:5)) ,矩阵1到5列求和

行求和,rowSums(matrix1) ,矩阵行求和

rbind 绑定数据到数据框, rbind(matrix1,totals=colSums(matrix1[,1:5])) ,将行求和添加到matrix1
apply apply调用函数,返回调用函数结果,apply(X, MARGIN, FUN, ...) 如 apply(x, 2, mean, trim = .2) ,2代表,第二个参数1,代表行,2代表列
sample 抽样,sample(obj,n,replace),n代表抽样个数,replace,是否有放回抽样,sample(obj,10,replace=TRUE)
par par函数 是图形界面的设置函数
layout 设置图形界面布局函数,参数mfrow或mfcol
quantile 分位数函数
IQR 四分位差 Q75% - Q25%
var 方差 var(x)
sd 标准差 sd(x)
skewness 偏度系数
kurtosis 峰度系数
   

 

 

 

 

 

你可能感兴趣的:(R,数据分析)