R语言学习笔记:数据的基本描述

1.分布

内置函数:d(概率密度函数,density),p(累计分布函数,probability),q(分位数,quantile),r(伪随机数,random)

常用分布:正态分布:_norm,参数:mean,sd

                 二项分布:_binom,参数:size,prob

                 卡方分布:_chisq,参数:df,ncp

                 指数分布:_exp,参数:rate

                 负二项分布:_nbinom,参数:size,prob

                 泊松分布:_pois,参数:lambda

                 学生分布(t分布):_t,参数:df

                 均匀分布:_unif,参数:min,max

                 F分布:_f,参数:df1,df2,ncp

2.集中趋势

平均数:mean(),调用格式:

 

mean(x,trim = 0,na.rm = FALSE,...)

x代表计算对象,可以为向量,矩阵,数据或数据框;trim用于设置计算前去掉与均值差别较大的数据比例,默认值为0;na.rm默认值为FALSE,表示不允许数据有缺失。

 

中位数:median(),用法同mean()

分位数:quantile(),

 

quantile(x,probs =,na.rm=0,...)


x代表计算对象,为数值向量;probs代表相应的百分位数,如seq(0, 1, 0.2),默认值为c(0,0.25,0.5,0.75,1);na.rm代表不允许有缺失数据。

 

3.离散趋势

方差:var(),调用格式:

var(x, y = NULL, na.rm = FALSE, use)

 

标准差: sd(),调用格式:

sd(x, na.rm = FALSE)

离差:mad(),调用格式:

 

 

mad(x, center = median(x), constant = 1.4826, na.rm = FALSE,low = FALSE,high = FALSE)

center代表中位数;constant是比例因子,默认为1.4826;参数low/high默认为FALSE,若为TRUE代表当样本数为偶数时,中位数取中间值中较小/大的那个

 

4.分布情况测度

偏度:skewness(),fBasic包

峰度:kurtosis(),fBasic包

5.多组数据情况

各组数据情况:summary()

相关系数矩阵:cor(),调用格式:

 

cor(x, y = NULL, use = "everything",method = c("pearson","kendall","spearman"))

其中x,y为计算对象,当x为数据框或列表时y可以省略;use指定如何处理确实样本;method指定计算哪种相关系数,默认为Pearson系数,用于度量线性相关性,如果数据不是线性关系,可以用Kendall或Spearman相关系数,计算秩相关性
 

 


 

 

你可能感兴趣的:(R)