1.分布
内置函数:d(概率密度函数,density),p(累计分布函数,probability),q(分位数,quantile),r(伪随机数,random)
常用分布:正态分布:_norm,参数:mean,sd
二项分布:_binom,参数:size,prob
卡方分布:_chisq,参数:df,ncp
指数分布:_exp,参数:rate
负二项分布:_nbinom,参数:size,prob
泊松分布:_pois,参数:lambda
学生分布(t分布):_t,参数:df
均匀分布:_unif,参数:min,max
F分布:_f,参数:df1,df2,ncp
2.集中趋势
平均数:mean(),调用格式:
mean(x,trim = 0,na.rm = FALSE,...)
x代表计算对象,可以为向量,矩阵,数据或数据框;trim用于设置计算前去掉与均值差别较大的数据比例,默认值为0;na.rm默认值为FALSE,表示不允许数据有缺失。
中位数:median(),用法同mean()
分位数:quantile(),
quantile(x,probs =,na.rm=0,...)
x代表计算对象,为数值向量;probs代表相应的百分位数,如seq(0, 1, 0.2),默认值为c(0,0.25,0.5,0.75,1);na.rm代表不允许有缺失数据。
3.离散趋势
方差:var(),调用格式:
var(x, y = NULL, na.rm = FALSE, use)
标准差: sd(),调用格式:
sd(x, na.rm = FALSE)
离差:mad(),调用格式:
mad(x, center = median(x), constant = 1.4826, na.rm = FALSE,low = FALSE,high = FALSE)
center代表中位数;constant是比例因子,默认为1.4826;参数low/high默认为FALSE,若为TRUE代表当样本数为偶数时,中位数取中间值中较小/大的那个
4.分布情况测度
偏度:skewness(),fBasic包
峰度:kurtosis(),fBasic包
5.多组数据情况
各组数据情况:summary()
相关系数矩阵:cor(),调用格式:
cor(x, y = NULL, use = "everything",method = c("pearson","kendall","spearman"))
其中x,y为计算对象,当x为数据框或列表时y可以省略;use指定如何处理确实样本;method指定计算哪种相关系数,默认为Pearson系数,用于度量线性相关性,如果数据不是线性关系,可以用Kendall或Spearman相关系数,计算秩相关性