R语言 数据描述性分析

1.偏度 。偏度系数是对称性指标。关于均值对称的数据,偏度系数为0,左侧分散更多的系数为负,右侧分散更多的系数为正。
其中u3是样本3阶中心距。
2.峰度。当数据为正态分布时,峰度系数接近与0。当数据较正态分布的尾部更分散时,峰度为正。反之为负。
R语言 数据描述性分析_第1张图片
u4为4阶中心距。
R相关代码:

#计算偏度 和 锋度
piandufengdu <- function(x){
  n <- length(x);
  m <- mean(x);
  s <- sd(x);
  g1 <- n/((n-1)*(n-2))*sum((x-m)^3)/(sd(x))^3;
  g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4 - (3*(n-1)^2)/((n-2)*(n-3)));
  c(g1,g2);
}



3.简单的正态性检验与分布拟合检验
  3.1shapiro-wilk检验法:(W检验)
    例:学生体重:w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
     shapiro.test(w);
      得到结论:W = 0.9686, p-value = 0.8371。p值远大于0.05 不拒绝原假设,所以认为是正态分布的。
    该检验适合于小样本 3<n<50。结果比较准

   3.2 KS检验法。(算D值检验):
     例:35位健康男性在未进食前的血糖浓度如表所示,试测验这组数据是否来自均值μ=80,标准差σ=6的正态分布 87 77 92 68 80 78 84 77 81 80 80 77 92 86 76 80 81 75 77 72 81 90 84 86 80 68 77 87 76 77 78 92 75 80 78 (n=35)。用ks检验是否是正态分布
        ks.test(w,"pnorm",80,6)
        D = 0.1481, p-value = 0.4264
        不能拒绝假设。认为是正态分布的。
        该检验适用于大样本>=50
        改检验方法还可以用来检验两个观测值是否来自于相同的分布.例:ks.test(rnorm(100),rnorm(90));
        有好文章可以了解一下原理http://blog.sciencenet.cn/blog-733746-603282.html
        ks检验经常有警告,很有可能是因为输入值中有相同的数,这在概率上很少发生,将其中一些只稍微改动就好。


4.相关检验。
  4.1 Ruben总体相关系数区间估计. 可以用样本的相关系数作为总体相关系数的一个估计,但需要保证样本量充分大时,这个估计才能代表总体相关系数。ruben给出了总体相关系数区间估计的逼近公式,根据公式,写出R程序:

#ruben检验  n为样本数量,r为相关系数
ruben.test <- function(n, r, alpha=0.05){
  u <- qnorm(1-alpha/2)
  r_star <- r/sqrt(1-r^2)
  a <- 2*n-3-u^2
  b <- r_star*sqrt((2*n-3)*(2*n-5))
  c <- (2*n-5-u^2)*r_star^2-2*u^2
  y1 <- (b-sqrt(b^2-a*c))/a
  y2 <- (b+sqrt(b^2-a*c))/a
  data.frame(n = n, r = r, conf = 1-alpha,
  L = y1/sqrt(1+y1^2), U = y2/sqrt(1+y2^2))
}

ruben.test(6,0.8)
  n   r conf           L         U
1 6 0.8 0.95 -0.09503772 0.9727884
置信区间也可能包含0,所以不能认为两者是相关的。也就是说n=6的情况下,相关系数是0.8也不能说明什么问题。
  4.2 其他的相关检验
    cor.test(x, y,method = c("pearson", "kendall", "spearman"))
    上面这个方法不仅给出了置信区间,还算出了P值。
    pearson适用于俩连续变量,spearman适用于有序变量。
    Pearson分析的前提是数据符合正态分布,要进行T检验的
    Spearman分析属于非参数检验,秩相关分析,在数据不符合正态分布的情况下进行
    Pearson相关,连续性变量才可采用。
    Kendall相关、Spearman相关,适合于定序变量或不满足正态分布假设的等间隔数据。
例:R语言 数据描述性分析_第2张图片

> ore<-data.frame(
    x=c(67, 54, 72, 64, 39, 22, 58, 43, 46, 34),
    y=c(24, 15, 23, 19, 16, 11, 20, 16, 17, 13)
  )
> attach(ore)
> cor.test(x,y)
Pearson’s product-moment correlation
data: x and y
t = 6.6518, df = 8, p-value = 0.0001605
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6910290 0.9813009
sample estimates:
cor
0.9202595

置信区间 0.6-0.8,p值很小,所以认为是相关的。

cor.test(ore$x,ore$y,method="spearman")
WARNING : Cannot compute exact p-value with ties

出现警告是因为数据有同秩现象,什么是同秩?不知道,把数据略微调一下就好。
cor.test(~x+y) 是用表达式的写法。


以上是简单的 数据分析 ,关于检验后续还有笔记

你可能感兴趣的:(R语言)