【非参数统计04】多组数据位置推断:Kruskal-Wallis、Jonckheere-Terpstra、Friedman、调整秩和检验、Cochran、Durbin、FDR、Bon、BH、HC

目录导引

  • 4 多组数据位置推断
    • 4.1 方差分析与实验设计
      • 4.1.1 方差分析回顾
      • 4.1.2 实验设计及类别
    • 4.2 多重检验问题
      • 4.2.1 Bonferroni
      • 4.2.2 BH-FDR
      • 4.2.3 H-C高阶鉴定法
    • 4.3 完全随机设计
      • 4.3.1 数据形式
      • 4.3.2 Kruskal-Wallis 单因素方差分析
      • 4.3.3 两两差异的Dunn 检验
      • 4.3.4 Jonckheere-Terpstra 趋势性检验
    • 4.4 完全随机区组设计
      • 4.4.1 数据形式
      • 4.4.2 Freidman 秩方差分析法
      • 4.4.3 Hollander-Wolfe 两处理间比较
      • 4.4.4 随机区组数据的调整秩和检验
      • 4.4.5 二值变量下的 Cochran 检验
    • 4.5 均衡的不完全随机区组设计
      • 4.5.1 数据类型
      • 4.5.2 Durbin 不完全区组分析法

这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。

这一章关于多组数据位置推断问题内容较多

4 多组数据位置推断

4.1 方差分析与实验设计

4.1.1 方差分析回顾

可以参考我写的另外一篇博文:统计学中的各种方差分解

4.1.2 实验设计及类别

实验三原则

  • 重复性原则
  • 随机性原则
  • 适宜性原则

重要组成部分:

  • 因素:处理就是主因素的不同状态
  • 观测:对不同处理下的重复实验
  • 区组:当实验材料不同时候的控制变量

4.2 多重检验问题

H 0 : ↔ H 1 : H_0: \leftrightarrow H_1: H0:H1:

4.2.1 Bonferroni

Bonferroni检验原理如下:

  • 假设总检验的显著性水平为 α \alpha α,检验个数为 m m mBonferroni的目标是这么多个检验中出现错误发现False Discover的概率不超过 α \alpha α
  • 对于每一个单个的检验,设置固定显著性水平 α m \frac{\alpha}{m} mα
  • FWER(Family-wise error rate)表述就是 P ( V ⩽ 1 ) ⩽ α P(V\leqslant1)\leqslant \alpha P(V1)α,这是最狠最保守的检验

4.2.2 BH-FDR

如果我们只是对FDR进行控制,那么会比Bonferroni开放很多,更多小的差异可以被多重检验所识别出来。

做法

  • 我们对于多重检验得到的 p p p值进行排序, p ( 1 ) , p ( 2 ) , . . . , p ( m ) p_{(1)},p_{(2)},...,p_{(m)} p(1),p(2),...,p(m)
  • 根据设定的显著性水平构造一列显著性水平向量, { i m α } i = 1 m \{\frac{i}{m}\alpha\}_{i=1}^m { miα}i=1m,跟上面的 p p p向量对比
  • 找到 max ⁡ k [ p ( k ) ⩽ i m α ] \max\limits_{k} [p_{(k)}\leqslant \frac{i}{m}\alpha] kmax[p(k)miα]
  • 拒绝调次序在 k k k前的所有原假设, H ( 1 ) , H ( 2 ) , . . . , H ( k ) H_{(1)},H_{(2)},...,H_{(k)} H(1),H(2),...,H(k)

4.2.3 H-C高阶鉴定法

应用背景
当检验中存在很多噪声的时候,比如一共有100个检验,有90个都是显然不怎么需要检验,其 p i > 0.2 p_i > 0.2 pi>0.2,这在应用FDR的时候会使得检验标准变严苛。因为显著性水平向量 i m α \frac{i}{m}\alpha miα被不必要的大 m m m压缩,如果跟 m = 20 m=20 m=20相比,只保留10个 p i p_i pi较大的检验在这里头。

换句话说,我们需要一个更强的能在众多噪声中发现更多弱信号的检验,H-C高阶鉴定法表现不错。

4.3 完全随机设计

4.3.1 数据形式

完全随机区组设计需要满足如下形式

4.3.2 Kruskal-Wallis 单因素方差分析

Kruskal-WallisWilcoxon-Mann-Whitney从两样本到多样本上的一个拓展。

4.3.3 两两差异的Dunn 检验

Kruskal-Wallis检测到差异之后通过Dunn检验来判断差异来源。

4.3.4 Jonckheere-Terpstra 趋势性检验

处理的排序和J-T检出结果有关,处理潜在水平乱序的不行。

4.4 完全随机区组设计

4.4.1 数据形式

在完全随机设计的单因素基础上,增加了一个区组因素,这是由于实验材料的异质性使得实验设计中控制变量的变得必要。

Chai: 区组是代替了观测的存在,观测是广泛的无限制的,区组是控制变量的观测。

4.4.2 Freidman 秩方差分析法

由于区组影响,不同区组的数据放在一起算秩没有意义,组内算秩。

4.4.3 Hollander-Wolfe 两处理间比较

当秩方差分析结果表明样本之间存在差异的时候,可以使用Hollander-Wolfe进行两两样本对比,找到差异来源,跟DunnKruskal-Wallis之后的搞法一样。

4.4.4 随机区组数据的调整秩和检验

当随机区组设计的区组数量较大或者处理组数较小,Friedman检验的效果就不是很好了,因为Friedman检验的编秩只在每一个区组内进行,仅限于区组内的效应,不同区组间对比没有意义。

这里,我们考虑消除区组之间的差异悉尼港

调整秩和检验,也称H-L检验

4.4.5 二值变量下的 Cochran 检验

有的时候,数据类型为有-无,0-1,是-否,这种情况下秩的计算没有意义,可以使用Cochran检验.

4.5 均衡的不完全随机区组设计

4.5.1 数据类型

4.5.2 Durbin 不完全区组分析法

在均衡设计下使用。

你可能感兴趣的:(统计基础,统计模型,统计学)