Permutation test取样样本对结果的影响

Permutation test到底置换多少次呢?少了觉得哪里不对劲,多了计算太消耗资源。这里评估一下置换次数对结果的影响,本质上是探讨采样样本数量对推断总体统计分布的影响。
假如实际的总体分布服从下图中蓝色所示的概率分布曲线,每个bar代表一个bin,纵轴为该bin的发生概率。Permutation test取样样本对结果的影响_第1张图片当取样500个样本时,由于500*0.001<1, 所以0.0001对应的bin根本不会被采集到,实际用这500个样本推断构建的概率分布为下图红色所示,可以看到当x大于2.5时,其概率为零。即对于概率小于1/500的样本,是不可能取到的。or,重构的概率分布的分辨率是1/500,如果两个bin的发生概率的区别小于1/500,是检测不到的。
而取样1000个样本时,构建的概率分布为绿色分布,能够取到更大的取值范围。对于概率小于1/1000的样本不可能取到。
Permutation test取样样本对结果的影响_第2张图片回到permutation test,假设观测值为2.5,对于样本为500的情况,其估计p值为0,则显著,1000对应的估计p值约为0.01,则不显著,而其在null distribution对应的估计p值为0.024,更不显著,因此取样500会导致错误的显著性检验结果。
那么有没有定量的公式确定至少要取多少个样本呢?留待以后探索。

你可能感兴趣的:(Permutation test取样样本对结果的影响)