R数据分析:样本量计算的底层逻辑与实操,pwr包

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475
样本量问题真的是好多人的老大难,是很多同学科研入门第一个拦路虎,今天给本科同学改大创标书又遇到这个问题,我想想不止是本科生对这个问题不会,很多同学从上研究生到最后脱离科研估计也没能把这个问题弄得很明白,那么希望大伙儿在看了这篇文章能够更加深入地理解样本量计算的逻辑,也能对大家的科研设计中的样本量设计部分有所启发。

样本量计算的逻辑

还记得我们最开始接触统计推断的时候,大家都知道一个词叫做原假设,原假设一般来讲都是“阴性的”,我们统计推断要做的事情便是推翻原假设从而得出有“统计学意义的结果”,怎么去推翻?就是在一次随机事件中小概率的我们认为不可能发生的符合备择假设的事件发生了,“不可能发生的事情竟然在现实中随便一次抽样研究中竟然就发生了”,就反证出原假设站不住脚,所以我们的结果就有“统计学意义”就得到了所谓的阳性结果了。

上面的这段话和样本量又如何扯上关系呢?继续往下看:

举个例子,比如现在两个研究团队都正在做一个性别比例的研究,两个团队都想通过自己的研究去证明世界上男性数量和女性数量不相等。(例子纯属虚构方便大家理解)

那么原假设就是世界上男性占比等于女性占比,现在两个研究团队都期望能用他们的抽样样本去推翻原假设,得到男性数量不等于女性数量的结论。

A团队为了省事将样本量定为了4个,那么A团队做一次研究最极端(可能性最小)的情况是4个全是同一个性别,那么此时这种最极端的情况发生的概率也为2*0.5^5=0.0625,其实也还不算我们通常认为的小概率(0.05),所以在4个样本量的情况下,A团队无论如何进行精妙的研究设计,并且A团队把这个设计精妙的研究无论重复多少次,都不可能得到阳性的研究结果,即使真实世界的男女比例真的不一样,A团队也100%发现不了阳性结果,就是因为样本量太小导致的。

大家好好体会下上面的例子,然后再看B团队的做法:

B团队就很鸡贼了,将样本量定为5个,此时最极端的情况是5个全是同一个性别,那么此时最极端的情况发生的概率为20.5^6=0.03125,哇,有点意思了,就是这个小概率事件理论上是可以发生的,而且,B团队只要有耐心,理论上重复100次该研究设计,大约会有3次都可以拒绝原假设,所以B团队如果在一次实验中刚好选的样本中5个都是同一性别,那么B团队就成功得到了阳性结果,但是仔细想想,如果真实世界中真的男女比例不一样,B团队因为样本量只有5个,所以仅仅只能寄希望5个样本全部是同性才能得到想要的结果,而且这种情况100次才大概能出现三次,是不是

你可能感兴趣的:(python,迪米特法则,计算机,wpf)