数据分析面试题 统计学

1.统计的ab testt test,如果统计显著但是实际发现不显著是什么原因,怎么验证。

我搜的:

https://www.sohu.com/a/138048136_698752

https://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=208129350&idx=1&sn=734fa50cf19fec17afb7103c11fd6439&scene=21#wechat_redirect

这一篇特别好。

在那些看起来得到了数据支持的假说里,有多少真正是真实的呢?

我们可以用完全一模一样的方法进行分析推理。

个问题的核心是什么呢?

回到我们的例子,关键就在于最开始的时候,有效的药物(第一幅图中的5个红格子)比起无效的药物(95个白格子)要少得多

尽管通过控制显著性水平⍺,我们犯第一类错误的概率并不大,但是因为白格子实在很多,总数乘以⍺得到的数值(假阳性发现的数量)依然不小。

而对于那5个白格子,即使我们有比较高的统计功效1-β,能够正确识别出它们中的大多数,但是这几个货真价实的”李逵“还是淹没在一大堆”李鬼“里头了

所以,我们应该从这里学到的第一条是一句老生常谈——

显著性和统计功效这两大支柱缺一不可!

稍稍改变上面的计算,如果统计功效1-β低一些,或者显著性水平⍺宽松一些,在具有显著性结果的药物中真正有效的比率将会比现在的44.4%糟糕的多!

面的例子给我们上的第二课是,p值并不是原假设为真的概率很低的p值并不能保证我们的结论就是真的

要对我们的研究假说的真实性做更可靠的估计,我们要考虑的是,基于当前的研究阶段和知识水平,领域内还有多少性质和机理类似的其他假说,这一假说成立的可能性有多大。

就好比在一大堆化合物中寻找能够抑制肿瘤的一种,在源源不断的地壳运动中辨别地震,在茫茫基因组中找出与某个稀有疾病相关的基因,所有这些事情本身发生的概率都太小了

因此,即便有统计上显著的结果,也很可能是假阳性。

忽略了事件自身的小概率特性而错误地将显著的结果认为是事件发生的证据,这在统计学上称为

基数谬误

baserate fallacy)。

由此我们还可以得到一条推论:

一项得到显著结果支持的发现的确为真的概率,取决于对这个问题的研究发展到了什么阶段。

如果对这个问题的研究刚刚开始,人们的认识几乎还是一片空白、各种假说满天飞的时候,显著的结果也很可能是假的;

如果对该问题的研究已经非常深入,许多不同角度的研究都已重复了相似的结果,甚至该发现来自于对许多大样本随机研究的综合分析(比如现在越来越流行的“荟萃分析”meta-analysis方法)时,它为真的概率就大多了。


另外:


一般我们通过几个因素一起来判定A/B测试的效果:

a) p-value:

判断两个不同版本的实验结果之间不存在显著差异的概率。

通常情况下,如果“p-value < α(显著水平)”, 表示两个不同版本存在显著差异,否则表示不存在显著差异。一般来说,我们期待并设置的最大的显著水平为5%。

b) power(统计功效):

当两个不同版本之间存在显著差异时,实验能正确做出存在差异判断的概率。

该值越大则表示概率越大、功效越充分。一般来说,我们期待并设置的最低的统计功效值为80%。

c) 置信区间(Confidence interval):

置信区间就是用来对一个概率样本的总体参数的进行区间估计的样本均值范围。一般来说,我们使用 95% 的置信水平来进行区间估计。置信区间可以辅助确定版本间是否有存在显著差异的可能性:如果置信区间上下限的值同为正或负,认为存在有显著差异的可能性;如果同时有负值和正值,那么则认为不存在有显著差异的可能性。

作者:云测数据

链接:https://www.zhihu.com/question/58172715/answer/559248594

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

https://mp.weixin.qq.com/s?src=11×tamp=1584584502&ver=2225&signature=mTBgrMyrL7I4Rlm1cyjRIZYTkl833Y78AnmdL8WQ2RoosKHEE1oVKfC6PCDOoxn*40PUv*0S5CrTDjSX0xaKlEGfQ-zAZfUC*6Fvq6RFFuo92rOlagEjvFSe*DzJqtL*&new=1

统计意义上显著的结果实际上可能并不显著

统计显著性本身并不意味着您的结果有实际结果。如果您使用功效非常高的检验,则可能会得出与假设值的较小差值在统计意义上显著的结论。但是,较小的差值对于您的情形可能没有意义。您应当根据自己的专业知识来确定差值实际上是否显著。

例如,假定要检验在制造厂工作的小时数的总体均值 (μ) 是否等于 8。如果 μ 不等于 8,那么,当样本数量增加且 p 值接近 0 时,检验的功效将接近 1。

当观测值足够多时,假设值和实际参数值之间极小的差值也可能会变得显著。例如,假定 mu 的实际值为 7 小时 59 分 59 秒。在样本足够大时,您很有可能会否定原假设(即 μ 等于 8 小时),即便差值没有实际意义也是如此。

置信区间(如果适用的话)通常比假设检验更有用,因为置信区间不仅能够评估统计显著性,还提供了一种评估实际显著性的方法。置信区间有助于确定参数值是(而非不是)什么。

https://mp.weixin.qq.com/s?src=11×tamp=1584587455&ver=2225&signature=H5mZeQWScYRBPxyIE5Q38m4fkqN0jqppt-1pBc4lYvPd23bigqoasnM*4ne2UA81UrBbB41cRA6a4zanmEoFKb*5GmYjNSEXveXruN8dcnWudaVIG9vtbgXemQmvx7Rf&new=1

目前许多的科学判断仅仅采用单一的显著性值做为黄金标准。然而,值所具有的不稳定性与低重复性并不是个理想的标准,值本身并不是用来估算差异是否存在的机率。而在统计分析的假设检验(hypothesis testing) 中,原假设 (null hypothesis H0 m1=m2) 的真伪并没有得到证实,甚至说,值仅仅只是统计分析过程中的一个初级产物,提示我们这个结果或许“值得再看一眼”。长年以来,假设检验被许多统计学家所和科学家诟病;美国心理学期刊 

Basic and Applied Social Psychology 甚至禁止使用P  值对实验做判断。美国统计学会也对P  值的使用进行了讨论与建议(The American Statistician 70:129-133),建议中提到规范的统计分析是端正科研行为的一个必要成分…没有任何一个单一指标能够取代科学推论 (Good statistical practice, as an essential component of good scientific practice…No single index should substitute for scientific reasoning)。那么,我们该如何根据统计分析来辅助科学判断呢?首先,我们通过推论统计得到了几个统计值,让我们样估计出本平均数的分布和离散程度,也让我们设定了置信区间(confidence interval),进行检验统计,得到了相对的统计值(像是值,值,卡方值,值)以及对这些统计值进行差异判断(像是P  值评估在设定的置信区间内没有发现差异的机率,评估一个真实存在显著性可重复性的统计力power,以及差异量/效应量effect size)。显然,在一个统计分析过程中产生了这么多种统计指标,仅仅采用单一、最不靠谱的值进行科学判断会是件极不合理的做法。典型的统计分析设定了5%或是1%的显著水平,分别定义了95%和99%置信区间。要是一个测量值在置信区间之外,就判定为差异显著(statistical significance)。然而,每个实验或是样本的特性本就存在不同,没有根据这些特性就统一定义一个置信区间标准做为差异是否存在的判定,这种做法本身就缺乏逻辑合理性,也鼓励盲目追求显著性。值本身是用来计算某个统计值落在该母群统计值分布区间的概率,是估算没有差异的概率;这个概率并不能反过来相减来判断不落在这个统计值区间的概率。如果我们拿这个概率来判断差异存在的概率,当然会得到一个错误的答案。有这样的报道,当一个显著性P值为0.05和0.01时,发生假阳性的机率大约是29%和11% (The American Statistician 55:62-71);并不是想象中的5%和1%。由于取样造成的不确定性,P  值本身的不稳定性,当我们得到一个显著的P  值的时候,需要检验这个显著值的可重复性。如果显著性P  值的可重复性足够高,那么,这个差异分析的证据力就足够强,更能支持这项假设检验的结果。这个检验值的证据力称作统计力Power;一般认为Power至少要在80%以上,也有人建议Power 应该大于90%。也就是说,如果重复100次实验发现显著性值的次数要在80甚至90次以上,这个显著值才可信。值只能告诉我们差异不存在的概率,而且原假设从未获得证实;即使得到了一个足够高的统计力,并不能告诉我们一个实验到底发生了什么变化,变化量有多大,产生的实际效力有多重要。不少文献在描述统计结果时,往往会做这么样的注解:统计显著所以差异很巨大,实验的发现很重大。英文中的significant的确可以解释为巨大;但是,统计学上的significant并不是用来解释差异很巨大,仅仅是描述相关统计值落点的概率,更没有描述差异到底有多少。这个时候,就需要借助效应量effect size来阐释这些问题。Effect size可以这么理解:两个测量值之间差异的大小,可以是简单的平均值相减,也可以通过其他不同的计算方法获得。更合理的效应量可以将差异量进行标准化(standardize) 后呈现(例如Cohen’s d);经过标准化后的效应量可以进行不同实验结果的交互比较,也避免生物材料自身性质不同而产生实际效应量被判断错误的情况发生。此外,样本的平均值并不能真实反映这些测量值的区间,仅仅计算平均值之间的差异来那个并不能告诉我们差异的区间范围。所以,在表示差异量的时候,如果能够将差异区间显示出来,会给我们更多关于效应量的信息。效应量的大小是否足以解释实验的效应,需要更广泛的科学判断。足够大的效应量更容易解释一个生物学效应,但不见得一定会产生相关生物学作用;一个微小的效应量并不见得没有生物学意义,而一个有意义的生物学解释会让人发现该微小效应所产生的重要性。生物个体之间原本就存在某些差异,只要样本足够大,任何极微小的差异都能够被显著性值以及统计力检测到。如果得到了很明显的值与统计力来支持差异的存在,却无法解释一个极微小差异量的生物学意义,那么,只能说是该实验的确造成了某些改变,但是,这样的改变量可能并不是很重要。通过显著性所建议的假设检验(参考P值),该假设检验的可重复性(参考Power),两个平均值的差异量(effect size),以及我们对相关科学研究的认识,判断,实验设计的合理性,实验技术本身的可靠性等内容,我们可以进行有知识的科学判断与推理。

2.置信度和置信区间

在假设检验的过程中,我们往往采用样本数据特征来估计整体的数据特征。在中心极限定理里,我们知道从总体中进行N次样本抽取,N次样本的均值会围绕总体均值上下波动。因此,置信区间就是为总体的均值提供了一个可波动的范围,置信区间与置信度是相对应的。例如,在95%的置信度下,置信区间为【a,b】,也就是说,抽取100次样本,其中有95次样本的均值能够落在【a,b】范围内。

你可能感兴趣的:(数据分析面试题 统计学)