独立性检验

1.简介
独立性检验的目的是检测两个变量之间是否存在必然联系。
常识告诉我们,吸烟与患肺癌之间是存在一定联系的,但这是一个模糊的概念,如何用量化的方法,来说明吸烟与患肺癌之间是存在联系的,更精确地说,我们有多大的把握证明吸烟与患肺癌之间是存在联系的,这是独立性检验要做的事情。

2.分析


这里写图片描述

通过上述列联表,可以得出概率统计数据:


这里写图片描述

通常人们在证明吸烟与患肺癌有关时,会利用上述数据,在吸烟者中患肺癌的概率高于不吸烟者。
但是如若吸烟与患肺癌虽然有关,但是其影响微乎其微了,所以必须必须拿出数据来证明,上述结论的可靠性是多少,是必然的100%,还是几乎可以忽略不计的0.01%。

那么我们看一看,吸烟与患肺癌完全无关时,数据是一种什么样的情况。
假设H0:吸烟与患肺癌之间没有关系。


独立性检验_第1张图片

若H0成立,从随机抽样的角度来讲,当样本数量足够大时:


这里写图片描述

即:ad-bc=0;
所以:
|ad-bc|越接近于0,吸烟与患肺癌之间的相关性越弱,反之越强。
为了是不同样本容量的数据有统一的评判标准,引入变量x2.

这里写图片描述

所以x2越小,吸烟与患肺癌之间的相关性越弱,反之越强。
通过查表可以得到不同的x2,对应的对于假设H0的把握程度。


这里写图片描述

有列联表数据得出x2 = 56.632;
于是假设HO成立的概率为0.001,为小概率事件,所以有99.99%的把握认为抽烟与患肺癌相关。

你可能感兴趣的:(Math)