『统计学』第四部分:回归分析和卡方检验

『回归分析』

『线性回归中的平方误差』『统计学』第四部分:回归分析和卡方检验_第1张图片

如上图,线性回归的平方误差如下:

S E l i n e = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + . . . + ( y n − ( m x n + b ) ) 2 SE_{line} = (y_1 - (mx_1 + b))^2 + (y_2 - (mx_2 + b))^2 + ... + (y_n - (mx_n + b))^2 SEline=(y1(mx1+b))2+(y2(mx2+b))2+...+(yn(mxn+b))2

   \;

『线性回归公式的推导』

根据前面得到的线性回归的平方误差,对公式做进一步推导:
S E l i n e = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + . . . + ( y n − ( m x n + b ) ) 2 = y 1 2 − 2 y 1 ( m x 1 + b ) + ( m x 1 + b ) 2 + y 2 2 − 2 y 2 ( m x 2 + b ) + ( m x 2 + b ) 2 + . . . + y n 2 − 2 y n ( m x n + b ) + ( m x n + b ) 2 = ( y 1 2 + y 2 2 + . . . + y n 2 ) − 2 m b ( x 1 + x 2 + . . . + x n ) − 2 b ( y 1 + y 2 + . . . + y n ) + m 2 ( x 1 2 + x 2 2 + . . . + x n 2 ) + 2 m b ( x 1 + x 2 + . . . + x n ) + n b 2 \begin{aligned} SE_{line} &= (y_1 - (mx_1 + b))^2 + (y_2 - (mx_2 + b))^2 + ... + (y_n - (mx_n + b))^2 \\ &= y_1^2 - 2y_1(mx_1 + b) + (mx_1 + b)^2 \\ &\quad + y_2^2 - 2y_2(mx_2 + b) + (mx_2 + b)^2 \\ &\quad + ... \\ &\quad + y_n^2 - 2y_n(mx_n + b) + (mx_n + b)^2 \\ & = (y_1^2 + y_2^2 + ... + y_n^2) -2mb(x_1 + x_2 + ... + x_n) -2b(y_1 + y_2 + ... + y_n) \\ &\quad + m^2(x_1^2 + x_2^2 + ... + x_n^2) + 2mb(x_1 + x_2 + ... + x_n) + nb^2 \end{aligned} SEline=(y1(mx1+b))2+(y2(mx2+b))2+...+(yn(mxn+b))2=y122y1(mx1+b)+(mx1+b)2+y222y2(mx2+b)+(mx2+b)2+...+yn22yn(mxn+b)+(mxn+b)2=(y12+y22+...+yn2)2mb(x1+x2+...+xn)2b(y1+y2+...+yn)+m2(x12+x22+...+xn2)+2mb(x1+x2+...+xn)+nb2

利用均值来做替换,得到:

S E l i n e = n y 2 ‾ − 2 m n x y ‾ − 2 b n y ‾ + m 2 n x 2 ‾ + 2 m b n x ‾ + n b 2 SE_{line} = n\overline {y^2} - 2mn\overline {xy} - 2bn\overline y + m^2n\overline {x^2} + 2mbn\overline x + nb^2 SEline=ny22mnxy2bny+m2nx2+2mbnx+nb2

下面画出 S E l i n e SE_{line} SEline对m和b的曲面:
『统计学』第四部分:回归分析和卡方检验_第2张图片
要求使得 S E l i n e SE_{line} SEline最小的m和b,可以对m和b求偏导,在最低点处导数为零。

− 2 n x y ‾ + 2 m n x 2 ‾ + 2 b n x ‾ = 0 -2n\overline{xy} + 2mn\overline{x^2} + 2bn\overline x = 0 2nxy+2mnx2+2bnx=0

− 2 n y ‾ + 2 m n x ‾ + 2 b n = 0 -2n\overline y + 2mn\overline x + 2bn = 0 2ny+2mnx+2bn=0

化简可以得到:
m x 2 ‾ + b x ‾ = x y ‾ m\overline {x^2} + b\overline x = \overline{xy} mx2+bx=xy

m x ‾ + b = y ‾ m\overline {x} + b = \overline{y} mx+b=y

比较最佳拟合直线的方程: y = m x + b y = mx + b y=mx+b,我们可以发现:

x和y的均值落在最佳拟合直线上,这里确定拟合直线的一个点 ( x ‾ , y ‾ ) (\overline x, \overline y) (x,y)

两点确定一条直线,我们还需要确定一个点,将第一个式子化成 m x + b mx + b mx+b的形式,得到:

m x ‾ 2 x ‾ + b = x y ‾ x ‾ m{\overline x^2 \over \overline x} + b = {\overline{xy} \over \overline x} mxx2+b=xxy

这就得到最佳拟合直线上的另外一个点的坐标 ( x ‾ 2 x ‾ , x y ‾ x ‾ ) ({\overline x^2 \over \overline x}, {\overline{xy} \over \overline x}) (xx2,xxy)

于是我们就确定最佳拟合直线上的两个点: ( x ‾ , y ‾ ) (\overline x, \overline y) (x,y) ( x ‾ 2 x ‾ , x y ‾ x ‾ ) ({\overline x^2 \over \overline x}, {\overline{xy} \over \overline x}) (xx2,xxy)

接下来求出m和b:

m = y ‾ − x y ‾ x ‾ x ‾ − x ‾ 2 x ‾ = x ‾ ⋅ y ‾ − x y ‾ ( x ‾ ) 2 − x 2 ‾ m = {\overline y - {\overline{xy} \over \overline x} \over \overline x - {\overline x^2 \over \overline x}} = {\overline x · \overline y - \overline {xy} \over (\overline x)^2 - \overline {x^2}} m=xxx2yxxy=(x)2x2xyxy

b = y ‾ − m x ‾ b = \overline y - m \overline x b=ymx

下面来看个例子,我们去拟合下面三个点:『统计学』第四部分:回归分析和卡方检验_第3张图片
得到:

m = 3 7 , b = 1 m = {3\over 7},b = 1 m=73b=1

所以:

y = 3 7 x + 1 y = {3\over 7}x + 1 y=73x+1

『决定系数 R 2 R^2 R2

『统计学』第四部分:回归分析和卡方检验_第4张图片
对于直线的拟合程度,我们当然可以计算出具体有多少误差,但是还有一种对直线拟合程度更有意义的估计:

首先提个问题:y的波动程度有多少百分比能被 x 的波动程度所描述?

这里,我们可以先求出y的总波动:

S E y ‾ = ( y 1 − y ‾ ) 2 + ( y 2 − y ‾ ) 2 + . . . + ( y n − y ‾ ) 2 SE_{\overline y} = (y_1 - \overline y)^2 + (y_2 - \overline y)^2 + ... + (y_n- \overline y)^2 SEy=(y1y)2+(y2y)2+...+(yny)2

我们想求出 x x x波动所描述的百分占比,但是这个百分比不太好衡量,其实可以换个思路,看看y有什么波动没有被x的波动所描述?

于是我们考虑一下,总波动中有多少没有被回归线所描述,对此我们已经有了衡量,就是直线的平方误差,这个误差是没有被回归线描述的。于是我们得到:

S E L i n e S E Y ‾ {SE_{Line} \over SE_{\overline Y}} SEYSELine

表示总波动中有多少百分比没有被x的波动所描述,或者说,没有被回归线所描述。

那么,回到前面的问题,我们想知道“多少百分比由x的波动描述”这一问题,只需要看剩下的就行了。于是得到:

r 2 = 1 − S E L i n e S E Y ‾ r^2 = 1 - {SE_{Line} \over SE_{\overline Y}} r2=1SEYSELine

这告诉我们总波动有多少百分比被直线所描述,或者说被x的波动描述,这个数字称作决定系数,记做 r 2 r^2 r2

r 2 r^2 r2越接近于1,则y的波动很多都被x的波动描述,说明直线拟合的好。

『协方差和回归线』

协方差的定义为:两随机变量离各自均值距离之积的期望值。

c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] cov(X, Y) = E[(X - E[X])(Y - E[Y])] cov(X,Y)=E[(XE[X])(YE[Y])]

其实,协方差就是表示两变量多大程度上一同变化。

如何理解这句话?
假设总体中有一个点(随机变量的一个实例),也就是从总体中抽取的一个样本:X = 1,Y = 3,已知 E [ X ] = 0 E[X] = 0 E[X]=0 E [ Y ] = 4 E[Y] = 4 E[Y]=4 X − E [ X ] = 1 − 0 = 1 , Y − E [ Y ] = 3 − 4 = − 1 X - E[X] = 1 - 0 = 1, Y - E[Y] = 3 - 4 = -1 XE[X]=10=1,YE[Y]=34=1,这表示,对于这个样本,从X和Y中抽取一个样本后,X高于期望值,Y低于期望值,如果对于总体,情况都是如此,那么协方差就会得到负数,一个上升另一个就下降,一个下降另一个就上升,如果两者同时上升,同时下降,那么就是正协方差,同步程度确定协方差的大小。

我们来看一下如何将协方差的定义同最小二乘回归联系起来。

下面对协方差的定义做些变化:

C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y − X E [ Y ] − E [ X ] Y + E [ X ] E [ Y ] ] = E [ X Y ] − E [ X E [ Y ] ] − E [ E [ X ] Y ] + E [ E [ X ] E [ Y ] ] = E [ X Y ] − E [ X ] E [ Y ] − E [ X ] E [ Y ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] \begin{aligned} Cov(X, Y) &= E[(X - E[X])(Y - E[Y])] \\ & = E[XY - XE[Y] - E[X]Y + E[X]E[Y]] \\ & = E[XY] - E[XE[Y]] - E[E[X]Y] + E[E[X]E[Y]] \\ & = E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \\ & = E[XY] - E[X]E[Y] \end{aligned} Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XYXE[Y]E[X]Y+E[X]E[Y]]=E[XY]E[XE[Y]]E[E[X]Y]+E[E[X]E[Y]]=E[XY]E[X]E[Y]E[X]E[Y]+E[X]E[Y]=E[XY]E[X]E[Y]

其中, E [ X Y ] E[XY] E[XY]可以用X、Y积的样本均值 X Y ‾ \overline{XY} XY近似, E [ X ] E[X] E[X]可以用 X ‾ \overline X X近似, E [ Y ] E[Y] E[Y]可以用 Y ‾ \overline Y Y近似,那么两随机变量的协方差可以用 X Y ‾ − X ‾ ⋅ Y ‾ \overline{XY} - {\overline X}· {\overline Y} XYXY表示,这就是回归线斜率的分子部分。

回归线的斜率如下:

m ^ = x y ‾ − x ‾ ⋅ y ‾ x 2 ‾ − ( x ‾ ) 2 = C o v ( X , Y ) V a r ( X ) \hat m = {\overline {xy} - \overline x · \overline y \over \overline {x^2} - (\overline x)^2} = {Cov(X, Y) \over Var(X)} m^=x2(x)2xyxy=Var(X)Cov(X,Y)

这样就将协方差的定义同最小二乘回归联系起来。

χ 2 \chi^2 χ2分布』

面对一个新的分布,首先,我们提出人生的终极三问:

  • 你是谁?
  • 从哪里来?
  • 到哪里去?

下面我们就从这三个方面来了解一下 χ 2 \chi^2 χ2分布:

  • (1)第一个问题, χ 2 \chi^2 χ2分布是个啥?

若n个相互独立的随机变量 ξ 1 , ξ 2 , . . . , ξ n \xi_1,\xi_2,...,\xi_n ξ1ξ2...ξn均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和

Q = ∑ i = 1 n ξ i 2 Q = ∑_{i=1}^nξ^2_i Q=i=1nξi2

构成一个新的随机变量,其卡方分布规律称为 χ 2 \chi^2 χ2分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,这里卡方分布自由度不同就是另一个分布。记为 Q ∼ χ 2 ( k ) Q \sim \chi^2(k) Qχ2(k)。卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时, χ 2 \chi^2 χ2分布近似为正态分布。

如下图,从一个标准正态分布中采样样本,并取平方,得到的是自由度为1的卡方分布: Q 1 = χ 1 2 Q_1 = \chi^2_1 Q1=χ12

从两个独立的标准正态分布中采样样本,并取平方和,得到的是自由度为2的卡方分布: Q 2 = χ 2 2 Q_2 = \chi^2_2 Q2=χ22
『统计学』第四部分:回归分析和卡方检验_第5张图片
下面看一下 χ 2 \chi^2 χ2分布的图像:
『统计学』第四部分:回归分析和卡方检验_第6张图片

随着自由度的增加,卡方分布的曲线逐渐右移,这里可以直观的解释一下:
因为卡方分布是由标准正态分布采样来的,根据正态分布的曲线,采样到0附近的概率最大,所以当自由度很小时,卡方分布在靠近0的地方概率就很大,但是随着自由度的增加,卡方分布的随机变量变成了很多样本点的平方和,当然得到0的概率逐渐减小,均值逐渐增大,所以卡方分布的曲线逐渐右移,当自由度n很大时, χ 2 \chi^2 χ2分布近似为正态分布。

  • (2)第二个问题, χ 2 \chi^2 χ2分布从哪里来?

从前面的介绍就可以知道了, χ 2 \chi^2 χ2分布是从正态分布中采样来的分布,同其他分布一样,肯定是这种分布在自然界中普遍存在,并且可以用来解决一些问题,所以统计学家才会去研究这种分布的性质,构造一些通用的“模板”(统计学的第一部分提到了这个概念),来供我们使用。

这样,自然而然地引入第三个问题,这玩意儿到底可以用来干啥?

  • (3)第三个问题, χ 2 \chi^2 χ2分布有什么用?(到哪里去?)

首先,简短地概括: χ 2 \chi^2 χ2分布用于检验理论分布同观测结果吻合得有多好。

所以,这个分布的用处就是,衡量离期望值的误差有多大。

所以,在下面这种情况下,可以使用 χ 2 \chi^2 χ2分布:

以特定概率分布为某种情况进行建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常小幅度波动引起的或者是建模错误,如何来判别?此时,可以利用卡方分布分析结果,排除可疑结果。【事实与期望不符合的情况下,使用卡方分布进行检验】

通常,对我们我们来说,使用 χ 2 \chi^2 χ2分布时,同正态分布和t分布一样,只要知道如何查 χ 2 \chi^2 χ2分布表就可以了,下面看一下如何使用:

如图,我们想要求 Q 2 > 2.41 Q_2 > 2.41 Q2>2.41的概率:
『统计学』第四部分:回归分析和卡方检验_第7张图片
从表格中可以查到:自由度为2的 χ 2 \chi^2 χ2分布 Q 2 Q_2 Q2的值大于2.41的概率为0.3,所以如下图所示:阴影部分的面积就是0.3。
『统计学』第四部分:回归分析和卡方检验_第8张图片

『卡方检验』

卡方检验是一种基于卡方分布的常用的统计(显著性)检验,其统计量在原假设成立时服从卡方分布。

在不明确说明的情况下,卡方检验默认指代皮尔森卡方检验,根据样本数据推断总体分布与期望分布是否有显著差异,或推断分类变量间是否相互关联或彼此独立

皮尔森卡方检验:拟合优度检验
   \;
假设实验中从总体中随机取样得到的 n 个观察值被划分为 k 个互斥的分类,这样每个分类都有一个对应的实际观察次数 x i ( i = 1 , 2 , . . . , k ) x_{i}({\displaystyle i=1,2,...,k}) xi(i=1,2,...,k)。研究人员会对实验中各个观察值落入第 i 个分类的概率 p i {p_{i}} pi的分布提出零假设,从而获得了对应所有第 i 分类的理论期望次数 m i = n p i {m_{i}=np_{i}} mi=npi以及限制条件:
   \;
∑ i = 1 k p i = 1 {\sum _{i=1}^{k}{p_{i}}=1} i=1kpi=1以及 ∑ i = 1 k m i = ∑ i = 1 k x i = n {\sum _{i=1}^{k}{m_{i}}=\sum _{i=1}^{k}{x_{i}}=n} i=1kmi=i=1kxi=n
   \;
皮尔森提出,在上述零假设成立以及 n 趋向 ∞ \infty 的时候,以下统计量的极限分布趋向 χ 2 \chi^{2} χ2分布:
   \;
X 2 = ∑ i = 1 k ( x i − m i ) 2 m i = ∑ i = 1 k x i 2 m i − n {X^{2}=\sum _{i=1}^{k}{\frac {(x_{i}-m_{i})^{2}}{m_{i}}}=\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m_{i}}}-n} X2=i=1kmi(ximi)2=i=1kmixi2n
   \;
皮尔森首先讨论零假设中所有分类的理论期望次数 m i m_{i} mi均为足够大且已知的情况,同时假设各分类的实际观测次数 x i x_{i} xi均服从正态分布。皮尔森由此得到当样本容量 n 足够大时, X 2 {\displaystyle X^{2}} X2趋近服从自由度为 ( k − 1 ) (k-1) (k1) χ 2 \chi^{2} χ2分布。

不同的卡方检验使用不同的计算公式计算统计量,卡方检验都假设其使用的统计量服从卡方分布。

对分类数据进行分析的统计方法主要是利用卡方分布,也被称作卡方检验。

卡方检验的应用主要表现在两个方面,分别是拟合优度检验独立性检验前者用于单变量,后者用于双变量

1、分类数据与卡方统计量

数据类型一般可分为无序类别数据、有序类别数据和数值型数据,在处理无序类别数据和有序类别数据时需要特别注意,当你用一个数字去代替某一类别时,需时刻记得数字之间的间隔不能反映类别之间的差距,在有序类别中仅可以用来比较大小,在无序类别中仅仅是一个代号而已。

我们常用类别出现的频数对分类数据进行分析,而卡方检验正可以对这类数据进行分析。

卡方检验其实是测定两个分类变量之间的相关程度,它是利用类别变量的观测值频数与期望值频数进行构建的:

χ 2 = ∑ ( f o − f e ) 2 f e \chi^2 = \sum {(f_o - f_e)^2 \over f_e} χ2=fe(fofe)2

其中: f o f_o fo代表观察值频数, f e f_e fe代表期望值频数;

可以看到,卡方统计量其实反映了观察值频数和期望值频数之间的差距,当差距较小时,统计量的值也会变小。所以卡方检验正是通过计算卡方统计量与临界值进行比较来确定相关的显著性的。

2、拟合优度检验

拟合优度检验很简单,它符合假设检验的的基本理论,所以使用的流程与之前的假设检验是一样,我们来看一个例子,你就知道它在说什么:

  • 例1:

泰坦尼克沉船事件:当时船上2208人,男性1738人,女性470人,海难发生后,幸存者718人,其中男性374人,女性344人,我们想知道幸存状况是否与性别有关。

总结为下表:

- 男性 女性 总数
船上 1738 470 2208
幸存 374 344 718

这个问题在机器学习上会是另外一种问法:性别对预测是否存活的贡献有多大,其实二者想表达的东西是一样的,因为只涉及到一个变量,所以是一个单变量分析的方法:

我们想知道幸存状况是否与性别有关,所以要去做假设检验:

H 0 : H_0: H0幸存状况与性别无关;
H 1 : H_1: H1幸存状况与性别有关;

这里设定显著性水平是5%。

首先,我们已经知道了观察频数:男性374人,女性470人,那期望频数如何计算呢,这里需要提到我们的假设条件,我们的原假设是:存活与性别无关。这意味着在存活的人中,男女存活的比例应该与总人数中男女比例是一样的。所以,男性期望频数: 718 ∗ 1738 2208 = 565 718*{1738 \over 2208} = 565 71822081738=565。女性的期望频数: 718 ∗ 470 2208 = 153 718*{470 \over 2208} = 153 7182208470=153,如下:

- 男性 女性 总数
船上 1738 470 2208
幸存 374 344 718
Expected 565 153 718

下面构造卡方统计量:

χ 2 = ∑ ( f o − f e ) 2 f e = ( 374 − 565 ) 2 565 + ( 344 − 153 ) 2 153 = 303 + 19.82 = 322.82 \chi^2 = \sum {(f_o - f_e)^2 \over f_e} = {(374 - 565)^2 \over 565} + {(344 - 153)^2 \over 153} = 303 + 19.82 = 322.82 χ2=fe(fofe)2=565(374565)2+153(344153)2=303+19.82=322.82

由于度为分类变量类型个数-1,所以,这里服从自由度为1的卡方分布。

我们查得此状态下的p值远小于0.025,所以存活状况与性别显著性相关。

  • 例2:

我正考虑购入一家餐厅,我询问目前的店主,店内每天顾客数的分布是怎样的?于是他给了我这样一个分布:

Day M T W T F S
店主(%) 10 10 15 20 30 15
观测值 30 14 34 45 57 20

我有些怀疑,想检验他给我的分布和我观测的数据是否吻合,于是我得到一周内的观测值,要看是否吻合,所以,我需要进行假设检验:

H 0 : H_0: H0店主的分布是正确的;
H 1 : H_1: H1店主的分布是错误的;

显著性水平是5%。

我要根据这些数据计算出一个统计量,且统计量近似服从卡方分布。

思路: 根据特定自由度的卡方分布,计算卡方统计量,我想知道得到这样或更极端结果的概率是否小于5%,如果该概率小于5%,我将拒绝零假设,也就是拒绝店主的分布。如果卡方统计量得到如此极端或更极端的概率大于显著性水平 α \alpha α,我就不能拒绝它,没有理由认为店主在撒谎。

假设店主的分布是正确的,在此前提下,观测值预计会得到多少呢?我们得到下面的期望值:

Day M T W T F S 总计
店主(%) 10 10 15 20 30 15 100
观测值 30 14 34 45 57 20 200
Expected 20 20 30 40 60 30 200

下面计算卡方统计量:

由于这里只是近似卡方分布,所以我们写作 X 2 X^2 X2

X 2 = ( 30 − 20 ) 2 20 + ( 14 − 20 ) 2 20 + ( 34 − 30 ) 2 30 + ( 45 − 40 ) 2 40 + ( 57 − 60 ) 2 60 + ( 20 − 30 ) 2 30 = 11.44 X^2 = {(30 - 20)^2 \over 20} + {(14 - 20)^2 \over 20} + {(34 - 30)^2 \over 30} + {(45 - 40)^2 \over 40} + {(57 - 60)^2 \over 60} + {(20 - 30)^2 \over 30} = 11.44 X2=20(3020)2+20(1420)2+30(3430)2+40(4540)2+60(5760)2+30(2030)2=11.44

我们先求出5%概率对应的临界 χ 2 \chi^2 χ2值,如果我们这里求出的的结果比该临界值更极端,我们就拒绝零假设。

下面求临界 χ 2 \chi^2 χ2值:

我们要先求出自由度,这里总共求了6次和,也许会误认为这里的自由度是6,其实,通过前5条信息就能求出第6条信息,n个像这样的数据点,对比观测值和预计值,自由度只有 n − 1 n-1 n1,因为第n个数据点能够通过其它数据求出,因此,这里的自由度是5。

对于显著性水平是5%,自由度是5的卡方分布,查 χ 2 \chi^2 χ2分布表:
『统计学』第四部分:回归分析和卡方检验_第9张图片
查得临界 χ 2 \chi^2 χ2值是11.07,在图中的位置如下:
『统计学』第四部分:回归分析和卡方检验_第10张图片
结果至少达到11.07这么极端的概率是5%。

χ c 2 = 11.07 \chi^2_c = 11.07 χc2=11.07

而我们得到的结果11.44甚至比这更极端,可能性更小,其概率小于显著性水平,因此我们将拒绝店主给我们的分布。

3、独立性检验

拟合优度检验可以看作是独立性检验的特例,独立性检验通常对两个变量进行检验,查看这两个类别变量之间是否存在某种联系。

  • 例1:

已知原料有不同的等级,而原料又来自不同的地区,我们关心等级与产地是否有关,对这两个变量关系的检验,就可以用到独立性检验,通常利用一种叫做列联表的方式呈现,所以也被称作列联分析,我们来看等级和产地的例子:
『统计学』第四部分:回归分析和卡方检验_第11张图片
以上非合计的单元格就是观察频数,所以我们现在需要计算期望频数,我们以第一单元,即来自甲地区一级原料的期望数量为例:

首先一级原料占比: 162 / 500 162 / 500 162/500,然后计算甲地区原料占比: 140 / 500 140 / 500 140/500,那么原本甲地区一级原料应该是: ( 140 500 ) ( 162 500 ) ∗ 500 = 45.36 ({140 \over 500})({162 \over 500})*500 = 45.36 (500140)(500162)500=45.36,依次类推得到计算的期望值:
『统计学』第四部分:回归分析和卡方检验_第12张图片
构造统计量 χ 2 = ∑ ( f o − f e ) 2 f e = 19.82 \chi^2 = \sum {(f_o - f_e)^2 \over f_e} = 19.82 χ2=fe(fofe)2=19.82,服从自由度 ( 3 − 1 ) ( 3 − 1 ) = 4 (3-1)(3-1) = 4 (31)(31)=4的卡方分布,由于 χ 2 > χ 0.05 2 ( 4 ) = 9.4877 \chi^2 > \chi^2_{0.05}(4) = 9.4877 χ2>χ0.052(4)=9.4877,所以可以认为原料登记受地区影响。
『统计学』第四部分:回归分析和卡方检验_第13张图片

基于以上我们可以看到 χ 2 \chi^2 χ2检验其实可以用来做变量初筛,而且它没有皮尔逊相关性的线性假设。

  • 例2:

以最著名的皮尔森卡方检验为例,假设我们认为惯用手与性别无关,即原假设为惯用手与性别相互独立,并且我们得到的数据可以总结在一个列联表中:

- 男(期望) 女(期望) 总计
43(45.24) 44(41.76) 87
6(6.76) 4(6.24) 13
总计 52 48 100

其中的期望为在原假设下每种情况的期望次数,计算公式为:

E i , j = ( ∑ n c = 1 c O i , n c ) ⋅ ( ∑ n r = 1 r O n r , j ) N E_{i,j} = {{(\sum^c_{n_c=1}O_{i, n_c})·(\sum^r_{n_r=1}O_{n_r, j})} \over N} Ei,j=N(nc=1cOi,nc)(nr=1rOnr,j)

其中N为样本大小。

统计值的计算公式为:

χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i , j − E i , j ) 2 E i , j \chi^2 = \sum^r_{i=1}\sum^c_{j=1}{(O_{i,j} - E_{i,j})^2 \over E_{i,j}} χ2=i=1rj=1cEi,j(Oi,jEi,j)2

根据上式可以计算本例中统计值为:

χ 2 = ( 43 − 45.24 ) 2 45.24 + ( 44 − 41.76 ) 2 41.76 + ( 9 − 6.76 ) 2 6.76 + ( 4 − 6.24 ) 2 6.24 = 1.777 \chi^2 = {(43-45.24)^2 \over 45.24} + {(44-41.76)^2 \over 41.76} + {(9-6.76)^2 \over 6.76} + {(4-6.24)^2 \over 6.24} = 1.777 χ2=45.24(4345.24)2+41.76(4441.76)2+6.76(96.76)2+6.24(46.24)2=1.777

而自由度为 ( r − 1 ) ( c − 1 ) = ( 2 − 1 ) ( 2 − 1 ) = 1 (r-1)(c-1) = (2-1)(2-1) = 1 (r1)(c1)=(21)(21)=1

查表可得在统计量为1.777,自由度为1的情况下p-值是0.1825,大于0.05,无法拒绝原假设,即无法拒绝惯用手与性别独立的假设。

另外值得一提的一点是不仅有卡方检验使用卡方分布,许多著名的统计检验也假设其统计量在原假设成立的情况下服从卡方分布。

由此,可以看出:
卡方检验可以研究类别变量之间是否相互关联或彼此独立

参考文献:
[1] 卡方 机器之心
[2] 卡方检验 维基百科
[3] 分类数据与卡方检验 知乎
[4] 统计 可汗学院

你可能感兴趣的:(数学基础)