在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中主要方法之一。
如果在数据分析过程中,遇到的分类变量有多个,且每一分类变量对应的因变量的值形成的多个总体分布都服从于正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析来解决。
表面上看,方差分析是检验多个总体均值是否相等的统计分析方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
每次抽样为一个试验,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理;
将在试验中回改变状态的因素称为因子,常用大写字母表示
因子所处的状态称为因子的水平,常用因子的字母加下标来表示
试验中所考察的指标,它是一个随机变量
如果一个试验中所考察的因子只有一个,那么这是单因子试验的问题
假定因子 A A A有 r r r各水平,在每个水平下指标的全体都构成一个总体,因此共有 r r r个总体。
假定第 i i i个总体服从均值为 μ i \mu_i μi,方差为 σ 2 \sigma^2 σ2的正态分布,从该总体获得一个样本量为 m m m的样本 y i 1 , y i 2 , ⋯ , y i m y_{i1},y_{i2},\cdots,y_{im} yi1,yi2,⋯,yim,其观测值便是我们观测到的数据 i = 1 , 2 , ⋯ , r i=1,2,\cdots,r i=1,2,⋯,r,最后假定各样本是相互独立的
单因素方差分析主要是要检验如下假设:
H 0 : u 1 = u 2 = ⋯ = u r H_0:u_1=u_2=\cdots=u_r H0:u1=u2=⋯=ur
H 1 : u 1 , u 2 , ⋯ , u r H_1:u_1,u_2,\cdots,u_r H1:u1,u2,⋯,ur不全相等
当 H 0 H_0 H0不真时,表示不同水平下的指标的均值有显著差异,此时称因子 A A A是显著的,否则称因子 A A A不显著
方差分析是在相同方差假定的下检验多个正态均值是否相等的一种统计分析方法
在方差分析中,需要考察数据误差的来源
SST称为总离差平方和,或简称总平方和,它反映了全部试验数据之间的差异
SSM组间离差平方和,简称组间平方和,或称因素 A A A平方和
SSE组内离差平方和,反映了组内数据和组内平均的随机误差
S S T = S S M + S S E SST=SSM+SSE SST=SSM+SSE
在方差分析中,数据的总误差可以分解为组内误差和组间误差,如果因素的不同水平对因变量没有影响,那么在组间误差中只包含随机误差,而没有系统误差。这时组间误差与组内误差经过平均后的数据就应该接近于1,反之,如果因素不同水平对因变量有影响,那么组间误差除了包含随机误差外,还包含系统误差,这时组间误差平均后的数据就会大于组内误差平均后的数值,它们之间的数值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12), y 1 , y 2 , ⋯ , y n 2 y_1,y_2,\cdots,y_{n_2} y1,y2,⋯,yn2来自正态总体 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22),则此时关于双样本方差检验为:
F = s 1 2 s 2 2 F=\frac{s_1^2}{s_2^2} F=s22s12
当 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22时,服从 F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1)
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12), y 1 , y 2 , ⋯ , y n 2 y_1,y_2,\cdots,y_{n_2} y1,y2,⋯,yn2来自正态总体,且两个总体方差 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22已知,则此时关于双样本均值差检验为:
z = x ‾ − y ‾ − d 0 σ 1 2 n 1 + σ 2 2 n 2 z=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} z=n1σ12+n2σ22x−y−d0
当 μ 1 − μ 2 = d 0 \mu_1-\mu_2=d_0 μ1−μ2=d0时, z z z服从 N ( 0 , 1 ) N(0,1) N(0,1)
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12), y 1 , y 2 , ⋯ , y n 2 y_1,y_2,\cdots,y_{n_2} y1,y2,⋯,yn2来自正态总体,且两个总体方差 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22未知但相等,即 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22,则此时关于双样本均值差检验为:
t = x ‾ − y ‾ − d 0 s p 1 n 1 + 1 n 2 t=\frac{\overline x-\overline y - d_0}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} t=spn11+n21x−y−d0 s p = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}} sp=n1+n2−2(n1−1)s12+(n2−1)s22
当 μ 1 − μ 2 = d 0 \mu_1-\mu_2=d_0 μ1−μ2=d0时, t t t服从 t ( n 1 + n 2 − 2 ) t(n_1+n_2-2) t(n1+n2−2)
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12), y 1 , y 2 , ⋯ , y n 2 y_1,y_2,\cdots,y_{n_2} y1,y2,⋯,yn2来自正态总体,且两个总体方差 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22未知且不相等,则此时关于双样本均值差检验为:
t = x ‾ − y ‾ − d 0 s 1 2 n 1 + s 2 2 n 2 t=\frac{\overline x-\overline y - d_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} t=n1s12+n2s22x−y−d0
f = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 n 1 ) 2 n 1 − 1 + ( s 2 2 n 2 ) 2 n 2 − 1 f=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} f=n1−1(n1s12)2+n2−1(n2s22)2(n1s12+n2s22)2
当 μ 1 − μ 2 = d 0 \mu_1-\mu_2=d_0 μ1−μ2=d0时, t t t服从自由度为 f f f的 t t t分布
成对观测值的 t t t检验常用于两组数据均值是否相等的均值检验。
成对观测的样本以 d 1 , d 2 , ⋯ , d n d_1,d_2,\cdots,d_n d1,d2,⋯,dn表示 n n n对观测值之差,则此时关于双样本均值差检验为:
t = d ‾ − d 0 s d / n t=\frac{\overline d - d_0}{s_d / \sqrt n} t=sd/nd−d0
当 μ 1 − μ 2 = d 0 \mu_1-\mu_2=d_0 μ1−μ2=d0时, t t t服从 t ( n − 1 ) t(n-1) t(n−1)分布
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),且总体方差 σ 2 \sigma^2 σ2已知,则关于总体均值 μ \mu μ的检验为:
z = x ‾ − μ 0 σ / n z=\frac{\overline x - \mu_0}{\sigma / \sqrt n} z=σ/nx−μ0
当 μ = μ 0 \mu = \mu_0 μ=μ0时, z z z检验统计量服从正态分布
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),且总体方差 σ 2 \sigma^2 σ2未知。在这种情况下,用样本方差 s 2 s^2 s2代替 σ 2 \sigma^2 σ2,则此时关于总体均值 μ \mu μ的检验为:
t = x ‾ − μ 0 s / n t=\frac{\overline x - \mu_0}{s / \sqrt n} t=s/nx−μ0
当 μ = μ 0 \mu = \mu_0 μ=μ0时,根据抽样分布理论,统计量 t t t服从 t ( n − 1 ) t(n-1) t(n−1)
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),且总体均值 μ \mu μ已知,则此时关于总体方差的检验为:
χ 2 = ∑ ( x i − μ ) 2 σ 0 2 \chi^2=\frac{\sum(x_i-\mu)^2}{\sigma_0^2} χ2=σ02∑(xi−μ)2
当 σ 2 = σ 0 2 \sigma^2=\sigma_0^2 σ2=σ02时, χ 2 \chi^2 χ2服从 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n−1)
设样本 x 1 , x 2 , ⋯ , x n 1 x_1,x_2,\cdots,x_{n_1} x1,x2,⋯,xn1来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),且总体均值 μ \mu μ未知,用样本均值代替总体均值,则此时关于总体方差的检验为:
χ 2 = ∑ ( x i − x ‾ ) 2 σ 0 2 = ( n − 1 ) s 2 σ 0 2 \chi^2=\frac{\sum(x_i- \overline x)^2}{\sigma_0^2}=\frac{(n-1)s^2}{\sigma_0^2} χ2=σ02∑(xi−x)2=σ02(n−1)s2
当 σ 2 = σ 0 2 \sigma^2=\sigma_0^2 σ2=σ02时, χ 2 \chi^2 χ2服从 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n−1)
根据样本方差的抽样分布可知,样本方差服从自由度为 n − 1 n-1 n−1的 χ 2 \chi^2 χ2分布
( n − 1 ) s 2 σ 2 ~ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2} \text{\textasciitilde} \chi^2(n-1) σ2(n−1)s2~χ2(n−1)
两个样本方差比的抽样分布服从 F F F分布
s 1 2 s 2 2 ⋅ σ 1 2 σ 2 2 ~ F ( n 1 − 1 , n 2 − 1 ) \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_1^2}{\sigma_2^2} \text{\textasciitilde} F(n_1-1,n_2-1) s22s12⋅σ22σ12~F(n1−1,n2−1)
当总体服从正态分布且方差已知,样本均值 x x x的抽样分布均为正态分布,其数学期望为总体均值 μ \mu μ,方差为 σ 2 / n \sigma^2/n σ2/n,而样本均值经过标准化以后的随机变量则服从标准正态分布,即
z = x ‾ − μ σ n ~ N ( 0 , 1 ) z=\frac{\overline x - \mu}{\sigma\sqrt n} \text{\textasciitilde} N(0,1) z=σnx−μ~N(0,1)
如果总体服从正态分布,则无论样本量如何,样本均值 x ‾ \overline x x的抽样分布都服从正态分布。这时,只要总体方差 σ 2 \sigma ^2 σ2已知,即使在小样本的情况下。但如果总体方差未知,而且是在小样本的情况下,则需要用样本方差 s 2 s^2 s2代替 σ 2 \sigma^2 σ2,这时,样本均值经过标准化以后的随机变量则服从自由度为 n − 1 n-1 n−1的t分布
t = x ‾ − μ s n ~ t ( n − 1 ) t=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} t(n-1) t=snx−μ~t(n−1)
如果总体服从正态分布但方差未知,或者总体并不服从正态分布,只要在大样本条件下,就可以使用样本方差代替总体方差,
z = x ‾ − μ s n ~ N ( 0 , 1 ) z=\frac{\overline x - \mu}{s\sqrt n} \text{\textasciitilde} N(0,1) z=snx−μ~N(0,1)
当两个总体都服从正态分布或两个总体不服从正态分布但两个样本都为大样本,根据抽样分布的知识可知,两个样本均值之差 x ‾ 1 − x ‾ 2 \overline x_1 - \overline x_2 x1−x2的抽样分布服从期望值为 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2,方差为 σ 1 2 n 1 + σ 2 2 n 2 \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} n1σ12+n2σ22的正态分布,而两个样本均值之差经标准化以后服从正态分布,即
z = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ~ N ( 0 , 1 ) z=\frac{(\overline x_1- \overline x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \text{\textasciitilde} N(0,1) z=n1σ12+n2σ22(x1−x2)−(μ1−μ2)~N(0,1)
当两个总体的方差都未知时,可用两个样本方差代替总体总体方差
当两个总体的方差未知但相等时,需要用两个样本方差来估计,这时需要计算总体方差的合并估计量 s p 2 s_p^2 sp2,计算公式为
s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22
两个样本均值之差经标准化后服从自由度为 n 1 + n 2 − 2 n_1+n_2-2 n1+n2−2的 t t t分布,即
t = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) s p 1 n 1 + 1 n 2 ~ t ( n 1 + n 2 − 2 ) t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2) t=spn11+n21(x1−x2)−(μ1−μ2)~t(n1+n2−2)
当两个总体的方差未知且不相等时,只要两个总体都服从正态分布,而且两个样本的样本量相等,
t = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) s 1 2 n 1 + s 2 2 n 2 ~ t ( n 1 + n 2 − 2 ) t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(n_1+n_2-2) t=n1s12+n2s22(x1−x2)−(μ1−μ2)~t(n1+n2−2)
当两个总体的方差未知且不相等时,而两个样本的样本量不相等,两个样本均值之差服从自由度为 n 1 + n 2 − 2 n_1+n_2-2 n1+n2−2的 t t t分布,而是仅服从自由度为 v v v的 t t t分布
v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} v=n1−1(s12/n1)2+n2−1(s22/n2)2(n1s12+n2s22)2
t = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) s 1 2 n 1 + s 2 2 n 2 ~ t ( v ) t=\frac{(\overline x_1-\overline x_2) -(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \text{\textasciitilde} t(v) t=n1s12+n2s22(x1−x2)−(μ1−μ2)~t(v)
P值是进行假设检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结构都有P值。通过比较检验统计量与临界值的大小的检验方法逐渐被P值检验所取代。
P值就是当原假设为真时,检验统计量大于或等于实际观测值的概率
P值是一种概率,一种在原假设为真的前提下,出现观测样本统计量的值及更极端情况下的概率
它是拒绝原假设的最小的显著性水平
它是通过抽样得到的样本数据计算到的显著性水平
它表示对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法
一般地,用 X X X表示检验的统计量。当 H 0 H_0 H0为真时,可由样本数据计算出该统计量的值 C C C,根据检验统计量 X X X的具体分布,可求出P值。具体地说:
左侧检验的P值为检验统计量 X X X小于样本统计值C的概率, P = P ( X < C ) P=P(X
右侧检验的P值为检验统计量 X X X大于样本统计值C的概率, P = P ( X > C ) P=P(X>C) P=P(X>C)
双侧检验的P值为检验统计量 X X X落在样本统计值 C C C为端点的尾部区域内的概率的2倍, P = 2 P ( X > C ) P=2P(X>C) P=2P(X>C)(当 C C C位于分布曲线的右端时)或 P = 2 P ( X < C ) P=2P(X
P值就是当原假设为真时所得到的样本统计量观测值或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由的就越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是显著的、中度显著的还是高度显著的,需要我们根据P值的大小和实际的数据来分析
参数名 | 常用值 | 说明 |
---|---|---|
axis | 0、1 | 运算对应的轴 |
level | 整数或索引的级别名 | 指定运算对应的级别 |
fill_value | 数值 | 指定运算中出现的NaN的替代填充值 |
skipna | 布尔值 | 运算是否跳过NaN |
index | 序列 | 指定行索引 |
columns | 序列 | 指定列索引 |
numeric_only | 布尔值 | 是否只针对数值进行运算 |
func | 可调用对象 | 指定回调函数 |
inplace | 布尔值 | 是否原地更新,若为否,则返回新对象 |
encoding | “utf8” | 指定文本编码 |
dropna | 布尔值 | 是否删除包含NaN的行 |
如果指定level参数,则针对多级索引中指定级别中相同标签对应的元素的计算
常用参数:
df.mean()