python数据分析(一):列联分析与方差分析

<此部分理论内容结合统计学教材学习>

列联分析

1. 收集样本数据产生二维或多维交叉列联表;
2. 对两个分类变量的相关性进行检验(假设检验)

pandas.crosstab(index,columns,margins,normalize)

 - margins默认为False不带合计数据
 - normalize=True频率列联表

 python数据分析(一):列联分析与方差分析_第1张图片

salary_reform.scv 

python数据分析(一):列联分析与方差分析_第2张图片

 python数据分析(一):列联分析与方差分析_第3张图片

  结果为列联表

补充的内容

python数据分析(一):列联分析与方差分析_第4张图片

列联表的期望分布

根据比例求出的各个变量的期望值f_{e}

f_{e}=\frac{RT}{n}\cdot\frac{CT}{n}\cdot n=\frac{RT\cdot CT}{n}

RT为给定单元所在行的合计,CT为给定单元所在列的合计,n为样本量

python数据分析(一):列联分析与方差分析_第5张图片

python数据分析(一):列联分析与方差分析_第6张图片

 卡方检验

\chi ^{2} = \sum_{i=1}^{r}\sum_{j=1}^{c}(f_{0}-f_{e})^{2}/f_{e}

 - 当样本量较大时,上述统计量服从自由度为(r-1)(c-1)的卡方分布

 - 用于衡量实际值与理论值的差异程度(有差异表示自变量对因变量有影响)

 - 返回值:统计量,p值,自由度
        - p值:可以理解为落在极端值上的概率
        - 计算方法:已知统计量的值,求对应卡方分布的概率,过大则拒绝原假设(独立)

python数据分析(一):列联分析与方差分析_第7张图片

课堂练习一 

作列联表

python数据分析(一):列联分析与方差分析_第8张图片

 期望值分析

​​​​​​​python数据分析(一):列联分析与方差分析_第9张图片

 卡方检验 

结果分析:p值较小,说明race对于工资水平的影响不显著

python数据分析(一):列联分析与方差分析_第10张图片


 方差分析

比较多个总体的均值是否相等;
研究一个或多个分类型自变量与一个数值型因变量的关系;

假设:
(1)每个总体都应服从正态分布(如何检验样本是否服从正态分布?);
(2)各个总体的方差必须相同;
(3)观测值是独立的

单因素方差分析

方差齐性检验levene

H0: \mu _{1} = \mu _{2} = ... = \mu _{n},         H1: \mu _{1},\mu _{2},...,\mu _{n}不全相等(自变量对因变量有显著影响)

构建统计量F检验
SST:总平方和;SSA:组间平方和;SSE:组内平方和
 MSA = \frac{SSA}{k-1}MSE = \frac{SSE}{n-k}
F = \frac{MSA}{MSE} \sim F(k-1,n-k)

若原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值不会太大,F>Fa,拒绝原假设 

python数据分析(一):列联分析与方差分析_第11张图片

方差来源分析及检验过程anova_lm()

运算符

说明

+

将运算符左右两边的数据都纳入生成的数据集中

-

将运算符左边的纳入,右边的移除

:

计算运算符两边的交集(交互效应),生成一列数据

*

a+b+a:b形式的简写

python数据分析(一):列联分析与方差分析_第12张图片

 关系强度的测量

R^{2} = \frac{SSA}{SST}
组间误差占总误差比例越高,相关度越高

多重比较

通过对总体均值之间的两两比较来检验哪些均值之间存在差异 

LSD检验

已知总体方差的联合估计量s_{p}^{2} =\frac{(n_{1}-1)s_{1}^{2}+ (n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}

组内方差MSE = \frac{\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x_{i}})}{n-k}

k = 2时,MSE = s_{p}^{2}

构造统计量:t = \frac{(\bar{x_{1}}-\bar{x_{2}})-(\mu _{1}-\mu _{2})}{s_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\sim t(n-k)

LSD = t_{\frac{\alpha }{2}}\sqrt{MSE(\frac{1}{n_{i}}+\frac{1}{n_{j}})}

| \bar{x_{i}}-\bar{x_{j}}| > LSD,认为差异是显著的,拒绝原假设。

HSD检验

基于学生化极差的成对比较。

计算HSD统计量,如果两组均数的差异大于该极差,认为差异是显著的,拒绝原假设。

HSD检验较LSD检验更保守,更不易发现显著差异,一般用于样本容量相同的组之间的均值比较

python数据分析(一):列联分析与方差分析_第13张图片

 多因素方差分析

不存在交互效应的多因素方差分析

python数据分析(一):列联分析与方差分析_第14张图片

 tv.csv

python数据分析(一):列联分析与方差分析_第15张图片

 

结果解释:“品牌”的p值过小,拒绝“品牌”的原假设,可认为品牌对销售量有显著影响。

python数据分析(一):列联分析与方差分析_第16张图片

存在交互效应的多因素方差分析

 python数据分析(一):列联分析与方差分析_第17张图片

traffic.csv 

 python数据分析(一):列联分析与方差分析_第18张图片

结果解释:路段对通行时间有显著影响;时段对通行时间有显著影响;没有证据表明路段和时段的交互作用对通行时间有显著影响。

python数据分析(一):列联分析与方差分析_第19张图片

你可能感兴趣的:(数据分析,数据挖掘,人工智能)