007第三十九篇:卡方验证其实就是X² 统计学(16)

场景:

前篇曾经验证过年薪与种族、是否经理、教育程度之间关系,证明出种族与年薪无关。可是作为少数族裔总认为受到偏见,继续追踪年薪与种族的关系已经没有意义了。可是不甘心,那么少数族裔与是否经理会不会有关系呢?如果有,也就是少数族裔在当经理方面与白人概率不同,它会间接影响到年薪啊,就此设想我们再次来验证下。


准备工作:想要验证是否有概率差别,就得先找到实际数据(实然)与应该数据(应然),然后对比验证。

交叉表(cross tabulation)就是一种寻找两种数据后的结果呈现。常用于定类变项和定序变项之间的关系。以2个变相为例,会形成2行2列的含4个单元格的表格。交叉表以变项间是否有因果关系,分为平面的(flat)和立体的(contingent)两类,前者没有因果关系,后者有因果关系。区别是前者两变项随意放置在行或列,后者只能将自变项放置在列、因变项放置在行。

举个例子:

平面的(无因果):学生心目中的老师,分别以面相与心灵两个变项组合。

立体的(有因果)


实际观察值(实然)



预期值(应然)

以上每单元格预期值(下图绿色)=本行合计*本列合计/总合计(下图红色标记)。



实然与应然二表合一


万事俱备开始验证:

概念:

卡方验证(Chi-square):Chi其实是希腊字母“χ”,square是平方。

卡方值计算如下:


自由度:即有几个单元格可以任意取值,如观察值表(2*2表格)中四种情况,只要一个单元格任意取值后,其他单元格数值便已经确定。所以自由度为1。2*3的表格就必须最少两个单元格任意取值才能确定其他单元格数值,所以自由度为2。

以卡方值、和自由度,查下表得出P值(alpha——犯第一类弃真错误的概率),验证零假设——种族与是否经理两者无关是否正确。如果P<0.05则认为零假设不成立,种族变项对是否经理有影响。


卡方值与自由度K变化图

计算的结果如下:

SPSS计算结果

卡方值=17.592;自由度=1

查下表:

P值表

P<0.001,所以原来假设种族与经理无关不成立,放弃两变项无关假设的错误风险概率<0.001。

另:自己学的马马虎虎,辛苦战友点评,大家看起来可能很困难。秉承“完成比完美更重要”,先打开学习之门,建立概率统计思维。

你可能感兴趣的:(007第三十九篇:卡方验证其实就是X² 统计学(16))