机器学习—卡方检验

原文链接
https://www.jianshu.com/p/807b2c2bfd9b

本文相对原文有删减和增加一些自己的理解。

其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。

01 什么是卡方检验:

卡方检验就是检验两个变量之间有没有关系。

  • 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
  • 不同城市级别的消费者对买SUV车有没有什么区别;

如果有显著区别的话,我们会考虑把这些变量放到模型或者分析里去。这边显著区别可以理解为两个变量显著相关

02 投硬币

那我们先从一个最简单的例子说起。
1) 根据投硬币观察到的正面,反面次数,判断这个硬币是均衡的还是不均衡。
现在有一个正常的硬币,我给你投50次,你觉得会出现几个正面,几个反面?

机器学习—卡方检验_第1张图片
按照你的经验你会这么思考,最好的情况肯定是25个正面,25个反面,
但是肯定不可能这么正正好好的,嗯,差不多28个正面,22个反面吧23个正面,27个反面也可能的
但是10个正面,40个反面肯定不可能的,除非我运气真的那么碰巧。

你上面的这个思维方式,就是拿已经知道的结果(硬币是均衡的,没有人做过手脚),推测出会出现的不同现象的次数。

而卡方检验是拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。

继续上面这个例子,
如果我不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,
其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?

机器学习—卡方检验_第2张图片
这里要引出卡方检验的公式:

机器学习—卡方检验_第3张图片
这个公式可以帮我们求出卡方检验的值,我们用

  • 这个公式求得的值
  • 自由度(degree of freedom,不熟悉的可以去看我在简书的用可视化思维解读统计自由度)
  • 置信度

其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
这三个数值计算方法如下:
机器学习—卡方检验_第4张图片
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。

机器学习—卡方检验_第5张图片

03 投筛子

接下来,我们再来看一个稍微难一点的例子,投骰子。
有一个筛子,我不知道它是不是均衡的,于是我打算投36次看一下。
机器学习—卡方检验_第6张图片
按照投硬币的方式,我先要画出一个表格,然后计算出3个数值,
机器学习—卡方检验_第7张图片
带着这3个值,我们去查表,于是我们得出这个现象不能判定他是个均衡的筛子。

机器学习—卡方检验_第8张图片

你可能感兴趣的:(机器学习)