卡方检验,不了解的人乍一听,心想这是啥?怎么这么唬人啊。嘿嘿,不用担心和害怕,我会尝试白话介绍卡方检验,让你搞明白不费力!
下面,我将从:什么是卡方检验,卡方检验在机器学习中能干什么的,以及卡方检验的实际应用三方面来逐步递进的介绍。
卡方检验,出自于统计学,是统计学中的一种方法,在机器学习中也有应用到。卡方检验是用来检验两个变量之间有没有关系。
下面,用一个简单例子来说明它的大致逻辑原理:
那我们先从一个最简单的例子说起。
1) 根据投硬币观察到的正面,反面次数,判断这个硬币是均衡的还是不均衡。
现在有一个正常的硬币,我给你投50次,你觉得会出现几个正面,几个反面?
按照你的经验你会这么思考,最好的情况肯定是25个正面,25个反面,
但是肯定不可能这么正正好好的,嗯,差不多28个正面,22个反面吧;
23个正面,27个反面也可能的,
但是10个正面,40个反面肯定不可能的,除非我运气真的那么碰巧。
你上面的这个思维方式,就是拿已经知道的结果(硬币是均衡的,没有人做过手脚),推测出会出现的不同现象的次数。
而卡方检验是拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
继续上面这个例子,
如果我不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,
其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
这里要引出卡方检验的公式:
这个公式可以帮我们求出卡方检验的值,我们用
其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
这三个数值计算方法如下:
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
这里还涉及到假设检验中,拒绝H0还是不拒接H0,这篇文章就不详细展开了。
核心思想:用于衡量实际值与理论值的差异程度。
(1)求卡方值
(2)求自由度
(3)置信度(按照自己意愿挑选,一般挑90%或者95%)
(4)拿到这3个信息,去查卡方表(卡方分布临界值),得P值和结论。
求卡方值的公式:
卡方检验反应的是理论值与实际值之间的差异性。卡方值越大,表示理论与实际的差异越大。若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。
卡方检验对于出现次数较少的特征更容易给出高分。
上面介绍过了,卡方检验是统计学的一种方法,可以检验两个变量之间有没有关系的。那么在机器学习当中卡方检验能干什么呢?
既然卡方检验可以检验两个变量之间的关系,那么在机器学习中可以用来做
(1)特征的选取,把无关的特征剔除掉,减少特征数量,来提高训练速度。
(2)一些噪音特征会导致模型出现错误的泛化,通过卡方检验也可以去掉那些无关的噪声。
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
通过卡方检验,得出结论:不同的性别和在线上买生鲜食品是有关系的。切女性居多。
那么,就可以在生鲜页面,引入女士包包、衣服一类的广告,可以帮助引流,更大化的扩大利益。
指标在生活中无处不在,非常重要,而且可以帮助我们从多角度来更好的理解和量化各种问题。
在医学研究中,常需要对两组、多组率或构成比进行比较:如两种治疗方法的有效率、不同地区某种疾病的发病率、人群构成是否相同等。
例如,某名村民得了大骨节,他就想是不是自己喝的河水饮用水有关呢。于是,问题实际上变成了,某无序分类变量各水平在两组或多组间的分布是否一致。如果这个村的河水引用区的检出率和另外一个泉水引用区的检出率一样,就说明无关,反之就相关。这就可以用卡方检验来做科学支持。
例如:某工厂想提高自己的产品合格率,想看看控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。可以通过卡方检验来做科学支持,找出相关的原材料类别,完成精准打击,提升企业竞争力。
参考:
https://blog.csdn.net/snowdroptulip/article/details/78770088
https://www.jianshu.com/p/807b2c2bfd9b
https://blog.csdn.net/yihucha166/article/details/50646615