特征工程卡方检验-- 026

卡方检验(监督)

  特征工程要做的事,就是获取更好的训练数据。特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。

  举个例子,假设我们有一堆新闻标题,需要判断标题中包含某个词(比如小婷儿)与该条新闻的类别归属(比如python)是否有关(即假设实际值和理论值无差别,即相关),我们只需要简单统计就可以获得这样的一个四格表:

实际值四格表

类别
相关(python)
不相关(python)
合计
不包含(小婷儿)
19
24
43
包含(小婷儿)
34
10
44
合计
53
34
87

        通过这个四格表我们得到的第一个信息是:标题是否包含小婷儿确实对新闻是否属于python有统计上的差别,包含小婷儿的新闻属于python的比例更高,但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含小婷儿与python是否属于python是独立无关的,随机抽取一条新闻标题,属于python类别的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%。

理论值四格表

类别
相关(python)
不相关(python)
合计
不包含(小婷儿)
43*0.609=26.2
43*0.609=16.8
43
包含小婷儿)
44*0.609=26.8
44*0.609=17.2
44

        显然,如果两个变量是独立无关的,那么四格表中的理论值与实际值的差异会非常小。

     卡方检验,或称x2检验,计算公式如下:

        其中A为实际值,也就是第一个四格表里的4个数据,E为理论值,也就是理论值四格表里的4个数据。(A-E就是残差)  x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

  • 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的);

  • 差异程度与理论值的相对大小。

  • 上述场景可计算x2值为10.01

卡方分布的临界值         既然已经得到了x2值,我们又怎么知道x2值是否合理?也就是说,怎么知道无关性假设
是否可靠?答案是,通过查询卡方分布的临界值表。
        这里需要用到一个自由度的概念,自由度 V:
    V = (行数 - 1) * (列数 - 1)
        对四格表,自由度V = 1,卡方分布的临界概率是:

        显然10.01 > 6.64,也就是标题是否包含小婷儿与新闻是否属
于python无关的可能性小于1%,反过来,就是两者相关的概率大于
99%。

        x2值描述了自变量与因变量之间的相关程度:x2值越大,相关程度也越
大,所以很自然的可以利用x2值来做降维,保留相关程度大的变量。

About Me:小婷儿

 本文作者:小婷儿,专注于python、数据分析、数据挖掘、机器学习相关技术,也注重技术的运用

● 作者博客地址:https://blog.csdn.net/u010986753

 本系列题目来源于作者的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

 版权所有,欢迎分享本文,转载请保留出处

 微信:tinghai87605025 联系我加微信群

 QQ:87605025

 QQ交流群py_data 483766429

 公众号:python宝 或 DB宝

 提供OCP、OCM和高可用最实用的技能培训

● 题目解答若有不当之处,还望各位朋友批评指正,共同进步

如果你觉得到文章对您有帮助,点击下方我的头像,赞赏我哦!

有您的支持,小婷儿一定会越来越好!

你可能感兴趣的:(特征工程卡方检验-- 026)