python卡方检验计算pvalue值_Python数据科学:卡方检验

python卡方检验计算pvalue值_Python数据科学:卡方检验_第1张图片

之前已经介绍的变量分析:

①相关分析:一个连续变量与一个连续变量间的关系。

②双样本t检验:一个二分分类变量与一个连续变量间的关系。

③方差分析:一个多分类分类变量与一个连续变量间的关系。

本次介绍:

卡方检验:一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。

如果其中一个变量的分布随着另一个变量的水平不同而发生变化时,那么两个分类变量就有关系。

卡方检验并不能展现出两个分类变量相关性的强弱,只能展现两个分类变量是否有关。

/ 01 / 数据挖掘的技术与方法

数据挖掘的方法分为描述性与预测性两种。

两类方法均是基于历史数据进行分析。

描述性模型用于直观反映历史状况,为后续分析提供灵感。

预测性模型从历史数据中寻找规律,并用于预测未来。

描述性数据挖掘常用算法:聚类分析、关联规则分析。

预测性数据挖掘常用算法:线性回归、逻辑(Logistic)回归、神经元网络、决策树、支持向量机。

/ 02 / 卡方检验

01 列联表

列联表是一种分类汇总表。

将待分析的两分类变量中的一个变量的每一个类别设为列变量。

另一个变量的每一个类别设为行变量,中间对应着不同类别下的频数。

下面以书中的数据为例,即探索分类变量是否违约与分类变量是否破产的关系。

你可能感兴趣的:(python卡方检验计算pvalue值_Python数据科学:卡方检验)