特征工程使用卡方检测的作用

卡方检验主要可以用于处理计数数据的拟合问题。具体说,它可以检验单变量多项分类上的实计数和理论次数分布之间的差异显著性。
它是卡方检验中的一个主要测试指标,卡方检验是一种用途很广的计数资料的假设检验方法,它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性(即SIG.)小于0.05,说明两个变量是显著相关的。

卡方检测的详细原理看这篇文章:https://www.freesion.com/article/37741515017/

1. 首先import包和实验数据

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris

导入IRIS数据集

iris = load_iris()
print(iris.data) # 查看数据

结果输出:

array([[ 5.1, 3.5, 1.4, 0.2],
[ 4.9, 3. , 1.4, 0.2],
[ 4.7, 3.2, 1.3, 0.2],
[ 4.6, 3.1, 1.5, 0.2],
[ 5. , 3.6, 1.4, 0.2],
[ 5.4, 3.9, 1.7, 0.4],
[ 4.6, 3.4, 1.4, 0.3],
…)

2. 使用卡方检验来选择特征

# 选择k个最佳特征

model1 = SelectKBest(chi2, k=2)
# iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征
model1.fit_transform(iris.data, iris.target)

结果输出为:

array([[ 1.4, 0.2],
[ 1.4, 0.2],
[ 1.3, 0.2],
[ 1.5, 0.2],
[ 1.4, 0.2],
[ 1.7, 0.4],
[ 1.4, 0.3],
…)

可以看出后使用卡方检验,选择出了后两个特征。如果我们还想查看卡方检验的p值和得分,可以使用第3步。

3. 查看p-values和scores

# 得分

print(model1.scores_ )
# 得分输出为:可以看出后两个特征得分最高,与我们第二步的结果一致
array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

查看P值

print(model1.pvalues_)
# p值输出为:可以看出后两个特征的p值最小,置信度也最高,与前面的结果一致。

你可能感兴趣的:(python)