卡方检验主要可以用于处理计数数据的拟合问题。具体说,它可以检验单变量多项分类上的实计数和理论次数分布之间的差异显著性。
它是卡方检验中的一个主要测试指标,卡方检验是一种用途很广的计数资料的假设检验方法,它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性(即SIG.)小于0.05,说明两个变量是显著相关的。
卡方检测的详细原理看这篇文章:https://www.freesion.com/article/37741515017/
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data) # 查看数据
array([[ 5.1, 3.5, 1.4, 0.2],
[ 4.9, 3. , 1.4, 0.2],
[ 4.7, 3.2, 1.3, 0.2],
[ 4.6, 3.1, 1.5, 0.2],
[ 5. , 3.6, 1.4, 0.2],
[ 5.4, 3.9, 1.7, 0.4],
[ 4.6, 3.4, 1.4, 0.3],
…)
# 选择k个最佳特征
model1 = SelectKBest(chi2, k=2)
# iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征
model1.fit_transform(iris.data, iris.target)
array([[ 1.4, 0.2],
[ 1.4, 0.2],
[ 1.3, 0.2],
[ 1.5, 0.2],
[ 1.4, 0.2],
[ 1.7, 0.4],
[ 1.4, 0.3],
…)
# 得分
print(model1.scores_ )
# 得分输出为:可以看出后两个特征得分最高,与我们第二步的结果一致
array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
print(model1.pvalues_)
# p值输出为:可以看出后两个特征的p值最小,置信度也最高,与前面的结果一致。