Python特征选择--方差特征选择(Removing features with low variance)

最近在看Python中机器学习之特征选择,为了避免遗忘,特记一波。

Removing features with low variance,即低方差过滤特征选择。其原理也是比较简单,计算样本中每一个特征值所对应的方差,如果低于阈值,则进行过滤(剔除)。默认情况下,将会剔除所有零方差特征,方差为0表示样本的特征取值没发生变化。

假设我们有一个特征是由0和1组成的数据集,利用Removing features with low variance方法移除那些在整个数据集中特征值为0或者为1的比例超过p(同一类样本所占的比例)的特征。0 1 组成的数据集满足伯努利( Bernoulli )分布,因此其特征变量的方差为:p(1-p)。

在Removing features with low variance方法中,将剔除方差低于p(1-p)的特征。在Pyhon的sklearn模块中,具有该方法的实现,具体使用如下。

from sklearn.feature_selection import VarianceThreshold #导入python的相关模块
X=[[0,0,1],[0,1,0],[1,0,0],[0,1,1],[0,1,0],[0,1,1]]#其中包含6个样本,每个样本包含3个特征。
sel=VarianceThreshold(threshold=(0.8*(1-0.8)))#表示剔除特征的方差大于阈值的特征Removing features with low variance
sel.fit_transform(X)#返回的结果为选择的特征矩阵

print(sel.fit_transform(X))#

输出结果为:

Python特征选择--方差特征选择(Removing features with low variance)_第1张图片

发现剔除的是第一个特征,保留的是后2个特征。从第一列特征可以看出。1的个数为1个,0为5个,0的比例为5/6,超过了0.8,且5/36<4/25(阈值).因此将此特征剔除,形成新的特征矩阵。



你可能感兴趣的:(Python)