如何做特征筛选

工作中做模型,首先很重要的一步就是特征工程,包括特征编码、特征归一、特征筛选等。

这里聊一下工作中常用的做特征筛选的方法。

  1. 特征覆盖率
  2. 特征封箱,即优势比
  3. IV值
  4. GAIN信息增益
  5. CHI卡方
  6. 基于模型的筛选

1、特征覆盖率

对于样本,有多少用户有此特征,缺失情况如何。一般要求特征覆盖率大于一定阈值。

2、特征封箱测试

即特征在正样本、负样本中的占比对比测试。选择特征:pct_1/pct_0<=0.8 || pct_1/pct_0=>1.2 

如何做特征筛选_第1张图片

 3、根据IV值、GAIN、CHI排名做综合排名筛选

计算第2步筛选后的特征的IV值、GAIN值、chi值,并各自排序获得rank排名。

根据排名计算出综合排名,设置阈值,筛选出total_rank < 阈值的特征。

如何做特征筛选_第2张图片

 4、基于模型的筛选

上述筛选后,基本可以获得不错的特征。当然也可以根据模型进一步获得选择的特征在模型上的表现衡量,即特征重要性。

特征 特征重要性 排名
会员 0.44 1
性别 0.12 2
学历 0.10 3
年龄 0.09 4

你可能感兴趣的:(特征工程,机器学习,机器学习,特征筛选)