【数据挖掘】特征选择问题

特征工程建立

  • 特征工程的提取
  • 特征工程的选择
    • (1)过滤式选择
      • 方差选择法
      • 相关系数法
      • 卡方检验
      • 互信息法
    • (2)包裹式选择
      • 完全搜索
      • 随机搜索
      • 启发式搜索
    • (3)嵌入式选择
      • 基于惩罚项的特征选择法
      • 基于树模型的特征选择法

特征工程的提取

特征工程的选择

(1)过滤式选择

特点:先选择特征,后训练模型(通常会指定需要特征的数目K);

tips:没什么思路时,优先选择“卡方检验”以及“互信息法”;

方差选择法

思路:自变量方差越大,反映的信息越大;

相关系数法

思路:如果特征和标签相关性较大,认为特征更为有效;
适用于:因变量为“连续”,“0-1型”

特征 因变量 方法
连续 连续 pearson相关系数,spearman秩相关系数,kendall相关系数
连续 离散 离散转二值,计算相关系数,如果是多值,计算多个相关系数平均
离散 连续 同上
离散 离散 jarcard距离

卡方检验

适用于:
自变量:分类变量
因变量:分类变量

补充:卡方检验常用来
a:两分类变量是否两两独立;
b:检验某连续变量会否满足某指定分布;
c:检验某分类变量各类出现概率是否等于指定概率;

互信息法

适用于:任意自变量 任意因变量

互信息(信息增益):联合分布中两信息纠缠程度(互相影响那部分的信息量)
相互独立者互信息为0
互信息越大,两者关系越强

信息熵、交叉熵、KL散度、联合熵、条件熵

(2)包裹式选择

特点:以训练模型的结果优劣,评估特征选择是否恰当

tips:常用“递归消除特征法RFE”,基学习器可以选择支持向量机SVM

理论:搜索策略+评估策略(模型结果:精度,复杂度等为评估标准),即不断迭代产生特征子集,并评价

搜索策略:

完全搜索

随机搜索

LVW算法,模拟退火算法,粒子群,遗传算法

启发式搜索

前向贪心算法(爬山法),后向贪心算法,逐步回归法

(3)嵌入式选择

特点:特征选取和模型的训练同时完成
tips:(1)基于惩罚项的特征选择基学习器通常选择逻辑回归LR,配合L1或L2正则化项;
(2)基于树的基本为决策树相关的基学习器;
注意:可以得到特征系数coef(基于惩罚项)或者得到特征重要度(基于树)的算法才可以作为嵌入式的基学习器!!

方法:

基于惩罚项的特征选择法

(1)避免过拟合的方法(减少特征、正则化);
(2)L1范式正则化(LASSO) vs L2范式正则化(岭回归);
(3)L1正则化更易获得稀疏解(稀疏解意味着参数更少,特征更少,模型更为简单);

基于树模型的特征选择法

如GBDT算法,特征j全局重要程度通过特征j在单棵树中的重要程度平均值衡量
除了GBDT,普通决策树,随机森林都可以进行特征选择

你可能感兴趣的:(数据挖掘,技术)