金融数据挖掘实战(二) 特征工程

问题一
  特征选择时有过滤法、包装法,集成法,这些方法在应用的时候有没有什么特别的应用场景,还是随机选择?

(1)过滤法有方差筛选、相关系数、卡方检验和互信息等,方差帅选可以剔除方差为0的无用信息;相关系数主要用于监督学习中,设定阈值,选择相关系数较大的特征;卡方检验要求非负特征集,应用场景是衡量特定条件下的分布是否与理论分布一致;户信息偏袒具有较多值的属性;个人觉得在没有什么思路的时候,可以优先使用卡方检验和互信息来做特征选择

(2) 包装法把将要使用的学习器的性能作为特征子集的评价标准,它会选择一个目标函数来一步步的筛选特征,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练,前提是先确定学习模型,个人觉得包装法的优先级可以放过滤法后

(3) 集成法比如随机森林,个人觉得优先级可以放过滤法后,比如先进行方差移除无用特征,再进行集成法(4) 总之任何一种特征选择方法都有其优缺点的,但最终目的都是为了优化模型,将各种方法选出的特征放到模型中去验证,看其对模型的影响

问题二
  对特征进行选择的时候,是采用其中一种特征选择方法,还是结合各个方法来筛选特征?如果是结合各方法进行筛选,每次出现结果不一样,那又通过什么筛选特征呢?

之前看到过一篇文章 关于特征选择,总结的比较好,发给大家一起参考下:

[特征工程之特征选择]https://www.cnblogs.com/pinard/p/9032759.html

问题三
  特征衍生是否有必要进行?出现的新特征是否有参考价值?依据?

特征衍生就必须分析特征属性

[特征衍生 -1] https://www.jianshu.com/p/c7508915a2e1。这个感觉就是把特征衍生用的很好的例子

特征工程的时候 肯定是要有做一些新的特征的  比如房租预测 题目可能会给你   房租 面积    你可以计算单位面积的租金


特征衍生的一些常用套路有

1. 根据业务理解对多个特征间做加减乘除处理,比如面积和价格,就可以生成一个单位面积价格

2. 构建描述性统计的指标,比如均值 方差 众数

3. 还可以考虑将特征构造不同的组别,比如年龄可以构造成 幼儿 少年 青年 中年 老年等

判断衍生特征是否是有用的唯一标准是看能不能提升分数还是

一是模型最终分数 二也可以通过特征重要度排名哦

问题四
  IV值可以衡量某个特征对目标的影响程度,根据IV值过滤的特征,这个取值范围该怎么选比较合适,极端值的处理方式?IV分箱有什么注意事项?

[python计算IV值] https://www.jianshu.com/p/9a34892ee9e5

IV                      预测能力

<0.03 无预测能力

0.03-0.09 低

0.1-0.29 中

0.3-0.49 高

>=0.5 极高且可疑

[特征选择 (feature_selection)] https://www.cnblogs.com/stevenlk/p/6543628.html 这篇文章对于几种选择方法描述的比较好

问题五
求IV值遇到极端值时怎么处理? 比如说为0 该怎么处理。做平滑吗?根据随机森林选取特征 计算出feature_importances_的值以后 ,是根据从大到小排列之后 又该怎么筛选特征?

iv值=0 根据计算公式 就是只有一类 那说明分的不合适 要重新分

极端情况下,当前分组的响应和未响应的比例和样本整体的响应和未响应的比例相等时,IV值为0;

用现实语言解释就是

根据这个特征并不能区分我们的目标变量。

一种就是特征只有一个种类,无意义

另一种就是根据特征去看,全是平均的,毫无区分度

你可能感兴趣的:(数据挖掘)