特征工程——特征衍生

难点
技术复杂、资料混乱、没有现成第三方库

特征衍生方法

单变量特征衍生——一个变量放进去衍生多个特征
双变量特征衍生——二组合生多
关键特征衍生——文本/时序
多变量特征衍生——三个及以上特征进行组合

单变量特征衍生

数据冲编码特征衍生

原特征与衍生特征都可以带入特征工程

连续变量:
标准化
离散化

离散变量:
自然数编码/字典编码(非数值变数值)
duress编码/哑变量变换

高阶多项式特征衍生

求二次方、三次方等

特征衍生准则

  1. 分类变量优先独热编码 | 连续变量优先数据归一化
  2. 连续变量较多时考虑聚类分箱;数据量大考虑minibatch
  3. 不建议对单变量使用多项式衍生,带有交叉项的多项式衍生往往效果更好

双变量特征衍生

方法:

  1. 四则运算
  2. 交叉组合
  3. 分组统计
  4. 多项式

四则预算

选两列进行加减乘除

运用场景:
创建业务补充字段
数据信息补充
多次衍生的到特殊字段

多项式特征衍生

效果好,不复杂,含交叉项x1*x2等

注意事项
优先两个连续型变量
选取重要的特征进行多项式衍生,强化重要特征的表现形式
往往衍生3阶左右,配合归一化处理雄安出数值绝对值爆炸或衰减所造成的影响

PolynomialFeatures:
interaction_only默认为false,true表示只创建交叉项
include_bias默认为true即考虑零次方

第一个特征项数依次递减,第二个特征一次递增

交叉组合

不同分类变量不同取值的组合
仅适用于取值较少的分类变量之间进行

分组统计

对特征a根据特征b不同的特征进行分组统计,求统计量

注意事项:
特征a可以时离散也可以是连续,特征b必须是离散且最好取值较多的离散(或取值固定的连续)
统计方法不一定锁死,可以交叉使用,连续性统计众数离散型统计均值

你可能感兴趣的:(自学成柴,聚类,机器学习,python)