特征工程

特征使用方案

确定需要的数据

需要相关业务知识和领域知识,尽可能找出对因变量有影响的所有自变量

可用性评估

获取难度、覆盖率、准确率

特征获取方案

获取方式

系统或日志里的数据
需要网上爬取的数据

存储方式

文本格式、CSV格式、关系表、键值对
数据库的选择:关系数据库(MySql,Oracle),Nosql数据库(mongoDB,Redis)

特征处理

数据清洗

  1. 异常处理
  2. 数据采样

预处理

单个特征

  1. 归一化
  2. 离散化
  3. Dummy Coding
  4. 缺失值处理
  5. 数据变换
    log
    指数
    Box-Cox

特征降维

  1. 特征抽取
    PCA
    LDA
    LLE
    拉普拉斯映射

  2. 特征选择
    Filter
    Wapper
    Embedded

特征组合

对特征进行加工,生成线性、非线性组合,提高模型表现

特征监控

特征有效性分析

特征重要性,权重

特征监控

防止特征质量下降,影响模型效果

Reference

使用sklearn做单机特征工程

你可能感兴趣的:(特征工程)