特征工程(科大讯飞阿泽大佬share)

时序预测任务简介

特征工程(科大讯飞阿泽大佬share)_第1张图片

2.特征工程常见操作(数据清洗,特征构造,特征筛选)

数据清洗:提高数据质量,降低算法用错误数据建模的风险

  1. 特征变换:模型无法处理或者不适合处理
    a) 定性变量编码:Label Encoder;onehot encoder;distribution Encoder
    b)标准化和归一化(对于lr模型来说,但是xgb就不需要):z分数标准化(标准正态分布),min-max归一化
  2. 缺失值处理:减少不确定性和不可靠输出
    a)不处理:少量样本缺失
    b)删除:大量样本缺失
    c)补全:(同类)均值/中位数/众数补全,高维映射,模型预测,最邻近/向后/向前补全,矩阵补全(R-SVD)
  3. 异常值处理:减少脏数据
    a)简单统计:如describe()的统计描述,散点图等
    b)正态分布(3伽马法则)/箱型图阶段
    c)利用模型进行离群点检测:聚类,k近邻,one class SVM,isolation forest
  4. 其他:删除无效列/更改dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等

3.特征构造:增强数据表达,添加先验知识

  1. 统计量特征:
    a)四分位数、中位数、平均数、标准差,偏差、峰度、离散系数
    b)构造长短期统计量
    c)考虑时间衰减
  2. 周期值:
    a)前n个周期/天/月/年的同期值
    b)同比/环比
  3. 数据分桶:
    a)等频/等距分桶、Best-KS分桶、卡方分桶
  4. 特征组合(先用强特征)
    a)类别特征和类别特征:笛卡尔积
    b)类别特征和连续特征:连续特征分桶后进行笛卡尔积,或者基于类别特征进行groupby操作,类似聚合特征的构造
    c)连续特征和连续特征:加减乘除,或者二阶差分等

4.特征选择:降低噪声,平滑预测能力和计算复杂度,增强模型预测性能

  1. 过滤式 (Filter):先用特征选择方法对初始特征进行过滤,然后再训练学习器,特征选择过程与后续学习器无关。
    a)方差选择/相关系数/卡方检验/互信息法

  2. 包裹式(Wrapper):直接把最终将要使用的学习器的性能作为衡量特征自己的评价标准,其目的在于给定学习器选择有利用其性能的特征子集。
    单特征建模模型

  3. 嵌入式(Embedding):结合过滤式和包裹式方法,将特征选择与学习器训练过程融为一体,两者在同一优化过程中完成,即学习器训练过程中自动进行了特征选择。

你可能感兴趣的:(比赛)