离散特征处理方法

显式特征组合

常用方法:对特征进行离散化然后进行叉乘,采用笛卡儿积、内积等方式

针对不同特征类型,有不同的处理方式

  • 数值特征

    无监督离散化:根据简单统计量进行等频、等宽、分位点等划分区间

    有监督离散化:IR方法、Entropy-basedDiscretization

  • 有序特征(ordinal feature) CCF画像比赛有位同学采用二值化

    编码表示值之间的顺序关系,比如卫生条件这一特征,分别有差、中、好三档,那么可以分为编码为(1,0,0),(1,1,0),(1,1,1)

  • 无序特征(categorical feature)

    one hot

    离散特征经过One后,每个分类型变量的各个值在模型中都可以看作独立变量,增强拟合能力。一般的,当模型加正则化的情况下约束模型自由度,我们认为One更好

    dummy encoding

    离散化为哑变量,这一维信息嵌入模型Bias起到简化逻辑回归作用,降低模型过拟合风险

    hash trick(转化为固定长度的hash variable) --比赛群有人提出了

    利用feature hash技术将高维稀疏特征映射到固定维度空间

半显示特征组合

区别于显式特征组合具有明确的组合解释信息,半显式特征组合通常的做法是基于树方法形成特征划分并给出相应组合路径。

作用将样本的连续值输入ensemble tree,分别在每棵决策树沿着特定分支路径最终落入某个叶子节点得到其编号,本质上是这些特征在特定取值区间内的组合。采用GDBT或者RF实现,每一轮迭代产生一颗新树,最终通过One-hot encoding转换为binary vector 。GBDT + LR/FM

实验发现:单纯采用xgboost自动学到的高阶组合特征输入LR模型并不能完全替代人工特征工程作用,可以将原始特征以及一些人工的高阶特征的交叉特征同xgboost学习到特征组合一起放入后续模型,获得更好的效果。

你可能感兴趣的:(算法)