通过embedding做特征“扩展”

在一些特殊的场景中,embedding可以发挥很多作用,例如特征扩展。

我们在一个项目的设计过程中,有一个模型出于机器资源的原因,无法加入dnn进行在线预估。最后选型gbdt,而由于其实现版本性能较差,无法加入过多维度特征(会导致预估过慢)所以最后对特征只选择了较小一部分权重较高的特征。而小部分的特征可能在一些样本上过于稀疏。所以选择对更大规模的特征在dnn中做embedding+avg pooling接全连接训练,最后再用对应的embedding向量+avg pooling做一个低维的特征输入gbdt,这样gbdt也能通过emb获得逼近全量特征的输入。(特征规模和覆盖率提升)

最终结果:模型加入隐式向量后,预估auc提升了百分位两个点,从0.76提升到0.78

(这里相当于把离线从dnn中训练得到的knowledge通过embedding的方式提供给在线系统使用,本质上还是利用了embedding对信息进行“浓缩”降维的功能)

你可能感兴趣的:(通过embedding做特征“扩展”)