ID类特征使用小结

如何使用ID类特征

ID类特征在搜索、推荐、计算广告等领域里有大量的应用。

如何使用:

ID类特征在预测中的命中率可能并不高,但这其实也不是问题。因为一个特征就是一个体系,**一个体系化的特征是通过层次化的特征设计来达到命中率和个性化的综合。**通过分层的、由细粒度到粗粒度的特征搭配来保证特征命中率。
比如说在电商领域中设计一个体系化的特征来表示一个商品:商品id->店铺id->商品类目->商品品牌->属性,从左到右从个性化特征到泛化特征。
ID类特征使用小结_第1张图片
对于长尾商品和新的商品,泛化特征起主要作用。对热门商品,个性化特征起主要作用。

样本构建:

ID类特征上的信号是极其稀疏的,这意味着需要大量的数据。在搜索、推荐、计算广告等领域,单个id上搜集的数据是比较多的。使用的时候按出现频率倒排的方式筛选,比如在整体样本里出现频率过低的id直接丢掉当做缺失处理。

过拟合问题:

ID类特征容易过拟合,训练的过程中一定要通过正则的方法来限制。L1正则,稀疏一下,真正进模型有权重的id并不会很多。

适用模型:

LR是非常适合使用ID类特征的,原因在于LR适合接受超高维的特征输入。对NN模型来说,需要通过Embedding的方式进行使用。

Reference:
Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

你可能感兴趣的:(ID类特征使用小结)