LR和GBDT高维稀疏特征

LR和GBDT高维稀疏特征

面试被问到GBDT是否适合处理高维稀疏特征,没有答上来,感觉自己对模型理解深度不够。
结论:LR适合处理高维稀疏特征,而GBDT不适合。
主要原因有:
1、高维特征会导致gbdt运行过于耗时
2、从高维稀疏特征中难以进行有效的特征空间划分,且对噪音会很敏感。

想想一个例子,有个年龄特征0~100,如果对这样特征进行one-hot编码后变为稀疏特征,第i维表示是否为i岁。

如果将这种特征直接输入gbdt然后输出是否是青年人。很显然gbdt将变成枚举各个年龄是否为青年人。这类特征是非常容易过拟合的,如果当训练样本中存在一些噪声样本如80岁的青年人,如果在80岁没有足够的样本,这个错误将被gbdt学到。而如果直接采用连续特征进行分类,gbdt会有更好的泛化性能。

3、高维稀疏特征大部分特征为0,假设训练集各个样本70%的特征为0,30%的特征非0。则某个维度特征在所有样本上也期望具有近似的取0的比例。当作分裂时,特征选择非常低效,特征只会在少部分特征取值非0的样本上得到有效信息。而稠密向量可以得到样本集的整体特征信息。

至于LR为什么在高维稀疏特征上表现较好。我的理解是:

1、LR的目标就是找到一个超平面对样本是的正负样本位于两侧,由于这个模型够简单,不会出现gbdt上过拟合的问题。

2、高维稀疏特征是不是可以理解为低维的稠密特征映射到了高维空间。这里联想到了SVM的核技巧,不也是为了将特征由低维空间映射到高维空间中实现特征的线性可分吗?在SVM中已经证实了其有效性。这里面应该存在某种规律,LR在高维空间比低维空间中具有更高的期望实现更好分类效果的。

GBDT可以理解为将空间划分为离散块,每块染上深度不同的颜色。

你可能感兴趣的:(gbdt,lr)