LR中特征相关的问题

为什么特征离散化

下面答案有些不是LR进行离散化特有的原因,而是离散化本身比较general的原因

  1. 离散特征可以one-hot, 而稀疏向量内积运算速度快,结果易存储
  2. 离散后数据鲁棒性强,不会因为数据发生一点小的变动而表现出完全不同的性质,使模型更稳定
  3. 离散后可以进行特征交叉,引入非线性特征
  4. 增强模型的表达能力,离散化后,原来的一个特征变成N个特征,加大了模型的拟合能力
  5. 特征离散后相当于简化了特征,一定程度上减轻了过拟合

共线特征对于LR模型的影响

LR模型中特征的共线性不会影响模型的最优解,但是会影响系数的稳定性。比如现在两个特征x1,x2,分别表示米和厘米,这两个长度高度共线性。
1.5 米 = 1 ∗ x 1 + 50 ∗ x 2 , 也 可 以 表 示 为 2 ∗ x 1 − − 50 ∗ x 2 1.5米= 1*x_{1} + 50*x_{2},也可以表示为2*x_{1} - -50*x_{2} 1.5=1x1+50x2,2x150x2
x 2 x_{2} x2的系数发生的质的翻转,但是表达能力没有变。
所以LR模型中特征的共线性不会影响模型的最优解,但是会使得系数不稳定,从而解释性变差。

如果是出现重复特征,比如某个特征重复了100次,那么相当于把原来唯一的特征分成了一百份,这一百个特征效果和原来单个特征的效果相同。

为什么要删除共线性特征

  • 提高模型的可解释性
  • 提高模型的训练速度

特征权重的绝对值可以用来衡量特征的重要性吗

不一定,首先特征可能没有归一化,系数收到量级的影响,(1米=1cm * 100)
其次,特征间可能存在共线性,导致特征系数不稳定,可解释性差。

参考资料

https://www.zhihu.com/question/31989952
https://www.cnblogs.com/ModifyRong/p/7739955.html

你可能感兴趣的:(机器学习)