逻辑回归实践总结三

LR总结二--特征工程中的几个疑难问题的理解

上篇总结使用LR时关于特征工程方面的知识,这篇总结下对其中几个疑难问题的理解。

我所面对的任务是训练一个LR模型来预测用户对歌曲的喜爱与否。

一、为什么对某些特征进行离散化?

有些特征虽然也是数值型,但是其值相加减是没有意义的,也需要转换成离散型。比如说年龄的两个值20和30,在w确定的情况下,x是特征向量,x的年龄特征是20与特征是30时相比,wx的差值是很大的,但是20岁的人和30岁的人对同一个广告的反应不会相差那么大。

二、为什么对某些连续性特征进行离散化?

原因是特征的取值在不同区间对于点击率的重要性是不一样的。如下图所示互联网广告的点击率分布图。点击率符合一个长尾分布,叫作对数正态分布。现在我们将广告的点击率作为一个特征,加入广告a和b,点击率分别是0.2% 和 0.25%,那么我们可以确定广告b要比广告a好,因为这个区间内的广告很多,b的点击率又比a高。但是当a和b的点击率是1%和1.05%时,并不能确定b比a好,因为这个区间内的广告数量不多,两个广告可以认为是差不多的。这就表明特征在不同区间是不同的权重系数。因为这个特征对于ctr不是完全的正相关性。可能值越大特征越重要,但是值达到一定成都,重要性就下降了。所以,我们将连续特征离散化,就是默认不同区间的权重是不一样的。特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。常用做法,就是先对特征进行排序,然后再按照等频离散化为N个区间

逻辑回归实践总结三_第1张图片

三、特征组合的实际意义是什么?

解释一:从特征值变化角度考虑

从实际意义来说,以性别这个特征为例,假设离散化后性别男对应的是编号12的特征值为1.那么对于下列组合(用户,篮球广告),(用户,化妆品广告),(用户,车辆广告)在这些数据的训练过程中,编号12的特征值一直都是1,这样训练出来一个权重,对英编号12的权重值是w,那么无论对于(用户,篮球广告)还是(用户,化妆品广告)来说,编号12都是这样权重w。这样看起来是不合理的,合理的结果是对于(用户,篮球广告)编号12是一个权重,(用户,化妆品广告)是另一个权重。可以将编号12的特征不取1,取值为广告在男性用户上的点击率。对于(用户,篮球广告)编号12是男性在篮球广告上的点击率,对于(用户,化妆品广告)编号12是男性在化妆品广告的点击率。

解释二:从产生新特征角度考虑

逻辑回归实践总结三_第2张图片

解释三:从产生新特征角度考虑(同二,另外一个例子)

逻辑回归实践总结三_第3张图片

如下图所示,我们需要根据特征x1和特征x2,对数据进行分类。红色的为正样本,蓝色为负样本。一般情况下公式可以写为

但是观察数据分布,我们无法找到一条直线可以将正负样本分开。

在观察下我们发现若特征x1和特征x2的积若为正时,样本都是正样本;积是负时,样本都是负样本。此时我们可以新增加一个特征x3,使得

则原公式变为

新增加的特征就是特征组合产生的新特征。在原公式中特征x1的作用由权重w1来控制,表示x1这个特征对最终结果的影响。当加入新特征后x1的作用不仅由w1控制,而且还有w3*x2共同来控制。w1的作用现在变成了当特征x2为0时,特征x1对结果的影响。

四、为什么AUC越大,代表模型分类能力越好?

AUC 的意思是area under th curve,其中从curve默认的是roc曲线。ROC曲线是受试者特征曲线,纵坐标是

横坐标是

p是正样本数量,N是负样本数量。

假设数据集有100个正样本,100个负样本,一个模型对其进行预测,100个正样本中70个被标记为正,30个被标记为负。100个负样本中,70个被标记为正,30个被标记为负。那么tpr和fpr可以求出(0.7,0.7),此时tpr和fpr相等的意思是,对于上述预测正确的70个正样本和70个预测错误的负样本,有50%的几率是正确的,50%的几率是错误的。现在有一个样本被标记为正,那么有50%的可能性它属于TP,有50%的可能性ta属于FP。

如果TPR和fpr都是40%呢,同理,假设一个样本被标记为正,同样有50%的可能性它属于TP。这在坐标轴上表示的是一条y=x的直线。

假设tpr为70%,fpr为40%,那么对于新样本,有70 / (70 + 40)= 70/110的概率是属于TP,有40/110的概率属于FP,这种情况是在y=x直线上方。这样的模型就比上个模型要改进了一些,属于更好的模型。

假设tpr为40%,fpr为70%,那么对于新样本,有40/110的概率属于TP,70%的概率属于FP,这个模型比上个模型差。一般情况是label或者算法出错了。

你可能感兴趣的:(lr)