机器学习总结(二)——逻辑斯谛回归和最大熵模型

机器学习总结(二)——逻辑斯谛回归和最大熵模型_第1张图片


一、逻辑斯谛回归

1. 逻辑斯蒂回归的优缺点

优点:计算代价不高,易于理解和实现,且若采用随机梯度上升法可以在线学习; 速度快,存储资源低。

缺点:可能容易欠拟合,分类精度不高,这个可能是因为我们无法找到足够的特征。只能处理两类分类问题,且必须是线性可分的;(在此基础上衍生出来的softmax可以用于多分类)

2. 与其它的分类算法比较

直接用线性回归做分类因为考虑到了所有样本点到分类决策面的距离,所以在两类数据分布不均匀的时候将导致误差非常大;逻辑斯蒂回归回归和SVM克服了这个缺点,前者采用将所有数据采用sigmod函数进行了非线性映射,使得远离分类决策面的数据作用减弱;后者则直接去掉了远离分类决策面的数据,只考虑支持向量的影响。

3. 逻辑斯蒂回归适合应用在什么场景

在我们的工业应用上,如果需要作出分类的数据拥有很多有意义的特征,每个特征(我们假设这些特征都是有效的)都对最后的分类结果又或多或少的影响,那么最简单最有效的办法就是将这些特征线性加权,一起参与到作出决策的过程中。比如预测广告的点击率,又比如从原始数据集中筛选出符合某种要求的有用的子数据集。

逻辑斯蒂回归还有一个优点,那就是它不是硬性地将分类结果定为0或者1,而是给出了0和1之间的概率。这就相当于对每条数据的分类结果给出了一个打分。打分越高的数据越是我们想要的。如果我们要从一个数据集中筛选出一批数据(比如100个),就只要选出打分排名前100的数据就可以了。我们也可以根据实际情况设定一个阀值,大于这个阀值的归为一类,小于这个阀值的归为另一类。

4. 如何提高逻辑斯蒂回归的分类准确性

个人感觉,只要特征找的准,数据量足够大,逻辑斯蒂回归将会非常好用。另外,还要注意避免过拟合。

特征选择的话,由于逻辑斯蒂回归的优点,开始的时候不用考虑各个特征之间是否有相关性,直接把能用的特征全部线性加权起来就好。经过初步训练,观察各个特征的权值,如果权值接近为0,那么就可以将这个特征看做是不相关的可以去除的特征。总结起来就是:先做加法再做减法。

解决过拟合的方法不过两种,一种是减少特征的个数;另一种是模型选择的正则化方法。正则化的话,可以参考岭回归方法(L2正则化)。

5. 逻辑回归和搜索广告

5.1 搜索广告发展的三个阶段

  • 百度和雅虎的竞价排名:
  • Google根据出价和点击率来决定广告的投放,关键是要预测用户的点击率
  • 整体的优化
  • 根据历史点击率来预估点击率的不足:
    • 新的广告的投放
    • 很多查询对应的广告才2-3此点击,统计的数据严重不足
    • 消除摆放位置的噪声
  • 工业界普遍采用的逻辑回归模型

5.2 逻辑回归模型

  • 定义:
    将一个事件出现的概率适应到一条逻辑曲线(其值域在(0,1))上;为一条S型的曲线,其特点是开始变化快,逐渐减慢,最后饱和,比如函数f(z)=e^z/(e^z+1)=1/(e^z+1),其曲线如下:
  • 特点:
    • 变量的取值从-∞到+∞,可以把各种信号组合起来,
    • 而值域的范围始终未(0,1),不论信号组合成多大的值,最后依然能得到一个概率分布
  • 预估点击率问题:
    • 有k个影响点击率的变量x1,…,xk,用线性的办法将他们组合起来的z=β0+β1*x1+…+βk*xk,其中βi为自回归参数,标示的是相应参数的重要性,β0为一个特殊的参数,保证在没有任何信息时,有一个稳定的概率分布
    • 难点:
      1. 选取与广告有关的信息——数据挖掘专家和搜索工程师
      2. 自回归参数的训练
        有着f(z)=e^z/(e^z+1)=1/(e^z+1)形态的逻辑回归函数和最大熵函数,在函数值和形态上有共性,因此可以用GIS和IIS方法直接训练

5.3 模型总结

逻辑回归模型是一种将影响概率分布的不同因素结合在一起的指数模型。

6. 逻辑回归和SVM的异同

相同点:

  • 都是监督学习算法,需要label训练;
  • 不考虑核函数,LR与SVM都是线性分类算法,他们的决策面都是线性的;
  • 最原始的结构都是二元线性分类模型。
  • 都是判别模型,模型直接从数据中学习条件概率模型达到分类的目的;

不同点:

  • Loss function不同。逻辑斯谛是基于概率理论,样本的概率用sigmod函数表示,然后通过极大似然估计的方法估计参数;
    SVM基于几何间隔最大化原理来进行优化的。认为存在最大几何间隔的分类面为最优分类面;
  • SVM最终分类面只取决于边界附近的点,而逻辑斯谛回归是需要考虑所有的点。(作用在于,SVM不直接依赖数据分布,增加一些边界外的点对分类面无影响)
  • SVM通过引入核函数机制,可以实现非线性分类任务,LR通常不能引入核函数方法。(原因在于,SVM分类只取决于少数样本,参与核计算速度快,而LR是所有样本都参与分类,核计算计算复杂度相当高)。
  • SVM的损失函数自带正则项(1/2||W||^2),LR必须额外加。所以SVM是结构风险最小算法。

7. 逻辑回归和朴素贝叶斯的区别

  • Naive Bayes是一个生成模型,利用贝叶斯公式计算的条件概率。而Logistic Regression是一个判别模型,直接根据训练数据集通过最大化判别函数(对数似然函数)来学习条件概率。
  • Naive Bayes是建立在条件独立假设的基础上,也就是特征x的所有属性之间是相互独立的。而Logistic Regression不需要这么硬性的要求,即使条件不独立也可以通过调节参数来使得模型符合数据分布。
  • 小数据集时,Naive Bayes 效果较好,大数据集时,Logistic Regression效果较好。
  • 朴素贝叶斯:基于特征条件独立假设学习联合概率,然后基于此,对给定的输入x,利用贝叶斯共识求后验概率最大的输出。

二、 最大熵模型

似然函数的最大值不一定是唯一,也不一定存在。最大似然估计的优点是精确度较高,信息损失较少,但计算量相对较大。

熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其他的约束和假设,这些约束和假设根据我们掌握的信息无法作出。

将最大熵原理应用于分类问题,得到的就是最大熵模型。

你可能感兴趣的:(机器学习总结(二)——逻辑斯谛回归和最大熵模型)