逻辑斯蒂回归(LR)

  • 在广告计算和推荐系统中使用频率极高
  • 带正则化的线性模型比较不容易对稀疏特征过拟合

逻辑斯蒂分布:

μ为位置参数,γ>0为形状参数。

LR模型最终形式表现为一种概率模型,这是和几何分类模型最大的区别,如SVMKNN等。

逻辑斯蒂回归(LR)_第1张图片
image.png

二项逻辑斯蒂回归模型:(其实是个二分类)

极大似然估计法:,为决定,数据集

  • 如果用交叉熵,LR是凸函数。softmax回归也是凸函数。

这样一来,问题就变成了以对数似然函数为目标函数的,以求可能性最大时的值为目的的最优化问题。

  • 我个人的理解是对于

  • 选择为回归线与交汇点,则被可能被分类为1的概率为,然后再计算的极大似然估计得到最可能的对应的
逻辑斯蒂回归(LR)_第2张图片
红色为 0 黑色为 1 .png

求解逻辑回归的方法:

梯度下降:

最大化等价于最小化损失函数,因为除了N,所以求导可以直接得到梯度

逻辑斯蒂回归(LR)_第3张图片
image.png


  • 梯度下降法实现相对简单,但是其收敛速度往往不尽人意,可以考虑使用随机梯度下降法来解决收敛速度的问题
  • 你可能很奇怪b怎么不见了,因为

延申拓展:

=======

  • 对应的是这个矩阵向量的对应的值

牛顿法:(需要二阶可导)

在现有极小点估计值的附近对 f(x) 做二阶泰勒展开,进而找到极小点的下一个估计值。

  • 牛顿法,拟牛顿法用的更多

正则化:(带正则化的线性模型比较不容易对稀疏特征过拟合)

先验知识:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布

  • 先验知识怎么来的看另一篇文章

有两种方法:
(1)适用于梯度下降的,带约束条件的优化求解(拉格朗日乘子法)

  • 是范数

(2)使用于牛顿法的,贝叶斯学派的:最大后验概率
< 1 > 正则化

逻辑斯蒂回归(LR)_第4张图片
image.png

LASSO 回归,相当于为模型添加了这样一个先验知识:w 服从零均值拉普拉斯分布

< 2 > 正则化
对参数 w 引入零均值高斯先验


逻辑斯蒂回归跟线性回归比有什么区别?

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,把压缩到,即先把特征线性求和,然后使用sigmoid函数来预测。然而,正是这个简单的逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。因为他削弱了因为度量形式(米or厘米)还有


  • 使用Softmax(神经网络)还是K个逻辑回归做k个分类问题?

如果你在开发一个音乐分类的应用,需要对k种类型的音乐进行识别,那么是选择使用 Softmax 分类器呢,还是使用 logistic 回归算法建立 k 个独立的二元分类器呢?

答案: 如果你的类别是互斥的,那么用Softmax,否则用K个逻辑回归。如果在你的数据集中,有的歌曲不属于以上四类的其中任何一类,那么你可以添加一个“其他类”,并将类别数 k 设为5。

如果你的四个类别如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别之间并不是互斥的。例如:一首歌曲可以来源于影视原声,同时也包含人声 。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。这样,对于每个新的音乐作品,我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子,你的任务是将图像分到三个不同类别中。

  1. 假设这三个类别分别是:室内场景、户外城区场景、户外荒野场景。你会使用Softmax回归还是 3个logistic 回归分类器呢?
  2. 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片,你又会选择 Softmax回归还是多个 logistic 回归分类器呢?

在第一个例子中,三个类别是互斥的,因此更适于选择Softmax回归分类器 。而在第二个例子中,建立三个独立的 logistic回归分类器更加合适。


并行化逻辑回归



注意到的维度为d,需要对数据的每一维都使用上式更新。可以看到,一次更新的开销数据量N以及维度d有关。

数据并行:

这是最简单也是最容易想到的数据并行方式了,假设有a台机器,则把数据随机分到a台机器上,每台机器数据不重复,这样每台机器有N/a条样本,每个样本有d个特征。每台机器分别对其样本计算(h(xi)−yi)xij,最后求和合并即可。

这个方式解决了数据量大的问题,但是实际中特征数量可能很高。

特征并行:

特征并行就是对每个样本的d个特征进行划分,假设有b台机器,那么,每台机器的有个特征,N个样本点,每台机器对其拥有的特征分别计算,然后和其它机器同步更新后的参数即可。

数据+特征并行

数据+特征并行就是上面两种的结合,如下图所示,将数据分为a * b块,其中,即将数据按水平划分,又在特征上垂直划分。

逻辑斯蒂回归(LR)_第5张图片
计算w^Tx.png

先分别计算,。然后按照行号(即单个样本点)相同的进行归并。然后再按照列(各个样本之间)计算求均值归并。


Google DistBelief

Google实现了一个名为DistBelief的框架,采用parameter server来同步参数。
文章链接

逻辑斯蒂回归(LR)_第6张图片
image.png

你可能感兴趣的:(逻辑斯蒂回归(LR))