机器学习系列 - 7.逻辑回归

1.什么是逻辑回归：

1.1 线性回归的3个假设：

a.因变量和自变量之间呈线性相关。

b.自变量与干扰项相互独立。

c.没被线性模型捕捉到的随机因素服从正态分布。

1.2 用逻辑回归解决分类问题：

其原理是将样本的特征和样本发生的概率联系起来，即，预测的是样本发生的概率是多少。由于概率是一个数，因此被叫做“逻辑回归”。在回归问题上再多做一步，就可以作为分类算法来使用了。逻辑回归只能解决二分类问题，如果是多分类问题，LR本身是不支持的。

1.3 sigmoid 函数：

sigmoid 函数

sigmoid函数，是在数据科学领域，特别是神经网络和深度学习领域中非常重要的函数！它的图形呈S型，因此也被称为S函数。使用sigmoid去近似，最终得到逻辑回归模型：

逻辑回归模型

2. 逻辑回归的损失函数：

2.1 为什么要使用sigmoid函数做为假设？

因为线性回归模型的预测值为实数，而样本的类标记为（0,1），我们需要将分类任务的真实标记y与线性回归模型的预测值联系起来，也就是找到广义线性模型中的联系函数。如果选择单位阶跃函数的话，它是不连续的不可微。而如果选择sigmoid函数，它是连续的，而且能够将z转化为一个接近0或1的值。

2.2 损失函数：

逻辑回归的损失函数当然不是凭空出现的，而是根据逻辑回归本身式子中系数的最大似然估计推导而来的。

最大似然估计就是通过已知结果去反推最大概率导致该结果的参数。极大似然估计是概率论在统计学中的应用，它提供了一种给定观察数据来评估模型参数的方法，即 “模型已定，参数未知”，通过若干次试验，观察其结果，利用实验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

逻辑回归是一种监督式学习，是有训练标签的，就是有已知结果的，从这个已知结果入手，去推导能获得最大概率的结果参数，只要我们得出了这个参数，那我们的模型就自然可以很准确的预测未知的数据了。

逻辑回归损失函数

2.3 损失函数梯度：

3. 决策边界

所谓决策边界就是能够把样本正确分类的一条边界，主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。

注意：决策边界是假设函数的属性，由参数决定，而不是由数据集的特征决定。

4. 逻辑回归中的正则化

对损失函数增加L1正则或L2正则。可以引入一个新的参数来调节损失函数和正则项的权重，如：。

如果在损失函数前引入一个超参数，即：，如果C越大，优化损失函数时越应该集中火力，将损失函数减小到最小；C非常小时，此时L1和L2的正则项就显得更加重要。其实损失函数前的参数C，作用相当于参数前的一个倒数。在逻辑回归中，对模型正则化更喜欢使用这种方式。

机器学习系列 - 7.逻辑回归

1.什么是逻辑回归：

2. 逻辑回归的损失函数：

3. 决策边界

4. 逻辑回归中的正则化

你可能感兴趣的:(机器学习系列 - 7.逻辑回归)