【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解

伯努利分布

如果随机变量X∈{0, 1},并且相应的概率满足:

    P(X=1) = p,0

    P(X=0) = 1 - p

则称随机变量X服从参数为p的伯努利分布。

则随机变量X的概率密度函数为:

【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解_第1张图片

逻辑回归

    逻辑回归却不是回归算法而是一个分类算法~,线性回归是一个回归算法。逻辑回归的样本数据集是一个离散分布的样本集,逻辑回归的模型值不再是连续值,而是{0, 1}这样的离散值。在Logistic Regression中,需要一个假设:样本事件符合伯努利分布,即0-1分布、两点式分布。

【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解_第2张图片

逻辑回归的假设函数


逻辑回归的似然函数

【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解_第3张图片

逻辑回归的对数似然函数

在求逻辑回归的对数似然函数之前,先求预测函数hθ(x)=sigmoid(x;θ)对θ的对数,求导过程如下所示:

【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解_第4张图片

对数似然函数

然后再求对数似然函数对θ的导数

详细过程如下所示:

【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解_第5张图片

至此已经求得逻辑回归的对数似然函数以及对数似然函数对θ的导数。


求最大似然估计θ时,可以令对数似然函数的导数=0,然后求解θ的方程组,并求出最大似然估计θ。

但是可能分布参数θ的个数不确定性,当θ的个数很多时,求解θ的方程组会很困难,或者有可能解不出准确的分布参数θ。所以一般都采用梯度上升算法来求解θ的方程组的值。从逻辑回归的对数似然函数对θ的导数可以看出和以前线性回归的θ的迭代更新公式一模一样。所以我们是可以使用梯度上升算法来求解逻辑回归的最大似然估计θ。

逻辑回归的最大似然估计的迭代公式一样如下:


剩余的梯度上升算法过程和梯度下降算法过程很类似,在前面有介绍,可以回看阅读。


梯度下降算法和梯度上升算法的区别

    1)两者在公式上,一个减法一个加法,梯度下降算法是减法,梯度上升算法是加法

    2)梯度下降算法用来求函数的最小值

    3)梯度上升算法用来求函数的最大值

    4)使用时能清楚有以上区别就可以了


enjoy it from tom。

 (end)

你可能感兴趣的:(人工智能,机器学习,跟我一起学机器学习,Machine,Learning)