大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

                                               第十八节逻辑回归之交叉熵损失函数梯度求解过程(2)

上一节中,我们讲解了交叉熵损失函数的概念,目标是要找到使得损失函数最小的那组θ,也就是l(θ)最大,即预测出来的结果在训练集上全部正确的概率最大。那我们怎么样找到我们的最优解呢?上节中提出用梯度下降法求解,本节的话我们对其具体细节展开。

先来看下我们用梯度下降求解最优解,想要通过梯度下降优化L(θ)到最小值需要几步?

第一步,随机产生w,随机到0附近会比较好一点,w随机到0附近就意味着不管用L1还是L2正则的时候,可以使w的整体比较小。L1和L2正则同样可以用到逻辑回归里面去,来使得逻辑回归的损失函数obj相对比较小,然后使得我们模型具有推广能力和泛化能力。其实任何算法,都可以去使用L1和L2来提高模型的泛化能力,本质上就是减少模型的复杂度。所以以后未来碰到任何的算法,w在随机的过程当中,我们最好用期望为0的正态分布,来随机产生n+1个w。

第二步是求梯度,对于逻辑回归来说,如果用SGD求梯度,我们得用交叉熵的损失函数来得到它的导函数,然后才可以知道某一个值的时候它的梯度是多少。

第三步是w k+1=w k+\lambda *-\frac{\partial L(W k)}{\partial(w k)},它本质是

你可能感兴趣的:(大白话人工智能机器学习算法)