2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授

Logistic 损失函数的解释 ( Explanation of Logistic Regression Cost Function (Optional))

在前面的视频中,我们已经分析了逻辑回归的损失函数表达式,在这节选修视频中,我将给出一个简洁的证明来说明逻辑回归的损失函数为什么是这种形式。

2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第1张图片

 回想一下,在逻辑回归中,预测的结果\hat{y} = \sigma (w^{T}x + b) ,\sigma 是我们熟悉的S型函数,\sigma (z) = \sigma (w^{T}x +b) = \frac{1}{1+e^{-z}} 。

我们约定\hat{y} = p(y=1|x),即当给定输入特征x的时候y = 1 的概率。换句话说,如果y = 1,在给定训练样本x的条件下,p(y|x) = \hat{y} ;如果y = 0,p(y|x) = 1-\hat{y}。前者表示y = 1 的概率,后者表示y = 0 的概率。接下来,我们就来分析这两个条件概率公式。

在这里插入图片描述

 这两个条件概率公式定义形式为 p(y|x),并且代表了y = 0 和 y = 1这两种情况,我们可以将这两个公式合并成一个公式。需要指出的是我们讨论的是二分类问题的损失函数,因此,y的取值只能是0或者1。上述的两个条件概率公式可以合并成如下公式:

p(y|x) = \hat{y}^{y}(1-\hat{y})^{1-y}

2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第2张图片

 由于log函数是严格单调递增的函数,最大化log(p(y|x)) 会得出和最大化p(y|x) 相似的结果,如果计算log(p(y|x)) = log \hat{y}^{y}(1-\hat{y})^{1-y} = ylog\hat{y} + (1-y)log(l-\hat{y}),这其实就是我们之前找到的损失函数的相反数。这里有一个负号,因为通常在训练一个学习算法的时候,我们想要让概率变大,而在逻辑回归中,我们想要最小化L(\hat{y},y) 这个损失函数。因此最小化损失函数相当于最大化概率的对数。这就是损失函数在单一样本上的例子。

2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第3张图片

 

那代价函数呢?在所有样本m的训练集里是怎么样呢?

让我们一起来探讨一下,整个训练集中标签的概率,更正式地来写一下。假设所有的训练样本服从同一分布且相互独立,也即独立同分布的,所有这些样本的联合概率就是每个样本概率的乘积:

2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第4张图片

 2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第5张图片

 2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授_第6张图片

如果你想做最大似然估计,需要寻找一组参数,使得给定样本的观测值概率最大,但令这个概率最大化等价于令其对数最大化,在等式两边取对数: 

 

未完

你可能感兴趣的:(#,深度学习,人工智能)