逻辑斯蒂回归(Logistic Regression,LR)及其损失函数(包含凸性推导)

  • Logistic Regression

对于一个二分类问题而言

\hat{y}=sigmoid(w^Tx+b)=\sigma(w^Tx+b))

表示样本x label为1的概率,取值范围为[0,1]

其中,

sigmoid(z)=\sigma(z)=\frac{1}{(1+e^{-z})}

Note:

{\sigma}(z)'=\sigma(z)(1-\sigma(z))

则通过上述模型可以得出

P(y=1|x)=\frac{1}{1+e^{-x}}

P(y=0|x)=\frac{e^{-x}}{1+e^{-x}}=1-P(y=1|x)

  • 另一个角度

一个事件发生的概率p与不发生的概率的比值称为该事件的几率\small \frac{p}{1-p} (odds)。

逻辑斯蒂回归模型即Y=1的对数几率是输入x 的线性函数(统计学习方法)。


  • Loss Function

一般经验来说,使用均方误差(mean squared error)来衡量Loss Function:L(y,\hat{y})=\frac{1}{2}(y-\hat{y})^2 .

但是,对于logistic regression 来说,一般不适用均方误差来作为Loss Function,这是因为:

  1. 上面的均方误差损失函数一般是非凸函数(non-convex),其在使用梯度下降算法的时候,容易得到局部最优解,而不是全局最优解。因此要选择凸函数(二阶导大于等于0)。
  2. 使用MSE的另一个缺点就是其偏导值在输出概率值接近0或者接近1的时候非常小,这可能会造成模型刚开始训练时,偏导值几乎消失。

这里选择的损失函数交叉熵(信息论)损失函数:

L(\hat{y},y)=-(ylog(\hat{y})+(1-y)log(1-\hat{y}))

网上找了很多博客也没有推导交叉熵损失函数的凸性的博文,所以下面我来推导一下:

这里为了推导方便,假设\small x\in R^{1}

  • 首先我们推导为什么MSE不是凸函数

L(y,\hat{y})=\frac{1}{2}(y-\hat{y})^2

\frac{\partial L(w,b)}{\partial w}=\frac{\partial L(w,b)}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial w}=(\hat{y}-y)\hat{y}(1-\hat{y})x=(-\hat{y}^3+(1+y)\hat{y}^2-y\hat{y})x

\small \frac{\partial ^{2}L(w,b)}{\partial w^{2}}=\frac{\partial}{\partial w}(\frac{\partial L(w,b)}{\partial w})=(-3\hat{y}^2+2(1+y)\hat{y}-y)\hat{y}(1-\hat{y})x^2不能保证大于等于0

同理对于\small b有,

\small \frac{\partial ^{2}L(w,b)}{\partial b^{2}}=\frac{\partial}{\partial b}(\frac{\partial L(w,b)}{\partial b})=(-3\hat{y}^2+2(1+y)\hat{y}-y)\hat{y}(1-\hat{y})不能保证大于等于0

证毕。

再推导为什么交叉熵损失函数是凸函数:

L(\hat{y},y)=-(ylog(\hat{y})+(1-y)log(1-\hat{y}))

\frac{\partial L(w,b)}{\partial w}=\frac{\partial L(w,b)}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial w}=-(\frac{y}{\hat{y}}-\frac{1-y}{1-\hat{y}})\hat{y}(1-\hat{y})x=(\hat{y}-y)x

\small \frac{\partial ^{2}L(w,b)}{\partial w^{2}}=\frac{\partial}{\partial w}(\frac{\partial L(w,b)}{\partial w})=x\frac{\partial \hat{y}}{\partial w}=\hat{y}(1-\hat{y})x^2\geq 0

对于\small b同理有,

\frac{\partial L(w,b)}{\partial b}=\frac{\partial L(w,b)}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial b}=-(\frac{y}{\hat{y}}-\frac{1-y}{1-\hat{y}})\hat{y}(1-\hat{y})=\hat{y}-y

\small \frac{\partial ^{2}L(w,b)}{\partial b^{2}}=\frac{\partial}{\partial b}(\frac{\partial L(w,b)}{\partial b})=\frac{\partial \hat{y}}{\partial b}=\hat{y}(1-\hat{y})\geq 0

证毕。

你可能感兴趣的:(机器学习)