逻辑回归是一种分类方法,主要用于二分类问题,使用逻辑函数(即Sigmoid函数)。
g ( z ) = 1 1 + e − z g(z)= \frac {1}{1+e^{-z}} g(z)=1+e−z1
原始的条件概率为(w是设定好的向量矩阵,x是特征表示为的向量,b是偏置项。)
p ( Y ∣ X ) = w T x + b p(Y|X) = {w^T}x+b p(Y∣X)=wTx+b
上述两个式子结合,可以将条件概率和逻辑回归联系到一起,则在特征X的条件下,被划分为Y类别的概率是:
p ( Y ∣ X ) = 1 1 + e − w T x + b p(Y|X)= \frac {1}{1+e^{-{w^T}x+b}} p(Y∣X)=1+e−wTx+b1
Sigmoid函数如图所示:
如果是二分类的情况,则有:
p ( y = 1 ∣ x , w ) = 1 1 + e − w T x + b p(y=1|x, w)= \frac {1}{1+e^{-{w^T}x+b}} p(y=1∣x,w)=1+e−wTx+b1
p ( y = 0 ∣ x , w ) = 1 − p ( y = 1 ∣ x , w ) p(y=0|x, w)= 1-p(y=1|x, w) p(y=0∣x,w)=1−p(y=1∣x,w)
即:
p ( y = 0 ∣ x , w ) = e − w T x + b 1 + e − w T x + b p(y=0|x, w)= \frac {e^{-{w^T}x+b}}{1+e^{-{w^T}x+b}} p(y=0∣x,w)=1+e−wTx+be−wTx+b
把y=1和y=0的两个式子合并可以得到:
p ( y ∣ x , w ) = p ( y = 1 ∣ x , w ) y [ 1 − p ( y = 1 ∣ x , w ) ] 1 − y p(y|x, w)= p(y=1|x, w)^y[1-p(y=1|x, w)]^{1-y} p(y∣x,w)=p(y=1∣x,w)y[1−p(y=1∣x,w)]1−y
目的:我们需要最大化目标函数。找出使得目标函数最大的w和b。
引入最大似然:
∏ i = 1 m p ( y i ∣ x i , w ) = ∏ i = 1 m p ( y = 1 ∣ x i , w ) y i [ 1 − p ( y = 1 ∣ x i , w ) ] 1 − y i \prod_{i=1}^{m} {p(y^{i}|x^{i}, w)= \prod_{i=1}^{m} p(y=1|x^{i}, w)^{y^{i}}[1-p(y=1|x^{i}, w)]^{1-y^{i}}} i=1∏mp(yi∣xi,w)=i=1∏mp(y=1∣xi,w)yi[1−p(y=1∣xi,w)]1−yi
两边取自然对数可得:
∑ i = 1 m [ y i l o g p ( y = 1 ∣ x i , w ) + ( 1 − y i ) l o g ( 1 − p ( y = 1 ∣ x i , w ) ) ] \sum_{i=1}^{m} {[y^i log p(y=1|x^{i},w)+(1-y^{i})log(1-p(y=1|x^{i}, w))]} i=1∑m[yilogp(y=1∣xi,w)+(1−yi)log(1−p(y=1∣xi,w))]
最大化原函数等价于求最小化函数:
− 1 m ∑ i = 1 m [ y i l o g p ( y = 1 ∣ x i , w ) + ( 1 − y i ) l o g ( 1 − p ( y = 1 ∣ x i , w ) ) ] -\frac{1}{m}\sum_{i=1}^{m} {[y^i log p(y=1|x^{i},w)+(1-y^{i})log(1-p(y=1|x^{i}, w))]} −m1i=1∑m[yilogp(y=1∣xi,w)+(1−yi)log(1−p(y=1∣xi,w))]
将 p ( y = 1 ∣ x i , w ) p(y=1|x^{i},w) p(y=1∣xi,w)表示为: h ( x i ) h(x^{i}) h(xi)
则最终的目标函数为:
J ( W , b ) = − 1 m ∑ i = 1 m [ y i l o g h ( x i ) + ( 1 − y i ) l o g ( 1 − h ( x i ) ) ] J(W,b)= -\frac{1}{m}\sum_{i=1}^{m} {[y^i log h(x^{i})+(1-y^{i})log(1-h(x^{i}))]} J(W,b)=−m1i=1∑m[yilogh(xi)+(1−yi)log(1−h(xi))]
目的:正则化主要是为了解决过拟合问题。
参考文献:
逻辑回归(目标函数推导).
机器学习笔记之线性回归、岭回归、Lasso回归.