从二类逻辑回归到多类逻辑回归,再到softmax分类

二类逻辑回归

逻辑回归虽然带有“回归”两个字,但是却是一个分类模型。之所以带有“回归”二字是因为,最早在统计领域中,用线性回归模型来预测事件发生的log几率。之所以说是逻辑回归,是因为该模型化简转化后中,事件发生的概率等于特征的线性转换 w T x w^Tx wTx输入到一个Logistic Sigmoid函数[1],简称Logistic函数,是一种Sigmoid函数[2]。
f ( x ) = 1 e − w T x ,      ( 1 ) f(x)=\frac{1}{e^{-w^Tx}},~~~~(1) f(x)=ewTx1    (1)

f ( x ) = e w T x 1 + e w T x 。      ( 2 ) f(x)=\frac{e^{w^Tx}}{1+e^{w^Tx}}。~~~~(2) f(x)=1+ewTxewTx    (2)
相当于用 f ( x ) f(x) f(x)的值来拟合条件概率 P ( Y = 1 ∣ X = x ) P(Y=1|X=x) P(Y=1X=x)的值,则 P ( Y = 0 ∣ X = x ) = 1 − f ( x ) P(Y=0|X=x)=1-f(x) P(Y=0X=x)=1f(x),这样保证两类概率和等于1,因此叫二类逻辑回归。
二类逻辑回归可以利用极大似然法来求确定优化目标(策略),最后利用随机梯度下降或者拟牛顿法进行优化求解(算法)。

多类逻辑回归

在李航《统计学习方法》中,根据(2)式,李航将二类逻辑回归拓展为多类逻辑回归, K K K类分类模型具体形式如下:
P ( Y = c ∣ X = x ) = e w c T x 1 + ∑ k = 1 K − 1 e w k T x , c = 1 , . . . , K − 1 , P(Y=c|X=x)=\frac{e^{w_c^Tx}}{1+\sum\limits_{k=1}^{K-1}e^{w_k^Tx}},c=1,...,K-1, P(Y=cX=x)=1+k=1K1ewkTxewcTx,c=1,...,K1
P ( Y = K ∣ X = x ) = 1 1 + ∑ k = 1 K − 1 e w k T x , c = K 。 P(Y=K|X=x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}e^{w_k^Tx}},c=K。 P(Y=KX=x)=1+k=1K1ewkTx1,c=K
从上可以看出,该种多类逻辑回归仅需 K − 1 K-1 K1组权重。

而在更多的地方,比如在PRML中,多类逻辑回归利用一种特殊的激励函数 s o f t m a x softmax softmax转换实现:
P ( Y = c ∣ X = x ) = e w c T x ∑ k = 1 K e w k T x , c = 1 , . . . , K 。 P(Y=c|X=x)=\frac{e^{w_c^Tx}}{\sum\limits_{k=1}^{K}e^{w_k^Tx}},c=1,...,K。 P(Y=cX=x)=k=1KewkTxewcTx,c=1,...,K
s o f t m a x softmax softmax转换实际是一种概率归一化技术。
在基于 s o f t m a x softmax softmax的多类逻辑回归中,需要确定 K K K组权重。此时的多类逻辑回归相当于1层权重的多类分类神经网络模型。

[1] PRML p209.
[2] 机器学习,周志华,p58。

你可能感兴趣的:(机器学习,深度学习,神经网络)