逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法.最大熵是概率模型学习的一个准则.将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑斯谛回归模型与最大熵模型都属于对数线性模型
首先介绍逻辑斯谛分布(logistic distribution)
逻辑斯谛分布:设 X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数:
F ( x ) = P ( X ⩽ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 \begin{array}{l}{F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}}} \\ {f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^{2}}}\end{array} F(x)=P(X⩽x)=1+e−(x−μ)/γ1f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
式中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数
逻辑斯谛分布的密度函数 f ( x ) f(x) f(x)和分布函数 F ( x ) F(x) F(x)的图形如下图所示.分布函数属于逻辑斯谛函数,其图形是一条S形曲线(sigmoid curve).该曲线以点 ( μ , 1 2 ) \left(\mu, \frac{1}{2}\right) (μ,21)为中心对称,即满足:
F ( − x + μ ) − 1 2 = − F ( x − μ ) + 1 2 F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2} F(−x+μ)−21=−F(x−μ)+21
from IPython.display import Image
Image(filename="./data/6_1.png",width=500)
曲线在中心附近增长速度较快,在两端增长速度较慢.形状参数 γ \gamma γ的值越小,曲线在中心附近增长得越快
二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y | X) P(Y∣X)表示,形式为参数化的逻辑斯谛分布.这里随机变量X取值为实数,随机变量Y取值为1或0.我们通过监督学习的方法来估计模型参数
逻辑斯谛回归模型:二项逻辑斯谛回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = exp ( w ⋅ x + b ) 1 + exp ( w ⋅ x + b ) P ( Y = 0 ∣ x ) = 1 1 + exp ( w ⋅ x + b ) \begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x+b)}}\end{array} P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)P(Y=0∣x)=1+exp(w⋅x+b)1
这里, x ∈ R n x \in \mathbf{R}^{n} x∈Rn是输入, Y ∈ { 0 , 1 } Y \in\{0,1\} Y∈{0,1}是输出, w ∈ R n w \in \mathbf{R}^{n} w∈Rn和 b ∈ R b \in \mathbf{R} b∈R是参数,w称为权值向量,b称为偏置, w ⋅ x w \cdot x w⋅x为w和x的内积
对于给定的输入实例x,按照公式可以求得 P ( Y = 1 ∣ x ) P(Y=1 | x) P(Y=1∣x)和 P ( Y = 0 ∣ x ) P(Y=0 | x) P(Y=0∣x).逻辑斯谛回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类
有时为了方便,将权值向量和输入下来给你加以扩充,仍记作w,x.即w= ( w ( 1 ) , w ( 2 ) , ⋯   , w ( n ) , b ) T (w^{(1)},w^{(2)}, \cdots, w^{(n)}, b )^{\mathrm{T}} (w(1),w(2),⋯,w(n),b)T, x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) , 1 ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^{\mathrm{T}} x=(x(1),x(2),⋯,x(n),1)T.这时逻辑斯谛回归模型如下:
P ( Y = 1 ∣ x ) = exp ( w ⋅ x ) 1 + exp ( w ⋅ x ) P ( Y = 0 ∣ x ) = 1 1 + exp ( w ⋅ x ) \begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x)}}\end{array} P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)P(Y=0∣x)=1+exp(w⋅x)1
现在考查逻辑斯谛回归模型的特点,一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值.如果事件发生的概率是p,那么该事件的几率是 p 1 − p \frac{p}{1-p} 1−pp,该事件的对数几率(log odds)或logit函数是:
logit ( p ) = log p 1 − p \operatorname{logit}(p)=\log \frac{p}{1-p} logit(p)=log1−pp
对逻辑斯谛回归而言得:
log P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x \log \frac{P(Y=1 | x)}{1-P(Y=1 | x)}=w \cdot x log1−P(Y=1∣x)P(Y=1∣x)=w⋅x
这就是说,在逻辑斯谛回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入x的线性函数,或者说,输出 Y = 1 Y=1 Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型
换一个角度看,考虑对输入x进行分类的线性函数w,x,其值域为实数域.注意这里 x ∈ R n + 1 , w ∈ R n + 1 x \in \mathbf{R}^{n+1}, w \in \mathbf{R}^{n+1} x∈Rn+1,w∈Rn+1.通过逻辑斯谛回归模型将线性函数w,x转换为概率:
P ( Y = 1 ∣ x ) = exp ( w ⋅ x ) 1 + exp ( w ⋅ x ) P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)} P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.这样的模型就是逻辑斯谛回归模型
上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类.可以将其推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类.假设离散型随机变量 Y Y Y的取值集合是 { 1 , 2 , ⋯   , K } \{1,2, \cdots, K\} {1,2,⋯,K},那么多项逻辑斯谛high模型是:
P ( Y = k ∣ x ) = exp ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) , k = 1 , 2 , ⋯   , K − 1 P(Y=k | x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1 P(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) P(Y=K | x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)} P(Y=K∣x)=1+∑k=1K−1exp(wk⋅x)1
这里, x ∈ R n + 1 , w k ∈ R n + 1 x \in \mathbf{R}^{n+1}, w_{k} \in \mathbf{R}^{n+1} x∈Rn+1,wk∈Rn+1
二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归
最大熵模型(maximum entropy model)有最大熵原理推导实现
最大熵原理是概率模型学习的一个准则.最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型.通常用约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选取最大的模型
假设离散随机变量X的概率分布是 P ( X ) P(X) P(X),则其熵是:
H ( P ) = − ∑ x P ( x ) log P ( x ) H(P)=-\sum_{x} P(x) \log P(x) H(P)=−x∑P(x)logP(x)
熵满足下列不等式:
0 ⩽ H ( P ) ⩽ log ∣ X ∣ 0 \leqslant H(P) \leqslant \log |X| 0⩽H(P)⩽log∣X∣
式中, ∣ X ∣ |X| ∣X∣是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立.这就是说,当X服从均匀分布时,熵最大
实例:假设随机变量X有5个取值 { A , B , C , D , E } \{A, B, C, D, E\} {A,B,C,D,E},要估计取各个值的概率 P ( A ) , P ( B ) , P ( C ) , P ( D ) , P ( E ) P(A), P(B), P(C), P(D), P(E) P(A),P(B),P(C),P(D),P(E)
Image(filename="./data/6_2.png",width=500)
可以继续按照满足约束条件下求等概率的方法估计概率分布.这里不再继续讨论.以上概率模型学习的方法正是遵循了最大熵原理
下图提供了用最大熵原理进行概率模型选择的几何解释.概率模型集合 P \mathcal{P} P可由欧式空间中的单纯形表示.左图的三角形,一个点代表一个模型,整个单纯形代表模型集合.右图上的一条直线对应于一个约束条件,直线的交集相应于满足约束条件的模型集合.一般地这样的模型仍有无穷多个.学习的目的是在可能的模型集合中选择最优模型,而最大熵原理则给出最优模型选择的一个准则
Image(filename="./data/6_3.png",width=500)
假设分类模型是一个条件概率分布 P ( Y ∣ X ) P(Y | X) P(Y∣X), X ∈ X ⊆ R n X \in \mathcal{X} \subseteq \mathbf{R}^{n} X∈X⊆Rn表示输入, Y ∈ Y Y \in \mathcal{Y} Y∈Y表示输出, X \mathcal{X} X和 Y \mathcal{Y} Y分别是输入和输出的集合,这个模型的是对于给定的输入 X X X,以条件概率 P ( Y ∣ X ) P(Y | X) P(Y∣X)输出 Y Y Y
给定一个训练数据集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),⋯,(xN,yN)}
学习的目标是用最大熵原理选择最好的分类模型
最大熵模型:假设满足所有约束条件的模型集合为
C ≡ { P ∈ P ∣ E P ( f i ) = E p ~ ( f i ) , i = 1 , 2 , ⋯   , n } \mathcal{C} \equiv\left\{P \in \mathcal{P} | E_{P}\left(f_{i}\right)=E_{\tilde{p}}\left(f_{i}\right), \quad i=1,2, \cdots, n\right\} C≡{P∈P∣EP(fi)=Ep~(fi),i=1,2,⋯,n}
定义在条件概率分布 P ( Y ∣ X ) P(Y | X) P(Y∣X)上的条件熵为:
H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) log P ( y ∣ x ) H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x) H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
则模型集合 C C C中条件熵 H ( P ) H(P) H(P)最大的模型称为最大熵模型,式中的对数为自然对数
LR是经典的分类方法.回归模型: f ( x ) = 1 1 + e − w x f(x)=\frac{1}{1+e^{-w x}} f(x)=1+e−wx1
其中wx线性函数: w x = w 0 ∗ x 0 + w 1 ∗ x 1 + w 2 ∗ x 2 + … + w n ∗ x n , ( x 0 = 1 ) w x=w_{0} * x_{0}+w_{1} * x_{1}+w_{2} * x_{2}+\ldots+w_{n} * x_{n},\left(x_{0}=1\right) wx=w0∗x0+w1∗x1+w2∗x2+…+wn∗xn,(x0=1)
%matplotlib inline
from math import exp
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# data
def load_data():
iris=load_iris()
df=pd.DataFrame(iris.data,columns=iris.feature_names)
df["label"]=iris.target
df.columns=["sepal length","sepal width","petal length","petal width","label"]
data=np.array(df.iloc[:100,[0,1,-1]])
return data[:,:2],data[:,-1]
X,y=load_data()
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
class LogisticRegressionClassifier(object):
def __init__(self,max_iter=200,learning_rate=0.01):
self.max_iter=max_iter
self.learning_rate=learning_rate
def sigmoid(self,x):
return 1/(1+exp(-x))
def data_matrix(self,X):
data_mat=[]
for d in X:
data_mat.append([1.0,*d])
return data_mat
def fit(self,X,y):
# label=np.mat(y)
data_mat=self.data_matrix(X)
self.weights=np.zeros((len(data_mat[0]),1),dtype=np.float32)
for iter_ in range(self.max_iter):
for i in range(len(X)):
result=self.sigmoid(np.dot(data_mat[i],self.weights))
error=y[i]-result
self.weights+=self.learning_rate*error*np.transpose([data_mat[i]])
print("LR Model(learning_rate={},max_iter={})".format(self.learning_rate,self.max_iter))
def score(self,X_test,y_test):
right=0
X_test=self.data_matrix(X_test)
for x,y in zip(X_test,y_test):
result=np.dot(x,self.weights)
if (result>0 and y==1) or (result<0 and y==0):
right+=1
return right/len(X_test)
lr_clf=LogisticRegressionClassifier()
lr_clf.fit(X_train,y_train)
LR Model(learning_rate=0.01,max_iter=200)
lr_clf.score(X_test,y_test)
1.0
x_points=np.arange(4,8)
y_=-(lr_clf.weights[1]*x_points+lr_clf.weights[0])/lr_clf.weights[2]
plt.plot(x_points,y_)
plt.scatter(X[:50,0],X[:50,1],label="0")
plt.scatter(X[50:,0],X[50:,1],label="1")
plt.legend()
sklearn.linear_model.LogisticRegression
的参数solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择(sag与saga相似).分别是:
Image(filename="./data/6_4.png",width=500)
from sklearn.linear_model import LogisticRegression
clf=LogisticRegression(max_iter=200)
clf.fit(X_train,y_train)
E:\Anaconda\envs\mytensorflow\lib\site-packages\sklearn\linear_model\logistic.py:433: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
FutureWarning)
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, max_iter=200, multi_class='warn',
n_jobs=None, penalty='l2', random_state=None, solver='warn',
tol=0.0001, verbose=0, warm_start=False)
clf.score(X_test,y_test)
1.0
x_points=np.arange(4,8)
y_=-(clf.coef_[0][0]*x_points+clf.intercept_)/clf.coef_[0][1]
plt.plot(x_points,y_)
plt.plot(X[:50,0],X[:50,1],"bo",color="blue",label="0")
plt.plot(X[50:,0],X[50:,1],"bo",color="orange",label="1")
plt.xlabel("sepal length")
plt.ylabel("sepal width")
plt.legend()