机器学习（三）——逻辑回归（上）

无论是分类还是回归，都是想建立一个预测模型，给定一个输入 , 可以得到一个输出。不同的只是在分类问题中, 输出是离散的; 而在回归问题中输出是连续的。如何用线性回归来进行分类问题的预测模型建立呢？那就需要使用逻辑回归。所以逻辑回归的输出一定是0 / 1或者True / False，或者yes / no。因此逻辑回归的本质就是根据一堆输入特征，来判断分类结果为0或者为1的可能性大小。
还记得KNN么？KNN是通过一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别来进行类别的预测（判定），那么逻辑回归是如何来进行样本的分类的呢？看下图：

现在有这样一个分类任务，需要根据肿瘤大小来判断肿瘤的良性与否。训练集如上图所示，横轴代表肿瘤大小，纵轴表示肿瘤的良性与否，注意，纵轴只有两个取值，1（代表恶性肿瘤）和0（代表良性肿瘤）。
我们可用线性回归思路，去拟合一条直线（如下图）：

有了这条直线后，我们就可以进行预测：
如果y>=0.5，就是恶性，如果y<0.5，就是良性。

这看起来好像没有什么问题，但是假如我们的样本是如下这种情况呢？

你会发现此时得到的回归线是蓝色的这条线，如果我们还是按照y>=0.5代表恶性，y<0.5代表良性，就会非常不准。因此我们说，直接使用线性回归模型来进行判断，鲁棒性非常差。

这里还有另外一个比较严重的问题：采用线性回归的时候，我们得到的y值，有可能大于1或者小于0，此时又该如何进行解释呢？这给我们进行解释也带来了不便性。为此，我们要换一种思路：

还是上面这个例子：有没有人跟我有同样的想法：我在中间画一条垂线，左边的代表良性的，右边的代表恶性的，这样是否可以完美区分？

再看下面这几个例子：

我们如何区分圆圈和叉叉？相信大家都可想到，我们分别可以用如下两种线条来进行区分：

图1

图2

所以，我们是不是找到这样的线条，就可以来预测样本的分类了？比如对于图1，斜线上面的就是叉叉，斜线下面的就是圆圈？对于图二，粉色圆圈外面的就是叉叉，内部的就是圆圈？换成数学的表达，对于图1，我们可以找到这么一条直线：，当其大于0时，就是代表斜线的上方，此时就是叉叉。当其小于0时，就是代表斜线的下方，此时就是圈圈（等于0就是斜线本身）。同理，对于图2，我们可以找到这么一条曲线（圆）：，当其大于0时，就是代表圆的外面，此时就是叉叉。当其小于0时，就是代表圆的里面，此时就是圈圈。

那我们如何才能找到这样的线条呢？回到分类的本质，对于二元分类，就是要输出0，1。我们能否找到一个函数，它能够使的应变量y的取值范围在0到1之间，同时当x>0时，我们可以认为结果更偏向于1，当x<0时，我们认为结果更偏向于0。此时我们引入了sigmoid 函数，也叫逻辑函数（logistic function）：，它的图形如下：

可以看到，该函数完美的解决了上述问题：y的取值范围在[0，1]之间，在远离0的地方函数的值会很快接近0或者1。当x>0时，y取值为1的可能性变大，当x<0时，y取值的0的可能性变大。

结合上面的介绍，我们得到了逻辑回归的假设模型：
其中，就是我们之前介绍的线性模型。因此，我们可以用线性回归的思路或者方法来去求解。

在线性回归中，我们判断模型拟合好坏的标准是用的估计标准误，也就是残差的方差，也即：模型得到的结果和实际结果之间的均方差（MSE）来判断，也就是我们确定模型的最佳参数，是看这些参数能否是的误差的平方和最小。那么在逻辑回归中，我们要如何来确定模型的最优参数解呢？

我们再回到我们的假设模型。如上面所述，该模型最后输出的是一个[0,1]范围内的数。而我们的分类结果，不是0，就是1。那么我们的模型代表什么含义呢？它表示的是：对于一个输入的x，分类结果为1时的概率。因此对于输入点x，分类结果为类别1和类别0的概率分别为：

既然是概率，那么我们就可以使用极大似然法（最大可能性）来估计参数。
对于训练数据集，特征数据x={x1, x2, … , xm}和对应的分类数据y={y1, y2, … , ym}。构建逻辑回归模型f，对上面的公式取极大似然函数，可以得到如下的公式:

为了方便计算，我们对上述公式取对数，得到：

如果对上面的公式再取平均，并取负号，就是逻辑回归的代价函数（cost function）：

我们来研究一下这个代价函数：
为了简化问题，我们先只看单一样本的情况：
因为我们的y的取值只有可能为0或者1。当y=1时，1-y=0，因此上面的代价函数变为：；当y=0时，代价函数变为：。也即：

其图像如下：

这说明了什么呢？这说明：当y=1时，如果我们预测也为1，则付出的代价为0。如果y=1，我们预测的结果刚好相反，为0，则为此要付出的代价趋于无穷大。反之，当y=0时，如果我们预测结果为0，则代价为0，否则付出的代价趋于无穷。

回到上面的问题。既然代价函数是从极大似然函数转换而来，我们要求能使模型获得最大可能性的，就是求能使代价函数获得最小值的。此时，我们可以用梯度下降法来求得相关参数。梯度下降法是个啥，可以参考下面的文章。这里不再细表。

在R中如何使用逻辑回归呢？一般用glm函数：

#读取数据
heart <- read.table("heart.dat", quote="\"")
names(heart) <- c("AGE", "SEX", "CHESTPAIN", "RESTBP", "CHOL", "SUGAR", "ECG", "MAXHR", "ANGINA", "DEP", "EXERCISE", "FLUOR", "THAL", "OUTPUT")

#将一些特征因子化
heart$CHESTPAIN = factor(heart$CHESTPAIN)
heart$ECG = factor(heart$ECG)
heart$THAL = factor(heart$THAL)
heart$EXERCISE = factor(heart$EXERCISE)

#将输出范围限制在0和1之间（之前是1和2）
heart$OUTPUT = heart$OUTPUT-1

#划分训练集和测试集
library(caret)
set.seed(987954)
heart_sampling_vector <- createDataPartition(heart$OUTPUT, p = 0.85, list = FALSE)
heart_train <- heart[heart_sampling_vector,]
heart_train_labels <- heart$OUTPUT[heart_sampling_vector]
heart_test <- heart[-heart_sampling_vector,]
heart_test_labels <- heart$OUTPUT[-heart_sampling_vector]

#进行逻辑回归
heart_model = glm(OUTPUT~.,data=heart_train,family=binomial("logit"))

#查看回归后的结果
summary(heart_model)

Call:
glm(formula = OUTPUT ~ ., family = binomial("logit"), data = heart_train)

Deviance Residuals:
Min 1Q Median 3Q Max
-2.5858 -0.5099 -0.1402 0.3357 2.5654

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.206523 3.467800 -1.501 0.133255
AGE -0.021182 0.028663 -0.739 0.459915
SEX 2.145034 0.631974 3.394 0.000688 ***
CHESTPAIN2 1.261204 0.934522 1.350 0.177153
CHESTPAIN3 0.530799 0.769099 0.690 0.490095
CHESTPAIN4 2.091780 0.795396 2.630 0.008542 **
RESTBP 0.026021 0.012685 2.051 0.040243 *
CHOL 0.006810 0.004516 1.508 0.131610
SUGAR -0.396573 0.663262 -0.598 0.549899
ECG1 0.625792 3.011598 0.208 0.835390
ECG2 0.527512 0.434763 1.213 0.225003
MAXHR -0.027576 0.013446 -2.051 0.040285 *
ANGINA 0.843417 0.501853 1.681 0.092840 .
DEP 0.277991 0.250989 1.108 0.268044
EXERCISE2 0.874833 0.543766 1.609 0.107651
EXERCISE3 -0.090822 1.106373 -0.082 0.934575
FLUOR 1.167552 0.320072 3.648 0.000265 ***
THAL6 -0.797323 0.961214 -0.829 0.406824
THAL7 1.343818 0.463658 2.898 0.003752 **

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 317.11 on 229 degrees of freedom
Residual deviance: 149.23 on 211 degrees of freedom
AIC: 187.23

Number of Fisher Scoring iterations: 6

从上面的输出我们可以看到如下几点：

glm函数会自动将一些因子化的变量根据level的数量自动转换为n-1个虚拟变量。其中n=level的数量。（caret包中的dummyVars函数也有同样的功能）；
由于逻辑回归中，本身就是一个概率函数，因此逻辑回归方程中没有误差项。因此在glm中，我们看不到残差项，但是为了跟线性回归保持一致，引入了一个偏差残差。这里的偏差类似于上面提到的代价函数（损失函数），它是似然函数取对数再乘以-2，偏差残差就是在偏差的基础上取根号后，再求平方和。
空偏差是指没有任何特征，只有常数项的偏差。类似于线性回归中的总平方和（TSS）。其对应关系如下：
我们注意到，年龄的系数是负的，这跟我们常识不符（常识告诉我们，年龄越大，得心脏病的几率越大），因此我们怀疑存在多重共线性的问题；
我们单独对年龄进行回归，发现年龄跟实际的心脏病是成正相关的，且P-value 变小了，显著性明显增强，因此更能证明我们之前的模型存在多重共线性问题；

> heart_model2 = glm(OUTPUT~AGE,data=heart_train,family=binomial("logit"))
> summary(heart_model2)

Call:
glm(formula = OUTPUT ~ AGE, family = binomial("logit"), data = heart_train)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.4842  -1.0955  -0.8892   1.1916   1.6059  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  -2.3885     0.8371  -2.853  0.00433 **
AGE           0.0406     0.0151   2.688  0.00718 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 317.11  on 229  degrees of freedom
Residual deviance: 309.56  on 228  degrees of freedom
AIC: 313.56

Number of Fisher Scoring iterations: 4

有了模型后，我们就可以来进行预测：

#对训练集进行预测，查看我们模型在训练集上的拟合程度：
#注意，type=“response”就是代表着预测概率，也就是我们逻辑函数上的y值。
#type="terms"是代表拟合值
#type 不指定时，代表逻辑函数中x轴上的值，即归一化的线性预测
train_predictions = predict(heart_model, newdata=heart_train, type="response")
#对于每一个观测值，我们认为大于0.5的判断为有病（1），小于等于0.5的判断为没有病
train_class_predictions = as.numeric(train_predictions>0.5)
#统计预测正确率
mean(train_class_predictions==heart_train$OUTPUT)
#查看预测错误的数据
train_predictions[train_class_predictions!=heart_train$OUTPUT]

#对测试集进行预测，查看我们模型在训练集上的拟合程度：
test_predictions = predict(heart_model, newdata=heart_test, type="response")
test_class_predictions = as.numeric(test_predictions>0.5)
mean(test_class_predictions==heart_test$OUTPUT)

还有几点需要注意：

我们之前默认进行分类时，是默认按0.5的标准来划分的。但实际上按0.5标准划分并不一定是我们想要的结果。还记得我们在最开始讲过查全率、查准率吗？在某些情况下，我们可能更希望查全率高一些，查准率低一些。有些时候我们希望查准率高一些，查全率低一些。这些都会影响我们参数的选择。因此，在选择参数时，我们要根据实际情况来决定。在机器学习（一）中，我们提到了F分数和卡巴统计量。这里我们再引入一个评判分类模型好坏的统计量——AUC。
那么什么是AUC呢？要讲清楚AUC，我们先来将ROC。ROC的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线”。该曲线的横坐标为假阳性率（False Positive Rate, FPR），，纵坐标为真阳性率（True Positive Rate, TPR），，我们可以看到，其实真阳性率也就是我们之前说到的查全率。ROC的图形一般如下：

该曲线是怎么画出来的呢？就是我们上面提到的，对于同一个模型，判断的阈值不同，对应的TPR和FPR也会不同。所有阈值对应的PR和FPR形成的点连起来，就形成了ROC曲线。
一般我们会希望我们的真阳性率越高越好，而假阳性率越低越好。也就是点越靠近左上角，结果是越好的。所以，我们就定义了曲线下面积 AUC 。这个面积越大就说明整体更靠近左上，效果也就越好。

#计算混淆矩阵
confusion_matrix <- table(predicted = train_class_predictions, actual = heart_train$OUTPUT)
#计算查准率
precision <- confusion_matrix[2,2]/sum(confusion_matrix[2,])
#计算查全率
recall <- confusion_matrix[2,2]/sum(confusion_matrix[,2])
#计算F分数
f = 2 * precision * recall / (precision + recall)

#画ROC曲线或者P-R曲线
library(ROCR)
train_predictions = predict(heart_model, newdata=heart_train, type="response")
pred <- prediction(train_predictions, heart_train$OUTPUT)
perf <- performance(pred, measure = "prec", x.measure = "rec") #画p-R曲线
perf <- performance(pred,"tpr","fpr"); #画ROC曲线

plot(perf, main = "Precision-Recall Curve for Heart Model", lwd = 2)

对于逻辑回归，当特征数较多时，也会有可能存在过拟合的情况。我们之前在线性回归中讲到的有偏估计（Lasso和岭回归），对于逻辑回归同样有用：

library(glmnet)
heart_train_mat <- model.matrix(OUTPUT~., heart_train)[,-1]
lambdas <- 10 ^ seq(8,-4,length=250)
heart_models_lasso= glmnet(heart_train_mat,heart_train$OUTPUT,alpha=1,lambda=lambdas, family="binomial")

lasso.cv <- cv.glmnet(heart_train_mat,heart_train$OUTPUT,alpha=1,lambda=lambdas, family="binomial")
lambda_lasso <- lasso.cv$lambda.min

lasso_train_predictions <- predict(heart_models_lasso, s = lambda_lasso, newx = heart_train_mat, type="response")
lasso_train_class_predictions = as.numeric(lasso_train_predictions>0.5)
mean(lasso_train_class_predictions==heart_train$OUTPUT)

heart_test_mat <- model.matrix(OUTPUT~., heart_test)[,-1]
lasso_test_predictions <- predict(heart_models_lasso, s = lambda_lasso, newx = heart_test_mat, type="response")
lasso_test_class_predictions = as.numeric(lasso_test_predictions>0.5)
mean(lasso_test_class_predictions==heart_test$OUTPUT)

【参考文章】：
一文搞懂极大似然估计
贝叶斯公式的直观理解(先验概率/后验概率)
一篇文章完全弄懂Logistic回归
{高中生能看懂的}梯度下降是个啥？
逻辑回归笔记总结

机器学习（三）——逻辑回归（上）

你可能感兴趣的:(机器学习（三）——逻辑回归（上）)