Logistic模型,混淆矩阵AUC

R2
R2并不是R的平方,而实1-RSS/TSS
其中,RSS = 所有预测值和实际值的差的平方和,TSS是所有实际值和实际值的平均值的平方和,当R2等于1的时候是最好的,也就是说 RSS等于0最好,也就是说预测值和实际值相同的情况下最好。当预测值和实际值的平均值相同时,模型等于0,当然R2也可能为负。
Logistic模型,混淆矩阵AUC_第1张图片

当然线性模型也可以做一些其他的事情
Logistic模型,混淆矩阵AUC_第2张图片
有的时候我们根据已知的样本,比如上图的黑色样本点,可以来做一个线性模型,比如红色的线。但是有的时候我们可以给他加权。加权的线性回归。
Logistic模型,混淆矩阵AUC_第3张图片Logistic模型,混淆矩阵AUC_第4张图片

我们也可以用回归来解决分类问题(可以但是不建议):
Logistic模型,混淆矩阵AUC_第5张图片
比如上面的肿瘤的例子,一般肿瘤越大,就认为他是阳性的,肿瘤小,认为他是阴性的。右上图是拟合数据,横轴代表肿瘤大小,纵轴代表阴性阳性。但是如果在很远的地方还有一个样本。比如右下图。会有样本被错分。
下面的图像可以更直观的表示
Logistic模型,混淆矩阵AUC_第6张图片
解决二分类我们,我们一般使用Logistic回归,也就是Sigmoid函数
Logistic模型,混淆矩阵AUC_第7张图片
我们做线性回归的时候,认为误差是服从均值是0,方差是某一个数的正态分布。现在想去做Logistic回归,本质是做分类,Y可能取0可能取1,取1的概率是θ,那么取0的概率就是1-θ。
所以P(y|x;θ) = (hθ(x))y(1-hθ(x))1-y假定样本独立,我们就可以计算似然函数
Logistic模型,混淆矩阵AUC_第8张图片
取对数后:
Logistic模型,混淆矩阵AUC_第9张图片
似然概率或者对数自然概率是梯度上升的,一般来讲会用梯度下降方法来表示他。
Logistic模型,混淆矩阵AUC_第10张图片
有了这个式子,我们就可以不断地对参数进行迭代学习,得到更好的参数值,和线性回归的方式是完全一致的。本质上就是二项分布(Logistic回归)和正态分布(高斯回归)。结论一样是因为他们都属于指数族分布。

Logistic模型,混淆矩阵AUC_第11张图片

如果说一件事情发生的概率P:ln(P/1-P)=θx,也就是说一件事情发生的概率除以不发生的概率的对数,结果是线性的。那么可以写成:P/1-P=eθx,所以P=eθx-eθx*P,继续化简可以得到P=1/e-θx+1.这就是Logistic回归。回想我们刚才使用Logistic进行建模的时候,不加证明的给出了1/1+e-z,并且认为z=θx。我们反着推的话,既然他的对数是线性的,那这个概率到底是什么呢,答案就是这个sigmoid函数,加上这个线性模型。
Logistic模型,混淆矩阵AUC_第12张图片

Logistic回归的代码部分:
Logistic模型,混淆矩阵AUC_第13张图片
他的本质是沿着似然函数梯度上升的,此外我们可以加一些特征,如果不加特征,原始的一次项,就是线性的,如小图所示,如果是二次的,就是曲线,原始特征是[1,x1,x2]二次也就是特征分别相乘,比如[1,x1,x2,x1x2,x12,x22]

Softmax回归

Logistic模型,混淆矩阵AUC_第14张图片
在我们刚做Logistic回归的时候,是一个二分类问题,一类取1,一类取0,z=θ1x1+θ2x2+…θnxn,1/1+e-z一定是属于一个从0-1的数,我们用0.5做阈值,就能把它分成两个类别,所以不需要太多参数

AUC

分类器指标
Logistic模型,混淆矩阵AUC_第15张图片
我们刚在做这种二分类问题的时候,实际的样本要么是正例,要么是负例。其实预测值也是两部分,Positive和Negtive(阳性和阴性)。
如果本来是正例,我们预测他是也是正的,就是True,然后预测值是P,所以是TP
本来是正例,我们预测他是阴性,错误的,就是F,预测值是N,所以是FN
本来是负例,我们预测他是阳性,错误的,就是False,预测值是P,所以是FP
本来是负例,我们预测的他是阴性,那么是正确的预测,就是True,预测值是N,所以是TN
上面这个2*2的矩阵,我们称他为混淆矩阵。其实最好的结果就是:TP就是正例,TN就是负例,FN和FP都为0.但是不一定都能这样。
TPR=TP/TP+FN
FPR=FP/FP+TN
Logistic模型,混淆矩阵AUC_第16张图片
举个例子,如上图,比如阈值是0.2,那么我们可以得到(0,1,1,1),这时候TPR是1,FNR是0.5,我们就有了一个(0.5,1)的点,如果阈值是0.4,我们可以得到(0,1,0,1)。这时候TPR是0.5,FNR是0.5,我们就得到了一个(0.5,0.5)的点。阈值是0.6,我们可以得到(0,0,0,1),阈值是0.8,我们可以得到(0,0,0,0)。。。。这样我们会得到很多的点,把这些点都连接起来。得到ROC曲线,但是实际问题中没有那么简单。
Logistic模型,混淆矩阵AUC_第17张图片

你可能感兴趣的:(Logistic模型,混淆矩阵AUC)