机器学习(5)统计分类与逻辑回归

统计分类与逻辑回归

分类问题

邮件是否垃圾邮件,肿瘤是否是恶性,网站是否遭受攻击等,都属于二分类问题(0 or 1)。到具体的问题时,所使用的数据集可能有多个特征,但目标(输出)只有(0,1)这两种取值。0表示负类,1表示正类。

逻辑回归

逻辑回归(logistic 回归),它的特点是输出或者预测值一直介于(0,1)之间。

假设函数

逻辑回归的假设函数表达式为:
在这里插入图片描述
我们把其中的θ^Tx = z,定义一个g(z)函数,那么它就是Sigmoid函数,也叫Logistic function(逻辑函数),它的图像为:
机器学习(5)统计分类与逻辑回归_第1张图片
具体到hθ(x)中,横坐标为:θ^Tx ,纵坐标为hθ(x)(预测值)。
阈值选择看情况而定,我们选择0.5作为阈值来做决策:
当hθ(x)>0.5,可视为预测为1,即为正类。
当hθ(x)<0.5,可视为预测为0,即为负类。

决策边界

由上例可知,
当hθ(x)>=0.5,预测为正类,即横坐标(θ^Tx )>=0;
当hθ(x)<0.5,预测为负类,即横坐标(θ^Tx )<0;
那么把θ^Tx = 0的情况当成决策边界。
举个例子:
机器学习(5)统计分类与逻辑回归_第2张图片
这是某个数据集,叉表示正类,圆圈表示负类。x1,x2表示两个特征量。右边是它的多项式函数,因为图像较为复杂,使用了高次项。
假设我们已经知道了五个参数的值(1,0,0,1,1),其实就是圆的方程式。此时的θ ^Tx为:
在这里插入图片描述

取0.5作为阈值,当θ ^Tx >0为正类,当 θ ^Tx<0为负类。θ ^Tx =0,即为图中的圆,它就是决策边界,它把样本集分成了两类。

机器学习(5)统计分类与逻辑回归_第3张图片

损失函数

机器学习(5)统计分类与逻辑回归_第4张图片
已知上述情况那么如何确定参数θ的值呢?
线性回归中,代价函数为:
机器学习(5)统计分类与逻辑回归_第5张图片
但是它却无法用于逻辑回归中,因为hθ(x)不是一个线性方程,就会导致J(θ)变成一个凸函数,其图像:
机器学习(5)统计分类与逻辑回归_第6张图片
有多个局部最优解,使用梯度下降算法很难得到全局最优解,需要重新设计逻辑回归的损失函数

逻辑回归的损失函数

逻辑回归的代价计算:
机器学习(5)统计分类与逻辑回归_第7张图片
理解:如果样本目标为1,hθ(x)预测值也为1,cost值就为0。如果预测值为0,cost值就为正无穷。
如果样本目标为0,hθ(x)预测值也为0,cost值就为0。如果预测值为1,cost值就为正无穷。
预测失败的代价比较大。

逻辑回归的损失函数
机器学习(5)统计分类与逻辑回归_第8张图片
在这里插入图片描述

机器学习(5)统计分类与逻辑回归_第9张图片
接下来使用梯度下降算法来得到θ参数值:
在这里插入图片描述
最终得到逻辑回归的梯度下降算法为:
在这里插入图片描述
这个结果与线性回归的梯度下降算法公式一样,其中的hθ(x)是不一样的。

多元分类

在实际问题中可能需要将数据集分成几个类,只需要将上述算法稍微改进就行。
机器学习(5)统计分类与逻辑回归_第10张图片
以上图为例,基本思想是:分几类就迭代几次,第一个分a类和非a类,第二次分b类和非b类。。。。以此类推
具体过程如下:
机器学习(5)统计分类与逻辑回归_第11张图片

你可能感兴趣的:(吴恩达机器学习笔记,机器学习,深度学习)