在分类问题中,我们要预测变量的y是离散的值,所有我们将使用一种叫逻辑回归(Logistic Regression)算法。
1、在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有
(1)判断一封电子邮件是否是垃圾邮件
(2)判断一次金融交易是否是欺诈
(3)区别一个肿瘤是恶性还是良性
2、我们从二元分类问题开始考虑,将因变量可能属于的两个类分别称为负向类(negative class)和正向类(postiive class),则因变量 y∈{0,1} ,其中0表示负向类,1表示正向类。
3、如果我们用线性回归算法来解决分类问题,对于分类,y取值为0或者1,但如果你使用的是线性回归,那么假设函数的输出值可能远大于1,或者远小于0,即使所有训练样本的标签y都等于0或1。
4、逻辑回归算法的性质:输出值永远在0到1之间。
1、逻辑回归模型的假设函数
2、 hθ(x) 的作用是对于给定的输入变量,根据选择的参数计算输出变量y=1的概率。
1、在逻辑回归中,我们预测:
(1)当 hθ(x)≥0.5 ,预测y=1
(2)当 hθ(x)<0.5 ,预测y=0
2、模型实例
设置参数 θ 是向量[-3 1 1],判断边界是直线 y=−3+x1+x2 ,则当 −3+x1+x2≥0 时,模型预测y=1
设置参数 θ 是向量[-1 0 0 1 1],判断边界是一个圆点在原点且半径为1的圆形。
1、如果我们用线性回归函数的代价函数,我们得到的代价函数将是一个非凸函数(non-convex function)
导致我们的代价函数有多个局部最小值,将影响我们使用梯度下降算法寻找全局最小值。
2、我们重新定义逻辑回归的代价函数
3、 hθ(x) 跟 Cost(hθ(x),y) 的关系
(1)当y=1时, Cost(hθ(x),y)=−log(hθ(x))
(2)当y=0时, Cost(hθ(x),y)=−log(hθ(1−x))
4、构建 Cost(hθ(x),y) 的特点
(1)当实际的y=1且 hθ 也为1时代价为0,当y=1但 hθ 不为1时代价随着 hθ 的变小而变大
(2)当实际的y=0且 hθ 也为0时代价为0,当y=1但 hθ 不为1时代价随着 hθ 的变大而变大
5、简化后的代价函数
(1) Hypothesis:
1、一对多(one-vs-all)方法:逻辑回归可以将数据一分为二(正类和负类),则我们分别将每一种类别都作为一次正类区分所有的类别,从而实现多类别分类。
2、原理
现在我们有一个训练集,用三角形表示y=1,方框表示y=2,叉叉表示y=3,下面我们要做的就是使用一个训练集,将其分成三个二元分类问题。
首先,我们从用三角形代表的类别1开始,类别1设定为正类,类别2和类别3定为负类,我们创建一个新的训练集,拟合出一个合适的分类器 h(1)θ(x) 。
然后,我们设定类别2为正类,类别1和类别3为负类,创建一个新的训练集,拟合出一个新的分类器 h(2)θ(x) ,
最后,我们设定类别3为正类,类别1和类别2为负类,创建第三个训练集,拟合出分类器 h(3)θ(x) 。
我们最终得到一个模型 h(i)θ(x)(i=1,2,3)
在我们需要做预测时,我们将所有分类器都运行一遍,然后对每一个输入变量,选择最高可能性的输出变量。
也就是说,对于逻辑回归分类器 h(i)θ(x) ,我们在三个分类器里面输入一个新的x值,然后我们选择一个让 h(i)θ(x) 最大的 i ,作为 y=i 的预测结果。
第一个模型没有很好拟合训练数据,我们把这个称为欠拟合(underfitting),或者另一个术语高偏差(high bias);
第二个模型很好拟合了训练数据,我们称为恰好拟合(Just right)。
第三个模型非常好的拟合训练数据,但过于强调拟合原始数据,我们称为过拟合(overfitting),或者高方差(high variance);
1、过拟合:如果我们有太多的变量,使得假设函数很好的拟合率训练数据集,但是无法泛化到新的数据样本中,以至于无法预测正确的数据样本结果(泛化是指一个假设模型能够应用到新样本的能力)。
2、解决过拟合的方法:
(1)减少特征变量的数量,手工选择保留哪些特征,或者使用一些模型选择算法来处理。
(2)正则化,保留所有特征,但是减少参数的大小。
为了防止过拟合,我们对代价函数进行正规化:
为什么要增加一项 λ∑j=1nθ2j ?
因为一个模型中真正重要的参数可能并不多,而我们的假设函数里面包含很多参数,为了使某些不重要的参数不起作用,我们可以将其尽可能近似于0,于是我们通过控制 λ 的大小来达到这个目的。
所以对于正则化,我们取一个合理的 λ 的值,就能很好的应用正则化。
1、正则化线性回归的代价函数
2、梯度下降算法
由于 θ0 不参与正则化,所以我们将梯度下降算法分成两种情形
3、正规化正规方程
1、我们同样也给代价函数增加一个正则化的表达式,代价函数为
2、梯度下降算法