Coursera Machine Learning 课程笔记之第三周:逻辑回归(Logistic Regression)

概念:逻辑回归是典型的有监督学习(Supervised Learning)中的分类(Classifiction),其输出只有两个离散的值(0/ 1)。

逻辑函数(logistic function):

11+ex

逻辑回归的估计函数是:

P(y=1|θ,X)
即:在X特征, θ 向量下,事件发生的概率(odds)。这里在逻辑回归中用到了逻辑函数。
逻辑回归的假设函数(hypothesis Function):
hθ(x)=g(θTX)
g(z)=11+ez

逻辑函数 g(z) 具有的特性就是如果 z 大于零,那么输出结果为1的概率就大于1/2并且趋近于1,反之亦然。也就是它把值域是 [,+] 的Z,以0为分界线均匀映射到区间 (0,1) 上了。

决策边界(Decision Boundary):

对特征维度的一个分割,边界的一边表示1,另一边表示0。其具体表现为 θTX==0 的边界,当然也可能是非线性边界会有更好的拟合度。

花费函数(Cost Function):

因为 h(xi) 的范围已经被映射到 (0,1) 区间,这里直接给出了Cost Function:

cost(θ)=log(z),  if y=1

cost(θ)=log(1z),  if y=0

这里Cost Function的意义就是为了符合真实花费,比如当y等于1时,真实输出值如果趋近于1,它的花费就会趋近于0,如果背道而驰地真实输出值趋近于0那么它的花费就会趋近于 + 。所以这个花费函数的选取是非常契合的。

逻辑回归(Logistic Regression)的梯度下降算法(Gradient descent):

θj=θjα1mi=1n(hθ(xi)yi) xij

这里发现和回归分析的梯度下降算法及其相似,但是不一样。因为 hθ(x) 里是逻辑函数处理后的结果。

高级的算法:

相比于赤裸裸的梯度下降(Gradient descent),有优化版本和更多表现更好的算法。这些都只需要直接调用库里的内容。
比如有:
- Conjugate gradient method
- BFGS
- L-BFGS

多对一方法(one vs all method):

对于只有两种离散输出的逻辑回归分析,如果我们的结果有多种输出。可以把它化为逻辑回归来做,也就是对于每一种输出,都把它和剩余部分区分开来,算出它们的决策边界(Decision boundary)。然后当输入一个值的时候,我们带入这些各自的假设函数(逻辑回归的预测函数给出的是等于该值的概率),求其中概率最大的一个就是我们的预测输出。

过度拟合(overfit):

当我们设置过多的特征变量和过高的特征变量次数的时候,曲线就会变得非常拟合,但是这样高度的拟合并不是好的,它使得预测性反而降低了。也就是它过度拟合了,不具有泛化的特性。
为了解决过度拟合有两种方法:
- 特此量筛选,删除一些特征量。
- 正规化(regularization)

正则化(Regularization):

正则化是对除去 θ0 之外的 θ1...m 都削弱的操作。其实质是加了一个先验,通过这个二次项来搞破坏,防止本身过度的拟合,对于范围之外的数据以来就会产生巨大的误差。
具体的方法在线性回归就是在Cost Function中加一个 λmi=1θi ,在正规方程中加一个左上角元素为0的单位矩阵。在逻辑回归(logistic regression)中同样是在Cost Function中加一个 λmi=1θi

你可能感兴趣的:(机器学习)