吴恩达机器学习笔记——六、分类

吴恩达机器学习笔记——六、分类

  • Logistics回归
    • 定义
    • 用Logistic函数做二分类
    • 决策边界
      • 确定参数θ的方法
        • 凸函数和凸优化
        • 具体操作
  • 一些高级优化算法
  • 多分类

Logistics回归

定义

Sigmoid function 和 Logistic function是同义词
在这里插入图片描述
吴恩达机器学习笔记——六、分类_第1张图片

用Logistic函数做二分类

假设函数由原先的:
在这里插入图片描述
改为:
在这里插入图片描述
则通过Logistics回归,我们可以给出输入样本被分类为1的概率有多大,即
在这里插入图片描述
由概率的性质,我们可以推出样本被分类为0的概率为:
在这里插入图片描述

决策边界

假设:

  • 当h(x) ≤ 0.5时,y被预测为0,此时θTX ≤ 0
  • 当h(x) > 0.5时,y被预测为1,此时θTX > 0
    则需要确定一组参数值θ,令θTX = 0在n维空间里构成的线/面/…是将y分成正例和反例的边界。(注:此处是n维空间,不包括之前为了方便与θ做矩阵乘法而自己增添的常数项x0=1项)
    吴恩达机器学习笔记——六、分类_第2张图片

确定参数θ的方法

凸函数和凸优化

如果我们将代价函数依旧定义为之前在线性回归中的差方和的形式:
在这里插入图片描述
简化一下,去掉求平均值的1/m,并给代价函数一个新的表示方法Cost(hθ(x(i)), y(i))),其中hθ(x(i))是Sigmoid函数,即:
在这里插入图片描述
则我们绘制出的J关于θ的函数图像如下图所示,我们称之为非凸函数,在这样的函数上使用梯度下降法结构可想而知,很大几率会落到局部最小值上。
吴恩达机器学习笔记——六、分类_第3张图片
所以我们为Logistics回归定义了一种新的代价函数:
在这里插入图片描述
可以看出:

  • 当样本的真实类别y为1时,若预测结果hθ(x(i))越接近1,代价函数越趋向于0;预测结果hθ(x(i))越接近0,代价函数越趋向于∞。
  • 当样本的真实类别y为0时,若预测结果hθ(x(i))越接近0,代价函数越趋向于0;预测结果hθ(x(i))越接近1,代价函数越趋向于∞。
    ps:这个代价函数的式子是由极大似然估计法确定的

由凸分析的知识可以证明,我们所选取的新的代价函数是凸函数,这样就可以使用梯度下降算法来求Logistics回归中的参数θ了。

具体操作

上述分情况讨论的方法不太好在式子中表示,我们将其合并为一个式子:
在这里插入图片描述
我们接下来的工作就是求以上代价函数的最小值,并由此确定出参数θ,然后用hθ(x(i))来对测试集中的样本进行预测,预测其分类为正例(y = 1)的概率有多大。
而求解θ,我们依旧求θ关于J的偏导数,并同步更新θ,我们发现,θ的更新等式与线性回归的更新等式相同:
吴恩达机器学习笔记——六、分类_第4张图片
但其实hθ(x(i))是不同的,同样的,我们还可以使用特征缩放等技巧来是Logistics回归收敛更快

一些高级优化算法

目标:提高Logistics回归的速度以及应用到大型的机器学习任务中

  1. 共轭梯度法(Conjugate gradient)
  2. BFGS
  3. L-BFGS

多分类

吴恩达机器学习笔记——六、分类_第5张图片
我们将其转化为两个二分类的分类问题。

  1. 将class 1分为正例,将class 2和class 3分为反例,求得一组参数θ1,和分类器hθ(1)(x(i))
  2. 将class 2分为正例,将class 1和class 3分为反例,求得一组参数θ2,和分类器hθ(2)(x(i))
  3. 将class 3分为正例,将class 2和class 1分为反例,求得一组参数θ3,和分类器hθ(3)(x(i))
    吴恩达机器学习笔记——六、分类_第6张图片
    训练出三个分类器后,对于每一个测试数据,将其分别输入三个分类器中,可以分别得到划分为class 1、class 2和class 3的概率大小我们选择概率最大的分类。

你可能感兴趣的:(算法,机器学习,人工智能)