分类:概率生成模型 - 李宏毅机器学习笔记

目录

1.若用回归模型硬train分类任务

2.二分类任务

2.1 概率生成模型

3.数学上的形式


1.若用回归模型硬train分类任务

分类:概率生成模型 - 李宏毅机器学习笔记_第1张图片

如图,class 2 的标签是-1(红色的点),class 1 的标签是1(蓝色的点),横纵坐标是特征值。测试的时候输出可能不会正好就是1 或 -1,若输出接近1则认为是 class 1,接近-1则认为是 class 2,我们期待找到一条如图绿色的线能很好的分开两个标签,像左图回归任务训练出来的拟合线恰好就是绿色的线,绿色的线左上角是 class 2,右下角是 class 1;但是右图, 回归任务通常是让预测值和真实值的差越小越好,所以为了也能很好的拟合到包括右下角那一堆样本的所有样本,最终的拟合线可能是紫色的那条(相比于绿色的线,所有样本到紫色的线的距离要更小),但是就分类任务而言,即使是右图的情况我们也还是希望会是绿色的线,因为它可以很好的分开所有样本,但是紫色的会错分一些 class 1的样本。所以用回归模型来做分类任务不合适。

若是用如下的回归模型的思路来做多分类。例如将class 1 对应 1,class 2 对应 2,class 3 对应3,这也是不合适的,因为这会带上数值的大小关系,模型会认为相对class 1而言,class 3 和 class 2 更接近。

2.二分类任务

分类:概率生成模型 - 李宏毅机器学习笔记_第2张图片

 但是上图中的损失函数没法微分。

2.1 概率生成模型

如下图,有两个盒子,现在抽出了一个蓝色的球,问该蓝色的球是从1号盒子中抽出的概率是多少,若知道选取1、2号盒子的概率,以及从2两个盒子里选取蓝色的球的概率,就可以用贝叶斯公式求解。

分类:概率生成模型 - 李宏毅机器学习笔记_第3张图片

 将上题类比到二分类。将两个盒子换成两个类别,给定一个样本 x ,他属于某个类别的概率是多少,这时候我们需要知道选取两个类别gezhi的概率是多少,以及从每个类别中选取 x 的概率是多少。至于为啥叫做生成模型,因为给定任一一个 x ,只要知道上述4个值,我们就能求出该 x 出现的机率,当我们能求所有 x 出现的机率,我们就知道了 x 的分布,那么就可以用这个分布产生 x 。

分类:概率生成模型 - 李宏毅机器学习笔记_第4张图片

下面通过神奇宝贝的例子来说明概率生成模型,给定一个神奇宝贝,判断其是 水系 的还是 一般系 的,每个神奇宝贝用一个向量来表示,训练集中有79个水系的,61个一般系的。

分类:概率生成模型 - 李宏毅机器学习笔记_第5张图片

 P(C_{1}) 和 P(C_{2}) 用先验知识给出,即 C_{1} 和 C_{2} 在整个样本中出现的频率。

需要知道4个值,其中俩已经给出,那么剩下的两个值 P(x | C_{1}) 和 P(x|C_{2}) 该如何计算呢?至于为啥这俩值不直接也用先验知识给出,可能是类别就是固定的2,可以用统计方法给出,但是我们的模型是为了预测没有见过的那些样本的类别,这种我们不一定能从训练数据中用统计方法给出。例如下图中的海龟在训练集中就没有出现过。

分类:概率生成模型 - 李宏毅机器学习笔记_第6张图片

下图是仅考虑两个特征的熟悉的神奇宝贝的分布,下图每一个点代表一个水系的神奇宝贝。海龟是训练集中未出现过的,但是我们不能说从下面的分布中挑到海龟的概率P(x_{turtle} | C_{1})是0。这个时候我们如何给出从水系的神奇宝贝里面跳到海龟的概率?我们可以认为训练集中的79个水系的神奇宝贝是从一个高斯分布中采样得到的,若能知道这个高斯分布我们就能给出 P(x_{turtle} | C_{1}),所以现在的问题变为如何通过训练集来找到这样的高斯分布。

分类:概率生成模型 - 李宏毅机器学习笔记_第7张图片

 下面引入高斯分布的介绍, \Sigma 相同 \mu 不同(左图),代表概率分布的最高点不一样;\Sigma 不同 \mu 相同(右图),代表概率分布的最高点一样,但是离散程度不一样。

分类:概率生成模型 - 李宏毅机器学习笔记_第8张图片分类:概率生成模型 - 李宏毅机器学习笔记_第9张图片

所以,若是我们能从训练数据集中知道 \mu 和 \Sigma ,如下图我们就能写出该分布的式子,那么任意给定一个 x ,我们都能拿到在该分布下采样出 x 的概率。

 分类:概率生成模型 - 李宏毅机器学习笔记_第10张图片

现在我们的问题就变成了如何找 \mu 和 \Sigma ,如下图,这79个点可以从任何一个高斯分布中采样得到,因为高斯分布中采样出的点可以是空间中的任何点,只是有些地方几率高有些地方几率低,但是不存在几率精确为0的地方。右上角的高斯分布也能抽样出这79个点,不高几率很低;左下角的分布抽样出这79个点的概率就比较高了。下面用最大似然的概念来求解  \mu 和 \Sigma ,他表示给定一个 \mu 和 \Sigma ,我们采样出这79个点的概率,我们要找到一个分布使得它抽样这79个点的概率最大。

 分类:概率生成模型 - 李宏毅机器学习笔记_第11张图片

下面给出了,当给定所有训练样本的时候,最适合的那个高斯分布的  \mu 和 \Sigma 。

 分类:概率生成模型 - 李宏毅机器学习笔记_第12张图片

下图给出了,水系神奇宝贝和一般系神奇宝贝各自的高斯分布。 

 分类:概率生成模型 - 李宏毅机器学习笔记_第13张图片

 从前面可知有了高斯分布,给定任何一个样本我们就可以将进行预测了。

分类:概率生成模型 - 李宏毅机器学习笔记_第14张图片

 下图给出了测试集上的结果,分别用了两个特征和所有的特征,但是效果不理想。

分类:概率生成模型 - 李宏毅机器学习笔记_第15张图片

通常的做法是不同的类别共享 \Sigma\Sigma 的规模是和特征的平方成正比的,当特征变多的时候,\Sigma  的规模增长的也是很快的,共享 \Sigma ,参数就不会太多,模型方差就不不太大,就不会过拟合。如下图,\mu_{1} 和 \mu_{2} 的计算和之前一样,还是在各自的类别里面做平均,\Sigma 的计算方式在下图中给出。

分类:概率生成模型 - 李宏毅机器学习笔记_第16张图片

这种方式的效果比之前不共享 \Sigma 要好很多。共享 \Sigma,则分界线变成了直线了,像这种我们也称之为线性模型。

分类:概率生成模型 - 李宏毅机器学习笔记_第17张图片

概率生成模型总结如下 

 分类:概率生成模型 - 李宏毅机器学习笔记_第18张图片

朴素贝叶斯模型,即是原先的高维的奥斯分布的 \Sigma 除了对角线之外权威0,它会多一个假设所有的特征在该类别下独立。

分类:概率生成模型 - 李宏毅机器学习笔记_第19张图片

3.数学上的形式

分类:概率生成模型 - 李宏毅机器学习笔记_第20张图片

 下面我们看看 z 是啥。

分类:概率生成模型 - 李宏毅机器学习笔记_第21张图片

 分类:概率生成模型 - 李宏毅机器学习笔记_第22张图片

分类:概率生成模型 - 李宏毅机器学习笔记_第23张图片共享 \Sigma ,可以得到,从下面我们就可以看到为啥边界线是直线,还有其实我们可以直接求解 w 和 b 。

分类:概率生成模型 - 李宏毅机器学习笔记_第24张图片

你可能感兴趣的:(笔记,机器学习,机器学习)