目录
1.若用回归模型硬train分类任务
2.二分类任务
2.1 概率生成模型
3.数学上的形式
如图,class 2 的标签是-1(红色的点),class 1 的标签是1(蓝色的点),横纵坐标是特征值。测试的时候输出可能不会正好就是1 或 -1,若输出接近1则认为是 class 1,接近-1则认为是 class 2,我们期待找到一条如图绿色的线能很好的分开两个标签,像左图回归任务训练出来的拟合线恰好就是绿色的线,绿色的线左上角是 class 2,右下角是 class 1;但是右图, 回归任务通常是让预测值和真实值的差越小越好,所以为了也能很好的拟合到包括右下角那一堆样本的所有样本,最终的拟合线可能是紫色的那条(相比于绿色的线,所有样本到紫色的线的距离要更小),但是就分类任务而言,即使是右图的情况我们也还是希望会是绿色的线,因为它可以很好的分开所有样本,但是紫色的会错分一些 class 1的样本。所以用回归模型来做分类任务不合适。
若是用如下的回归模型的思路来做多分类。例如将class 1 对应 1,class 2 对应 2,class 3 对应3,这也是不合适的,因为这会带上数值的大小关系,模型会认为相对class 1而言,class 3 和 class 2 更接近。
但是上图中的损失函数没法微分。
如下图,有两个盒子,现在抽出了一个蓝色的球,问该蓝色的球是从1号盒子中抽出的概率是多少,若知道选取1、2号盒子的概率,以及从2两个盒子里选取蓝色的球的概率,就可以用贝叶斯公式求解。
将上题类比到二分类。将两个盒子换成两个类别,给定一个样本 x ,他属于某个类别的概率是多少,这时候我们需要知道选取两个类别gezhi的概率是多少,以及从每个类别中选取 x 的概率是多少。至于为啥叫做生成模型,因为给定任一一个 x ,只要知道上述4个值,我们就能求出该 x 出现的机率,当我们能求所有 x 出现的机率,我们就知道了 x 的分布,那么就可以用这个分布产生 x 。
下面通过神奇宝贝的例子来说明概率生成模型,给定一个神奇宝贝,判断其是 水系 的还是 一般系 的,每个神奇宝贝用一个向量来表示,训练集中有79个水系的,61个一般系的。
和 用先验知识给出,即 和 在整个样本中出现的频率。
需要知道4个值,其中俩已经给出,那么剩下的两个值 和 该如何计算呢?至于为啥这俩值不直接也用先验知识给出,可能是类别就是固定的2,可以用统计方法给出,但是我们的模型是为了预测没有见过的那些样本的类别,这种我们不一定能从训练数据中用统计方法给出。例如下图中的海龟在训练集中就没有出现过。
下图是仅考虑两个特征的熟悉的神奇宝贝的分布,下图每一个点代表一个水系的神奇宝贝。海龟是训练集中未出现过的,但是我们不能说从下面的分布中挑到海龟的概率是0。这个时候我们如何给出从水系的神奇宝贝里面跳到海龟的概率?我们可以认为训练集中的79个水系的神奇宝贝是从一个高斯分布中采样得到的,若能知道这个高斯分布我们就能给出 ,所以现在的问题变为如何通过训练集来找到这样的高斯分布。
下面引入高斯分布的介绍, 相同 不同(左图),代表概率分布的最高点不一样; 不同 相同(右图),代表概率分布的最高点一样,但是离散程度不一样。
所以,若是我们能从训练数据集中知道 和 ,如下图我们就能写出该分布的式子,那么任意给定一个 x ,我们都能拿到在该分布下采样出 x 的概率。
现在我们的问题就变成了如何找 和 ,如下图,这79个点可以从任何一个高斯分布中采样得到,因为高斯分布中采样出的点可以是空间中的任何点,只是有些地方几率高有些地方几率低,但是不存在几率精确为0的地方。右上角的高斯分布也能抽样出这79个点,不高几率很低;左下角的分布抽样出这79个点的概率就比较高了。下面用最大似然的概念来求解 和 ,他表示给定一个 和 ,我们采样出这79个点的概率,我们要找到一个分布使得它抽样这79个点的概率最大。
下面给出了,当给定所有训练样本的时候,最适合的那个高斯分布的 和 。
下图给出了,水系神奇宝贝和一般系神奇宝贝各自的高斯分布。
从前面可知有了高斯分布,给定任何一个样本我们就可以将进行预测了。
下图给出了测试集上的结果,分别用了两个特征和所有的特征,但是效果不理想。
通常的做法是不同的类别共享 , 的规模是和特征的平方成正比的,当特征变多的时候, 的规模增长的也是很快的,共享 ,参数就不会太多,模型方差就不不太大,就不会过拟合。如下图, 和 的计算和之前一样,还是在各自的类别里面做平均, 的计算方式在下图中给出。
这种方式的效果比之前不共享 要好很多。共享 ,则分界线变成了直线了,像这种我们也称之为线性模型。
概率生成模型总结如下
朴素贝叶斯模型,即是原先的高维的奥斯分布的 除了对角线之外权威0,它会多一个假设所有的特征在该类别下独立。
下面我们看看 z 是啥。