机器学习笔记3

李宏毅机器学习任务四】

负责人：王佳旭

课程设计人：王佳旭

#任务时间#

请于5月25日22:00前完成，逾期尚未打卡的会被清退

学习视频内容：

观看观看李宏毅课程内容：p8

视频连接：

https://www.bilibili.com/video/av35932863/?p=8

学习Datawhale整理笔记

https://datawhalechina.github.io/Leeml-Book/#/chapter8/chapter8(目前已100%复现)

https://datawhalechina.github.io/Leeml-Book/#/chapter8/chapter8

说明：

笔记内容将会随着学习任务进行放出

学习打卡内容：

从基础概率推导贝叶斯公式，朴素贝叶斯公式(1)

学习先验概率(2)

学习后验概率(3)

学习LR和linear regreeesion之间的区别(4)

推导sigmoid function公式(5)

要求：

我将将会对打卡链接进行查看，要求打卡学习任务不得少于3个(上述学习内容序号)

如果少于3个学习任务将会被清退

可以晚点提交并说明情况，如果出现假打卡情况，立即清退。

（1）从基础概率推导贝叶斯公式，朴素贝叶斯公式

给定一个场景，假设两个盒子，各装了5个球，还得知随机抽一个球，抽到的是盒子1的球的概率是P(B1)，是盒子2的球的概率是P(B2)。从盒子中蓝色球和绿色球的分配可以得到：

在盒子1中随机抽一个球，是蓝色的概率为P(blue|B1)，绿的的概率为P(green|B1)

在盒子2中随机抽一个球，是蓝色的概率为P(blue|B2)，绿的的概率为P(green|B2)

现在需要求解：如果从两个盒子中随机抽一个球，结果是从盒子1中抽到蓝色球的概率是多少。

问题可分两步解决：1）求抽到蓝色球的概率；2）这个蓝色球是从盒子1中抽到的概率。

1）求抽到蓝色球的概率。

从两个盒子中随机抽一个球，抽到蓝色球的可能性有两个:

a.从盒子1中抽到蓝色的球，其概率为：

b.从盒子2中抽到蓝色的球.，其概率为：

因而，从两个盒子中随机抽取1个球，抽到蓝色球的概率为：

2）这个蓝色球是从盒子1中抽到的概率：

将上面的例子一般化，即球的颜色即为样本的特征x，盒子1和盒子2为样本的分类C1和C2，可以将上式改写为：

上式即为朴素贝叶斯公式。

（2）学习先验概率

先验概率即根据训练样本获得一个样本分布的概率模型，实现当输入一个样本x时，可以计算出P(x).

我们想得到样本分布的概率分布假定为高斯分布，这里需要理解高斯分布（Gaussian Distribution）。

关于高斯分布（正态分布）需要知道多为高斯分布的公式，以及里面涉及到的μ（均值）和∑（协方差），参考https://www.cnblogs.com/jermmyhsu/p/8195588.html，这篇博客把协方差讲的很清楚，我边看博客边记笔记，把多维协方差和多维高斯分布的求解方式给理解。

在李宏毅机器学习课程中，老师提到，给出一个样本，满足这个样本的高斯分布有很多，原因是高斯分布是在整个空间范围内，所以需要用最大似然估计方法，来求得一组μ和∑的高斯分布，使得样本分布的可能性最大。

其中似然函数为：

通过对μ和∑求偏微分并等于0，求得L的最大似然估计对应的μ和∑为：

而通常来说，不会给每个高斯分布都计算出一套不同的最大似然估计，协方差矩阵是和输入feature大小的平方成正比，所以当feature很大的时候，协方差矩阵是可以增长很快的。此时考虑到model参数过多，容易Overfitting，为了有效减少参数，给描述这两个类别的高斯分布相同的协方差矩阵。

此时，似然函数为：

同样，求得最大似然估计对应的μ1，μ2和∑为：

μ1和μ2的求解公式一样，求各自的平均值；

∑不一样，

（3）学习后验概率

情景一：已知从两个箱子里面抽了一个蓝色的球，问这个蓝色的球是从盒子1拿出来的概率是多少。

分析过程是：根据以往的经验（样本数据），求一个使得样本发生概率最大的高斯分布函数。即先验概率，然后再利用贝叶斯公式求得蓝色球是从盒子1拿出来的概率。

情景二：根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率。

后验概率即条件概率，即在当前特征情况下计算结果发生的概率。

（4）学习Logistic Regression和linear regression之间的区别

a.logistic regression通过sigmoid 方程，所以输出是0~1，而linear regression的输出是R；

b.Logistic regression的目标是利用最大似然法，求w和b，而linear regression是通过最小二乘法求w和b；

c.liner regression期望拟合训练数据,通过feature的线性加权来预测结果; logistic regression是在训练一个最大似然分类器。

机器学习笔记3

（1）从基础概率推导贝叶斯公式，朴素贝叶斯公式

（2）学习先验概率

（3）学习后验概率

（4）学习Logistic Regression和linear regression之间的区别

（5）推导sigmoid function公式

你可能感兴趣的:(机器学习笔记3)

机器学习笔记3

（1）从基础概率推导贝叶斯公式，朴素贝叶斯公式

（2）学习先验概率

（3）学习后验概率

（4） 学习Logistic Regression和linear regression之间的区别

（5）推导sigmoid function公式

你可能感兴趣的:(机器学习笔记3)

（4）学习Logistic Regression和linear regression之间的区别