机器学习之旅二:概率论

以下文章作为个人学习的知识总结

机器学习也叫做统计学习,因为大部分机器学习算法建立在概率统计理论基础之上,掌握概率统计理论基础就变得非常重要

个人认为,数学的学习要从基本的定义出发,然后基于定义,通过演绎推理得到一系列公式。 概率论也不例外。 所以,入手概率论之前, 第一个问题就是 什么是概率? 这个问题可以转化成: 概率的定义是什么?

概率的基本定义

概率的定义是整个概率论的基础, 理解它的定义就显得格外重要。

在引出概率的定义之前, 要清楚的明白概率论中的三个概念,实验、样本空间和事件。因为这三个概念的直接引出了概率的定义。

条件概率

在机器学习算法中,不少算法是以P(Y|X)作为目标函数的。贝叶斯学习算法也是以条件概率为基础的。 

理解条件概率要从最基本的定义入手, 才能理解更加深刻。概率的定义是基于样本空间, 可以借助样本空间去理解条件概率。

弄清楚条件概率的定义之后, 得掌握条件概率和联合概率之间的推导公式。更进一步, 得掌握贝叶斯公式,以及贝叶斯公式的不同表现形式。

随机变量

得充分理解随机变量的定义, 随机变量不是变量, 其实就是一个函数

基于随机变量引出了期望、方差、概率分布这些概念。

需要掌握常见的概率分布:

高斯分布、伯努利分布、二项分布、泊松分布等。

进一步,理解条件概率分布和联合概率分布。因为统计学习方法基本上都是学习 这两种分布, 如:朴素贝叶斯学习的就是联合概率分布;极大似然估计学习的就是条件概率分布。

独立性

理解独立性的定义。 部分机器学习算法为了降低计算复杂度, 就把随机变量的独立性作为假设, 可显著降低计算复杂度, 如:朴素贝叶斯模型,极大似然估计。 

总结

重要的事情强调三遍, 深刻理解定义非常重要!非常重要!非常重要! 了解基本定义之后, 由点及面的展开基本知识的学习, 如条件概率、联合概率、边缘概率,这些概率的公式推导和关系(最重要的是贝叶斯)。

所有的基本知识学完之后,需要在脑海形成一条知识的主干, 从基本定义出发, 由点到线再到面的铺开,进行知识点的联结!

你可能感兴趣的:(机器学习之旅二:概率论)