机器学习中的数学(五)--概率统计

写在前面    

  《机器学习中的数学》系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等。本系列重在描述基本概念,并不在应用的方面的做深入的探讨,如果想更深的了解某一方面的知识,请自行查找研究。

1. 随机变量

    随机变量可以地取不同值的。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写母来表能够取到的值。例如, x1和x2都是随机变量 X可能的取值

2. 离散型、连续型随机变量

①一批电子元件的次品数目。

②同样是一批电子元件,他们的寿命情况。

    在第一个例子中, 电元件的次数是现实可以区分值,我们用肉眼就能看出,这一堆元件里次品的个数。但是在第二例中,这个寿命它是一你无法用肉眼数的过来的数字,需要笔记下来,变成一个数字你才能感受它。在这两例子中第一例涉及的随机变量就是离散型 ,第二个连续涉及的随机变量就是连续型随机变量。

3. 离散型随机变量的概率函数,分布函数和概率分布

① 概率函数

机器学习中的数学(五)--概率统计_第1张图片

② 概率分布

机器学习中的数学(五)--概率统计_第2张图片

离散型随机变量的值和概率的分布列表。

③ 分布函数

机器学习中的数学(五)--概率统计_第3张图片

她就是概率函数取值的累加结果,所以它又叫累积概率函数。

4. 连续型随机变量

连续型随机变量的“概率函数”称作“概率密度函数”

机器学习中的数学(五)--概率统计_第4张图片

机器学习中的数学(五)--概率统计_第5张图片

左边是F(x)连续型随机变量分布函数的图形,右边是f(x)连续型随机变量的概率密度函数的图形,他们之间的关系是:概率密度函数是分布函数的导数:

5. 条件概率

条件概率:其记号为 P(A|B) ,表示在给定条件 B下 A事件发生的概率。

举个“栗子”: P( 第二次投硬币是正面 |第一次 投硬币是正面 ):就是在“第一次投硬币正面” 时“第二次投硬币是正面”的概率。那么 P( 第 二次投硬币是正面 |第一次投硬币是正面 )的结果是多少?

答案是1/2

条件概率的两种情况:

B事件的结果不会影响到A事件发生。如上面例子, 两次投币正面向上的概率不会相互干扰。所以 A事件发生的概率 =A 事件单独发生的概率。记为: P(A|B) =P(A)

B事件的结果会影响 A事件的发生。如:若头天下雨, 则第二天下雨的可能性会增大。即: A事件在 B事件之后发生的概率 > A事件单独发生的概率。记为: P(A|B)> P(A)

条件概率的链式法则:

举个例子:

a,b,c事件同时发生的概率等于 c事件发生的概率*在c发生的前提下b发生的概率*在b,c发生的前提下a发生的概率。

机器学习中的数学(五)--概率统计_第6张图片

6. 联合分布

机器学习中的数学(五)--概率统计_第7张图片

7. 全概率

机器学习中的数学(五)--概率统计_第8张图片

举个例子:

机器学习中的数学(五)--概率统计_第9张图片

8. 边缘概率

当我们知道一组变量的联合概率分布时,若我们想知道一个子集的概率分布,那么定义在子集上的概率分布就被我们称为边缘概率分布。

机器学习中的数学(五)--概率统计_第10张图片

9. 独立性和条件独立性

机器学习中的数学(五)--概率统计_第11张图片

10. 期望,方差与协方差

机器学习中的数学(五)--概率统计_第12张图片

机器学习中的数学(五)--概率统计_第13张图片

机器学习中的数学(五)--概率统计_第14张图片

方差是描述一维数据,协方差描述多维数据

协方差用来表示不同维度之间的相关性而不是样本之间的,如果协方差大于零,则说明是正相关,等于零,则不相关,小于零就是负相关。

协方差矩阵表示为:

机器学习中的数学(五)--概率统计_第15张图片

11. 常见的离散型随机变量的分布

① 0-1 分布

机器学习中的数学(五)--概率统计_第16张图片

机器学习中的数学(五)--概率统计_第17张图片

② 二项分布

机器学习中的数学(五)--概率统计_第18张图片

③ 泊松分布

机器学习中的数学(五)--概率统计_第19张图片

④均匀分布

机器学习中的数学(五)--概率统计_第20张图片

⑤正态分布(高斯分布)

机器学习中的数学(五)--概率统计_第21张图片

高斯分布的图像:

机器学习中的数学(五)--概率统计_第22张图片

μ表示的是图像的中心位置,方差表示图像的宽窄

⑥ 指数分布

机器学习中的数学(五)--概率统计_第23张图片

⑦ 贝叶斯公式

机器学习中的数学(五)--概率统计_第24张图片

举个例子:

机器学习中的数学(五)--概率统计_第25张图片

最后利用贝叶斯公式即可得出结果为3/5

12. 中心极限定理

机器学习中的数学(五)--概率统计_第26张图片

13. 最大似然估计

最大似然估计:是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的一种方法。

机器学习中的数学(五)--概率统计_第27张图片机器学习中的数学(五)--概率统计_第28张图片 

 

你可能感兴趣的:(•机器学习中的数学)