机器学习数学基础(二)概率论(上)

目录

  • 1.概率论基础
  • 2.统计量
  • 3.大数定律
  • 4.中心极限定理
  • 5.最大似然估计

1. 概率论基础

1.1 概率论基本概念

1.1.1 什么是概率

表示事件发生可能大小的一个量叫做概率

1.1.2 概率公式
(1)条件概率公式

P(A|B)称为事件B发生的情况下A发生的概率,计算公式如下:

机器学习数学基础(二)概率论(上)_第1张图片

通常,条件概率P(A|B)和无条件概率P(A)是不同的。

(2)全概率公式

机器学习数学基础(二)概率论(上)_第2张图片
图片来自《概率论与数理统计(浙大 第四版)》

在很多实际问题中,往往不易直接求出概率 P(A),但却容易找到S的一个划分 B1, B2,..., Bn,且 BiP(A|Bi)为已知,则根据 全概率公式很容易求出 P(A)

(3)贝叶斯公式

根据前面条件概率公式全概率公式可以推导出贝叶斯公式,如下:

机器学习数学基础(二)概率论(上)_第3张图片
贝叶斯公式

在这里, P(Bi)B的先验概率,之所以称为“先验”,是因为不需要考虑任何 A方面的因素。

1.2 常见概率分布

1.2.1 0-1分布

0-1分布是经常遇到的一种分布,定义如下:

机器学习数学基础(二)概率论(上)_第4张图片
图片来自《概率论与数理统计(浙大 第四版)》

并且:
期望 E(X) = 1 p + 0(1-p) = p
方差 D(X) = E(X^2) - [E(X)]^2 = pq

1.2.2 二项分布

设实验E只有两个可能结果A和B,则称E为伯努利(Bernoulli)实验,设P(A)=p(0n重伯努利实验。

伯努利实验的特点:

  • 重复,即每次实验的概率是相同的
  • 独立,各次实验的结果互不影响
  • 每次实验可能的结果只有两个,即A&B

二项分布即重复n次的伯努利实验,每次实验结果为A的概率是p,结果为B的概率是q(其中q=1-p),则在n次实验中有k次为A,n-k次结果为B的概率为:


即有

显然
机器学习数学基础(二)概率论(上)_第5张图片

观察下面这个表达式

发现刚好是(p+q)^n 的展开式中出现p^k的那一项,我们称随机变量X服从参数为n,p的 二项分布,并记为X~b(n,p)。

当n=1时,二项分布就是(0-1)分布

期望E(X)为


机器学习数学基础(二)概率论(上)_第6张图片

方差D(X)为


机器学习数学基础(二)概率论(上)_第7张图片
1.2.3 泊松分布

泊松分布适合描述单位时间(空间)内随机事件的发生次数,例如,一本书一页中的印刷错误数、某地区一个时间间隔内发生交通事故的次数等。


机器学习数学基础(二)概率论(上)_第8张图片
图片来自《概率论与数理统计(浙大 第四版)》

泊松分布期望
机器学习数学基础(二)概率论(上)_第9张图片

在总结以下几个概率分布前,先解释一下连续型随机变量

一般,如果对于随机变量X的分布函数F(x),存在非负函数f(x),使对于任意实数x有


则称 X连续性随机变量,其中函数 f(x)称为 X概率密度函数,简称 概率密度

实际应用中遇到的基本上是离散型或者连续性随机变量,本文也只讨论这两种随机变量。

概率密度函数有以下几个特点:
机器学习数学基础(二)概率论(上)_第10张图片

下面总结一下三种重要的连续型随机变量的概率密度。

1.2.4 均匀分布

若连续型随机变量X具有概率密度

机器学习数学基础(二)概率论(上)_第11张图片

则称 X在区间(a,b)上服从 均匀分布,记为 X~U(a,b)

很容易推导出X的分布函数为

机器学习数学基础(二)概率论(上)_第12张图片

1.2.5 指数分布

若连续型随机变量X概率密度为

机器学习数学基础(二)概率论(上)_第13张图片

其中,θ>0为常数,则称 X服从参数为θ的 指数分布

1.2.6 正态分布

若连续型随机变量X的概率密度为


其中μ,σ(σ>0)为常数,则称 X服从参数为μ,σ的正态分布或高斯分布(Gauss),记为X~N(μ,σ^2)

1.2.7 Beta分布

暂时省去500字

2.统计量

2.1 独立和不相关

给定A,B两个事件,如果满足等式
P(AB) = P(A)P(B)
则称事件A,B相互独立,简称A,B独立

其中:
独立一定不相关;
不相关不一定独立;
实际上不相关就是两者没有线性关系,但是不排除存在其他关系的可能性,而独立就是不存在任何关系。

2.2 期望

2.2.1 定义
  • 离散型


    机器学习数学基础(二)概率论(上)_第14张图片
  • 连续型


    机器学习数学基础(二)概率论(上)_第15张图片
2.2.2 性质
  • 无条件成立

    • E(kX) = kE(X)
    • E(X + Y) = E(X) + E(Y)
  • 若X和Y相互独立
    E(XY) = E(X)E(Y) 反之不成立

2.2 方差

2.2.1 定义

X是一个随机变量,若E{[X-E(X)]^2}存在,则称E{ [X-E(X)]^2 }是X方差,记做D(X)或者Var(x),即
D(X)=Var(x)=E{[X-E(X)]^2}

2.2.2 性质
  • 无条件成立

    • Var(c) = 0
    • Var(X+c) = Var(X)
    • Var(kX) = k^2Var(X)
  • X和Y相互独立

    • Var(X+Y) = Var(X) + Var(Y)

2.3 协方差

2.3.1 定义

E{[X-E(X)][Y-E(Y)]}称为随机变量XY协方差,记为Cov(X,Y)

协方差是两个变量是否具有相同变化趋势的度量:

  • 若Cov(X,Y) > 0,他们的变化趋势相同;
  • 若Cov(X,Y) < 0,他们的变化趋势相反;
  • 若Cov(X,Y) = 0,他们不相关;
2.3.2 性质
  • Cov(X,Y) = Cov(Y,X)
  • Cov(aX+b, cY+d) = acCov(X,Y)
  • Cov(X1+X2,Y) = Cov(X1,Y) + Cov(X2,Y)
  • Cov(XY) = E(XY) - E(X)E(Y)

机器学习数学基础(二)概率论(上)_第16张图片

称为随机变量 XY相关系数

参考资料:
[1] 《概率论与数理统计(浙大 第四版)》

你可能感兴趣的:(机器学习数学基础(二)概率论(上))