机器学习中的数学基础(四):概率论

机器学习中的数学基础(四):概率论

  • 4 概率论
    • 4.1 一些概念
    • 4.2 二维随机变量
      • 4.2.1 离散型
      • 4.2.2 连续型
    • 4.3 边缘分布
      • 4.3.1 离散型边缘分布
      • 4.3.2 连续型边缘概率密度
    • 4.4 期望
      • 4.4.1 一维期望
      • 4.4.2 二维期望
    • 4.5 马尔可夫不等式
    • 4.6 切比雪夫不等式

在看西瓜书的时候有些地方的数学推导(尤其是概率论的似然、各种分布)让我很懵逼,本科的忘光了,感觉有点懂又不太懂,基于此,干脆花一点时间简单从头归纳一下机器学习中的数学基础,也就是高数、线代、概率论(其实大学都学过)。
本文全部都是基于我自己的数学基础、尽量用方便理解的文字写的,记录的内容都是我本人记忆不太牢靠、需要时常来翻笔记复习的知识,已经完全掌握的比如极限连续性啥的都不会出现在这里。

学习内容来自这里

4 概率论

4.1 一些概念

随机事件:
是什么?扔硬币,王者峡谷击杀数,一批产品合格数。。。这些有什么特点呢?

  • 可以在相同条件下重复执行
  • 事先就能知道可能出现的结果
  • 试验开始前并不知道这一次的结果

随机试验E的所有结果构成的集合称为E的样本空间: S = { e } S=\{e\} S={e}
抛硬币: S = S= S= {正面,反面}
击杀数: S = S= S= {0,1,2,.….}

频率和概率:
机器学习中的数学基础(四):概率论_第1张图片
实验次数越多,越稳定。

古典概型:
在这里插入图片描述

条件概率:
机器学习中的数学基础(四):概率论_第2张图片
在这里插入图片描述

P(B|A)与P(AB):
相同点:事件A、B都发生了
不同点:样本空间不同。在P(B|A)中,事件A成为样本空间,在P(AB)中,样本空间仍为 Ω \Omega Ω

独立性:
机器学习中的数学基础(四):概率论_第3张图片

重复独立试验:

  • 重复独立试验:在相同的条件下,将试验E重复进行,且每次试验是独立进行的,即每次试验各种结果出现的概率不受其他各次试验结果的影响。
  • n重伯努利试验:若一试验的结果只有两个,A和 A ‾ \overline{A} A,在相同的条件下,将试验独立地重复进行n次,则称这n次试验所组成的试验为n重伯努利试验伯努利概型
    计算:
    机器学习中的数学基础(四):概率论_第4张图片

4.2 二维随机变量

有两个指标,不仅要观察两个指标各自的情况,还要了解其相互的关系。
机器学习中的数学基础(四):概率论_第5张图片
机器学习中的数学基础(四):概率论_第6张图片
机器学习中的数学基础(四):概率论_第7张图片

4.2.1 离散型

机器学习中的数学基础(四):概率论_第8张图片

4.2.2 连续型

机器学习中的数学基础(四):概率论_第9张图片
举例子:
机器学习中的数学基础(四):概率论_第10张图片

4.3 边缘分布

边缘分布函数:二维随机变量(X, Y)作为整体,有分布函数F(x,y)。其中,X和y都是随机变量,它们的分布函数记为: F X ( x ) F_X(x) FX(x) F Y ( y ) F_Y(y) FY(y),称为边缘分布函数。
在分布函数F(x,y)中令y趋向于正无穷,就能得到 F X ( x ) F_X(x) FX(x)
机器学习中的数学基础(四):概率论_第11张图片

4.3.1 离散型边缘分布

机器学习中的数学基础(四):概率论_第12张图片

4.3.2 连续型边缘概率密度

连续型的边缘概率密度
对于连续型随机变量 ( X , Y ) (X, Y) (X,Y) ,概率密度为 f ( x , y ) f(x, y) f(x,y)
X , Y X, Y X,Y 的边缘概率密度为: f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y , f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-\infty}^{+\infty} f(x, y) d y,f_Y(y)=\int_{-\infty}^{+\infty} f(x, y) d x fX(x)=+f(x,y)dyfY(y)=+f(x,y)dx
事实上: F X ( x ) = F ( x , + ∞ ) = ∫ − ∞ x [ ∫ − ∞ + ∞ f ( t , y ) d y ] d t = ∫ − ∞ x f X ( t ) d t F_X(x)=F(x,+\infty)=\int_{-\infty}^x\left[\int_{-\infty}^{+\infty} f(t, y) d y\right] d t=\int_{-\infty}^x f_X(t) d t FX(x)=F(x,+)=x[+f(t,y)dy]dt=xfX(t)dt
同理:
F Y ( y ) = F ( + ∞ , y ) = ∫ − ∞ y [ ∫ − ∞ + ∞ f ( x , t ) d x ] d t = ∫ − ∞ y f Y ( t ) d t F_Y(y) =F(+\infty, y)=\int_{-\infty}^y\left[\int_{-\infty}^{+\infty} f(x, t) d x\right] d t =\int_{-\infty}^y f_Y(t) d t FY(y)=F(+,y)=y[+f(x,t)dx]dt=yfY(t)dt

举例子:
机器学习中的数学基础(四):概率论_第13张图片

4.4 期望

4.4.1 一维期望

离散型:
在这里插入图片描述
连续型:
机器学习中的数学基础(四):概率论_第14张图片

4.4.2 二维期望

机器学习中的数学基础(四):概率论_第15张图片
期望的性质:
机器学习中的数学基础(四):概率论_第16张图片

4.5 马尔可夫不等式

方差:
在这里插入图片描述
大数定理:在试验样本不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
小的样本试验不足以以偏概全因为有一些局限。

马尔可夫不等式:
P ( X ≥ a ) ≤ E ( X ) a , X ≥ 0 , a > 0 P(X\geq a)\leq \frac{E(X)}{a},\quad X\geq 0, a>0 P(Xa)aE(X),X0,a>0
证明:由 X ≥ 0 X\geq 0 X0 X ≥ a X\geq a Xa 可知, X a ≥ 1 \frac{X}{a}\geq1 aX1,那么: P ( X ≥ a ) = ∫ a + ∞ f ( x ) d x ≤ ∫ a + ∞ X a d x P(X\geq a)=\int_{a}^{+\infty} f(x) dx\leq \int_{a}^{+\infty} \frac{X}{a} dx P(Xa)=a+f(x)dxa+aXdx。则:
在这里插入图片描述

4.6 切比雪夫不等式

机器学习中的数学基础(四):概率论_第17张图片
中心极限定理:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

你可能感兴趣的:(杂七杂八的学习笔记,概率论,人工智能)