机器学习中的数学基础 4

随机变量与概率分布

均匀分布

每个事件的概率是一样的,例如骰子的六面,每一面的概率都是 1 / 6 1/6 1/6

随机变量

给定样本空间 ( S , F ) (S,{\mathbb {F}}) (S,F),如果其上的实值函数 X : S → R X:S\to {\mathbb {R}} X:SR F \mathbb{F} F (实值)可测函数,则称 X X X 为(实值)随机变量。

随机变量实质上是函数,称其为变量是指可作为因变量。

离散随机变量

如果随机变量 X X X 的取值是有限的或者是可数无穷尽的值

X = { x 1 , x 2 , x 3 , … , } X=\lbrace x_{1},x_{2},x_{3},\ldots ,\rbrace X={x1,x2,x3,,}

则称 X X X 为离散随机变量。

如投骰子时,当 P ( X 1 ) = 1 6 P(X_1)=\frac{1}{6} P(X1)=61,此时 x = 1 x=1 x=1 为离散随机变量。

随机变量具有可加性: P ( X = 1 ) P(X=1) P(X=1) P ( X = 2 ) P(X=2) P(X=2)不会同时出现,可求 P ( X = 1 , 2 ) P(X=1,2) P(X=1,2)

连续随机变量

如果 X X X 由全部实数或者由一部分区间组成,

X = { x ∣ a ≤ x ≤ b } ,   − ∞ < a < b < ∞ X=\lbrace x|a\leq x\leq b\rbrace, \ -\infty X={xaxb}, <a<b<

则称 X X X 为连续随机变量。

概率密度函数 (probability density function)

概率密度函数(probability density function), 连续型随机变量的概率密度函数是一个描述某个确定的取值点附近的可能性的函数。

累积分布函数 (cumulative distribution function)

为了便于概率的计算,我们引入了 CDF 的概念。是概率密度函数的积分,能完整描述一个实随机变量 X X X 的概率分布。

  • CDF 是 PDF 的(从 − o o -oo oo 到当前值的)积分,PDF 是 CDF 的导数.
  • CDF 相当于其左侧的面积,也相当于小于该值的概率,负无穷的 CDF 值为 0 0 0,正无穷的 CDF 值总为 1 1 1

https://zhuanlan.zhihu.com/p/35669044
参考牛顿莱布尼茨公式:https://zh.m.wikipedia.org/zh-hans/%E5%BE%AE%E7%A7%AF%E5%88%86%E5%9F%BA%E6%9C%AC%E5%AE%9A%E7%90%86

联合分布

对离散随机变量而言,联合分布概率质量函数为 P r ( X = x   &   Y = y ) Pr(X = x \ \& \ Y = y) Pr(X=x & Y=y),即

P ( X = x    a n d    Y = y )    =    P ( Y = y ∣ X = x ) P ( X = x ) = P ( X = x ∣ Y = y ) P ( Y = y ) .    P(X=x\;\mathrm{and}\;Y=y)\;=\;P(Y=y|X=x)P(X=x)= P(X=x|Y=y)P(Y=y).\; P(X=xandY=y)=P(Y=yX=x)P(X=x)=P(X=xY=y)P(Y=y).
因为是概率分布函数,所以必须有

∑ x ∑ y P ( X = x   a n d   Y = y ) = 1.    \sum_x \sum_y P(X=x\ \mathrm{and}\ Y=y) = 1.\; xyP(X=x and Y=y)=1.

随机变量的独立性

独立性是概率论所独有的一个重要概念。设 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,xn n n n 个随机变量,如果对任何 n n n 个实数 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,xn 都有

F ( x 1 , x 2 , … , x n ) = F 1 ( x 1 ) , F 2 ( x 2 ) , … , F n ( x n ) F(x_1,x_2,…,x_n) = F_1(x_1),F_2(x_2),…,F_n(x_n) F(x1,x2,xn)=F1(x1),F2(x2),Fn(xn)

即它们的联合分布函数 F F F, 等于它们各自的分布函数的乘积。则称 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1x2,xn 是独立的。

伯努利分布

伯努利分布(Bernoulli Distribution),是一种离散分布,又称为 “0-1 分布” 或 “两点分布”。只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。若伯努利试验成功,则伯努利随机变量取值为 1 1 1。若伯努利试验失败,则伯努利随机变量取值为 0 0 0。记其成功概率为 p ( 0 ≤ p ≤ 1 ) p (0{\le}p{\le}1) p(0p1),失败概率为 q = 1 − p q=1-p q=1p

其概率质量函数为:

f X ( x ∣ p ) = p x ( 1 − p ) 1 − x = { p i f   x = 1 , q   i f   x = 0. {\displaystyle f_{X}(x|p)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p & if \ x=1,\\q\ & if \ x=0.\\\end{matrix}}\right.} fX(xp)=px(1p)1x={pq if x=1,if x=0.

二项分布

二项分布(Binomial Distribution)也是一种离散型概率分布,又称为「n 重伯努利分布」。

可见, n n n 重伯努利试验需满足下列条件:

  • 每次试验只有两种结果,即 X = 1 X=1 X=1,或 X = 0 X=0 X=0
  • 各次试验中的事件互相独立,且 X = 1 X=1 X=1 X = 0 X=0 X=0 的概率分别为 p ( 0 < p < 1 ) p(0p(0<p<1) q = 1 − p q=1-p q=1p

那么成功的次数 Y Y Y 就是一个参数为 n n n p p p 的二项随机变量,即满足下述公式:

P ( Y = k ) = C ( n , k ) p k ( 1 − p ) n − k P(Y=k) = C(n, k) p^k (1-p)^{n-k} P(Y=k)=C(n,k)pk(1p)nk

  • Y = k Y=k Y=k,试验 n n n 次,成功的次数恰好有 k k k 次的随机变量(事件)
  • C ( n , k ) C(n, k) C(n,k),表示从集合 n n n 中取出 k k k 个元素的组合数,结果为 n ! / ( k ! ( n − k ) ! ) n!/(k! (n-k)!) n!/(k!(nk)!)

写作 Y ∼ B ( n , p ) Y \sim B(n, p) YB(n,p)(也就是说, Y Y Y 是服从二项分布的随机变量)

https://www.cnblogs.com/jmilkfan-fanguiju/p/10589773.html

泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。

泊松分布的概率质量函数为:

P ( X = k ) = e − λ λ k k ! P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!} P(X=k)=k!eλλk

泊松分布的参数 λ λ λ 是随机事件发生次数的数学期望值。

X X X 服从参数为 λ \lambda λ 的泊松分布,记为 X ∼ π ( λ ) X \sim \pi(\lambda) Xπ(λ),或记为 X ∼ P o i s ( λ ) {\displaystyle X\sim Pois(\lambda )} XPois(λ).

泊松分布的来源

在二项分布的伯努利试验中,如果试验次数 n n n 很大,二项分布的概率 p p p 很小,且乘积 λ = n p λ= np λ=np 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。

更多参考:
泊松过程、指数分布:https://zh.m.wikipedia.org/zh-cn/%E6%8C%87%E6%95%B0%E5%88%86%E5%B8%83
多项分布:https://en.wikipedia.org/wiki/Multinomial_distribution

正态分布

若随机变量 X X X 服从一个位置参数为 μ \mu μ 、尺度参数为 σ \sigma σ 的正态分布,记为:

X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)

则其概率密度函数为 f ( x ) = 1 σ 2 π    e − ( x − μ ) 2 2 σ 2  ⁣ {\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}\!} f(x)=σ2π 1e2σ2(xμ)2

我们通常所说的标准正态分布是位置参数 μ = 0 \mu =0 μ=0,尺度参数 σ 2 = 1 \sigma^2 = 1 σ2=1 的正态分布

贝叶斯定理

在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A A A 在另一个事件 B B B 已经发生条件下的概率,记作 P ( A ∣ B ) P(A|B) P(AB) A A A B B B 可能是相互独立的两个事件,也可能不是:

P ( A ∣ B ) = P ( A ⋂ B ) P ( B ) P(A|B) = \frac{P(A \bigcap B)}{P(B)} P(AB)=P(B)P(AB)

P ( A ⋂ B ) P(A \bigcap B) P(AB) 表示 A,B 事件同时发生的概率

https://zhuanlan.zhihu.com/p/22467549

贝叶斯定理是关于随机事件 A A A B B B 的条件概率的一则定理。

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}} P(AB)=P(B)P(A)P(BA)

其中 A A A 以及 B B B 为随机事件,且 P ( B ) P(B) P(B) 不为零。 P ( A ∣ B ) {\displaystyle P(A\mid B)} P(AB) 是指在事件 B B B 发生的情况下事件 A A A 发生的概率。

在贝叶斯定理中,每个名词都有约定俗成的名称:

  1. P ( A ∣ B ) {\displaystyle P(A\mid B)} P(AB) 是已知 B B B 发生后, A A A 的条件概率。也称作 A A A 的事后概率。
  2. P ( A ) P(A) P(A) A A A 的先验概率(或边缘概率)。其不考虑任何 B B B 方面的因素。
  3. P ( B ∣ A ) {\displaystyle P(B\mid A)} P(BA) 是已知 A A A 发生后, B B B 的条件概率。也可称为 B B B 的后验概率。某些文献又称其为在特定 B B B 时, A A A 的似然性,因为 P ( B ∣ A ) = L ( A ∣ B ) {\displaystyle P(B\mid A)=L(A\mid B)} P(BA)=L(AB)
  4. P ( B ) P(B) P(B) B B B 的先验概率。

根据全概率公式,在更一般化的情况,假设 ${A_i}, 1 \leq i \leq $ 是事件集合里的部分集合,对于任意的 A i A_i Ai,贝叶斯理论可用下式表示:

P ( A i ∣ B ) = P ( B ∣ A i )   P ( A i ) ∑ j = 1 n P ( B ∣ A j )   P ( A j )  ⁣ {\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\displaystyle\sum_{j=1}^{n} P(B|A_{j})\,P(A_{j})}}\!} P(AiB)=j=1nP(BAj)P(Aj)P(BAi)P(Ai)

其中 P ( B ∣ A i ) P(B|A_i) P(BAi) P ( A i ∣ B ) P(A_i|B) P(AiB) 的逆概率

https://blog.csdn.net/WslWslYYX/article/details/120188632
https://zhuanlan.zhihu.com/p/159355780

例题

某疾病未生病概率 P ( A 1 ) = 99.9 % P(A_1)=99.9\% P(A1)=99.9%,则生病概率 P ( A 2 ) = 0.1 % P(A_2)=0.1\% P(A2)=0.1%,化验手段为病的正确概率 P ( B ∣ A 2 ) = 90 % P(B|A_2)=90\% P(BA2)=90%,则失败概率为 P ( B ∣ A 1 ) = 10 % P(B|A_1)=10\% P(BA1)=10%,求:

P ( B ) P(B) P(B) P ( B ′ ) P(B^\prime) P(B) 表示化验结果准确。

  1. 第一次化验为病且生病正确概率 P ( A 2 ∣ B ) P(A_2|B) P(A2B)
  2. 第一次第二次化验都为病且生病的概率 P ( A 2 ∣ B ′ ) P(A_2|B^\prime) P(A2B)
from decimal import Decimal, getcontext

getcontext().prec = 500
pa1 = Decimal(99.9 / 100)
pa2 = 1 - pa1
pb_a2 = Decimal(90 / 100)
pb_a1 = 1 - pb_a2

# 第一次检测
pa2_b = pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2)
print("pa2_b:", pa2_b)

# 第二次检测,化简后代入
pa2_b_simp = pb_a2 * pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2) / (pb_a1 * 1 - pb_a1 * pb_a2 * pa2 /
                                                                 (pb_a1 * pa1 + pb_a2 * pa2)
                                                                 + pb_a2 * pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2))
print("pa2_b_simp:", pa2_b_simp)

# 第二次检测,直接代入
pa1 = 1 - pa2_b
pa2 = pa2_b
pa2_b = pb_a2 * pa2 / (pb_a1 * pa1 + pb_a2 * pa2)
print("pa2_b:", pa2_b)

out:

pa2_b: 0.0089285714285704552184795621734431990228295869184551309227437083422694837649230399481520372071322287645937454795543702141374816275772559051676054449074470890496141257461410931477625780651803786510057311359712064259897806888017596341306968782579824444580391186910612649213343761046921967825307967252779549804233018264767846324568029866636133532378377609530302498116737468000438556193157008358323999387196374820413862845848921364157260993408107566688572442896941731490508911890765119439685681948244775513
pa2_b_simp: 0.074999999999992386028818063687234055650264676838666153856895966794058655373197753207740963980543837860810445058250110555484410209293415947509455008257814523212200521165915297701498559953889726448042203903565435046740939430222922520442923489544019091303266234096871506457355956083239284162330060008486612776158863878112308234899817199628856859126371681557721167085486165045757630600454951136425032431939080310545257362589704437331953969969349477368665951931968875855192769127010257688987623983372269080
pa2_b: 0.074999999999992386028818063687234055650264676838666153856895966794058655373197753207740963980543837860810445058250110555484410209293415947509455008257814523212200521165915297701498559953889726448042203903565435046740939430222922520442923489544019091303266234096871506457355956083239284162330060008486612776158863878112308234899817199628856859126371681557721167085486165045757630600454951136425032431939080310545257362589704437331953969969349477368665951931968875855192769127010257688987623983372269080

期望、方差与条件数学期望

在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。

离散变量的期望

如果 X X X 是离散的随机变量,输出值为 x 1 , x 2 , … x_{1},x_{2},\ldots x1,x2,,和输出值相应的概率为 $p_{1},p_{2},\ldots $(概率和为1)。

若级数 ∑ i p i x i {\displaystyle \sum _{i}p_{i}x_{i}} ipixi 绝对收敛,那么期望值 E ⁡ ( X ) {\displaystyle \operatorname {E} (X)} E(X) 是一个无限数列的和。

E ⁡ ( X ) = ∑ i p i x i {\displaystyle \operatorname {E} (X)=\sum _{i}p_{i}x_{i}} E(X)=ipixi

连续变量的期望

如果 X X X 是连续的随机变量,存在一个相应的概率密度函数 f ( x ) f(x) f(x),若积分 ∫ − ∞ ∞ x f ( x )   d x {\displaystyle \int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x} xf(x)dx 绝对收敛,那么 X X X 的期望值可以计算为:

E ⁡ ( X ) = ∫ − ∞ ∞ x f ( x )   d x 。 {\displaystyle \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x}。 E(X)=xf(x)dx

方差

标准差,又称标准偏差、均方差 (英语:Standard Deviation,缩写SD,符号 σ σ σ ),在概率统计中最常使用作为测量一组数值的离散程度之用。

基本定义

σ = 1 N ∑ i = 1 N ( x i − x ‾ ) 2 {\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}}} σ=N1i=1N(xix)2

x ‾ {\overline {x}} x 为平均值。

一随机变量 X X X 的标准差定义为:

σ = E ⁡ ( ( X − E ⁡ ( X ) ) 2 ) = E ⁡ ( X 2 ) − ( E ⁡ ( X ) ) 2 \sigma = \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2} σ=E((XE(X))2) =E(X2)(E(X))2

既:

σ 2 = E ⁡ ( ( X − E ⁡ ( X ) ) 2 ) = E ⁡ ( X 2 ) − ( E ⁡ ( X ) ) 2 \sigma^2 = \operatorname{E}((X-\operatorname{E}(X))^2) = \operatorname{E}(X^2) - (\operatorname{E}(X))^2 σ2=E((XE(X))2)=E(X2)(E(X))2

一般关于 x x x 的方差写作 σ x 2 \sigma_x^2 σx2

协方差

期望值分别为 E ( X ) = μ X E(X)=\mu_X E(X)=μX E ( Y ) = μ Y E(Y)=\mu_Y E(Y)=μY 的两个具有有限二阶矩的实数随机变量 X X X Y Y Y 之间的协方差定义为:

cov ⁡ ( X , Y ) = E ⁡ ( ( X − μ X ) ( Y − μ Y ) ) = E ⁡ ( X ⋅ Y ) − μ X μ Y {\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu_X )(Y-\mu_Y ))=\operatorname {E} (X\cdot Y)-\mu_X \mu_Y } cov(X,Y)=E((XμX)(YμY))=E(XY)μXμY

两个独立变量的协方差为 0 0 0

推导:https://blog.csdn.net/WslWslYYX/article/details/120194906

相关系数

两个变量之间的皮尔逊相关系数定义为两个变量的协方差除以它们标准差的乘积:

ρ X , Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}={\mathrm {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={E[(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}} ρX,Y=σXσYcov(X,Y)=σXσYE[(XμX)(YμY)]

上式定义了总体相关系数,常用希腊小写字母 ρ (rho) 作为代表符号。

条件数学期望

X X X Y Y Y 是离散随机变量,则 X X X 在给定事件 Y = y {\displaystyle Y=y} Y=y 条件时的条件期望是 x x x 的在 Y Y Y 的值域的函数

E ⁡ ( X ∣ Y = y ) = ∑ x ∈ X x   P ⁡ ( X = x ∣ Y = y ) = ∑ x ∈ X x   P ⁡ ( X = x , Y = y ) P ⁡ ( Y = y ) , \operatorname {E}(X|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ \operatorname {P}(X=x|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ {\frac {\operatorname {P}(X=x,Y=y)}{\operatorname {P}(Y=y)}}, E(XY=y)=xXx P(X=xY=y)=xXx P(Y=y)P(X=x,Y=y),
其中, X {\mathcal {X}} X 是处于 X X X 的值域。

如果现在 X X X 是一个连续随机变量,而 Y Y Y 仍然是一个离散变量,条件期望是:
E ⁡ ( X ∣ Y = y ) = ∫ X x f X ( x ∣ Y = y ) d x \operatorname {E}(X|Y=y)=\int _{{{\mathcal {X}}}}xf_{X}(x|Y=y)dx E(XY=y)=XxfX(xY=y)dx

其中, f X (   ⋅   ∣ Y = y ) f_{X}(\,\cdot \,|Y=y) fX(Y=y) 是在给定 Y = y Y=y Y=y X X X 的条件概率密度函数。

重期望公式

X , Y , Z X,Y,Z X,Y,Z 为随机变量,下列期望和条件期望均存在,则

E ⁡ ( X ) = E ⁡ ( E ⁡ ( X ∣ Y ) ) ; \operatorname {E}(X)=\operatorname {E}(\operatorname {E}(X\mid Y)); E(X)=E(E(XY));

其中 E ⁡ ( X ∣ Y = y ) \operatorname {E}(X\mid Y = y) E(XY=y) y y y 的函数,可以看做随机变量。

https://zhuanlan.zhihu.com/p/93938795

大数定律

大数定律(英语:Law of large numbers)又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。

对于独立同分布的无穷长度随机序列 { X i } \{X_i\} {Xi} ,期望为 E ( X i ) = μ E(X_i) = \mu E(Xi)=μ

X ‾ n = 1 n ( X 1 + X 2 + . . . + X n ) → μ      f o r   n → ∞ {\overline {X}}_{n} = \frac{1}{n} (X_1 + X_2 + ... + X_n) \rightarrow \mu \ \ \ \ for \ n \rightarrow \infty Xn=n1(X1+X2+...+Xn)μ    for n

弱大数定律

弱大数定律 (WLLN) 也称为辛钦定理,陈述为:样本均值 X ‾ n {\overline {X}}_{n} Xn 依概率 P P P 收敛于期望值 μ \mu μ。接近期望的可能越来越大。

X ‾ n   → P   μ as n → ∞ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty } Xn P  μasn

也就是

∀ ϵ > 0 ,   lim ⁡ n → ∞ P (   ∣ X ‾ n − μ ∣ > ε   ) = 0 \forall \epsilon > 0, \ {\displaystyle \lim _{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} ϵ>0, nlimP(Xnμ>ε)=0

  • 依概率收敛

切比雪夫定理的特殊情况

a 1 ,   a 2 ,   …   ,   a n ,   … {\displaystyle a_{1},\ a_{2},\ \dots \ ,\ a_{n},\ \dots } a1, a2,  , an,  为相互独立的随机变量

在定理条件下,当 n n n 无限变大时, n n n 个随机变量的算术平均将变成一个常数。

定理:https://zh.wikipedia.org/zh-cn/%E5%A4%A7%E6%95%B8%E6%B3%95%E5%89%87#%E5%BC%B1%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B

强大数定律

强大数定律 (SLLN) 指出,样本均值以概率 1 1 1 收敛于期望值。平均值越来越接近期望值。

X ‾ n   → a.s.   μ as n → ∞ {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty } Xn a.s.  μasn

a . s a.s a.s = almost sure

P ( lim ⁡ n → ∞ X ‾ n = μ ) = 1 {\displaystyle P\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1} P(nlimXn=μ)=1

也就是

∀ ϵ > 0 ,   P ( lim ⁡ n → ∞   ∣ X ‾ n − μ ∣ > ε   ) = 0 \forall \epsilon > 0, \ {\displaystyle P\left(\lim _{n\to \infty }\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0} ϵ>0, P(nlimXnμ>ε)=0

  • 点点收敛(几乎处处收敛) 可以推出 弱大数定理,反过来不一定。

从形式上来看似乎只是把极限和概率交换了一下位置,但是这个交换就导致了本质的区别,后面会解释。

https://glooow1024.github.io/2020/05/30/probability/law%20of%20large%20numbers/
https://blog.51cto.com/u_15366127/5623693#Bernoulli_100

中心极限定理

设随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,,Xn 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯   , n ) E(X_{i})=\mu ,D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) E(Xi)=μD(Xi)=σ2=0(i=1,2,,n)。记

独立同分布(英語:Independent and identically distributed,或稱獨立同分配,缩写为iid、 i.i.d.、IID)

  • 均值: X ˉ = 1 n ∑ i = 1 n X i {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i} Xˉ=n1i=1nXi
  • ζ n = X ˉ − μ σ / n \zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}} ζn=σ/n Xˉμ

lim ⁡ n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right) limnP(ζnz)=Φ(z)

其中 Φ ( z ) \Phi (z) Φ(z) 是标准正态分布的分布函数。既:

∑ i = 1 n X i ∼ N ( n μ , σ 2 n ) \sum _{i=1}^{n}X_{i} \sim N(n\mu, \frac{\sigma^2}{\sqrt{n}} ) i=1nXiN(nμ,n σ2)

  • 依分布收敛

特征函数与中心极限定理

特征函数定义

在概率论中,任何随机变量的特征函数(缩写:ch.f,复数形式:ch.f’s)完全定义了它的概率分布。在实直线上,它由以下公式给出,其中 X X X 是任何具有该分布的随机变量:

φ X ( t ) = E ⁡ ( e i t X ) , \varphi _{X}(t)=\operatorname {E}\left(e^{{itX}}\right), φX(t)=E(eitX)

其中 t t t 是一个实数, i i i 是虚数单位, E E E 表示期望值。

特征函数证明中心极限定理

机器学习中的数学基础 4_第1张图片

附:
e x = lim ⁡ n → ∞ ( 1 + x n ) n e^x = \lim _{n\to \infty} {(1 + \frac{x}{n})}^n ex=nlim(1+nx)n

正态分布特征函数推导:https://zhuanlan.zhihu.com/p/14383762
https://zh.wikipedia.org/zh-cn/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
https://zhuanlan.zhihu.com/p/93738110
https://zhuanlan.zhihu.com/p/85233692
参考书籍:《概率与统计》陈家鼎

不同收敛对比

https://www.zhihu.com/question/26736727

  1. 几乎处处收敛和Lp收敛最强,依概率收敛其次,依分布收敛最弱。
  2. 几乎处处收敛和Lp收敛并无推导关系。
  3. 在收敛到常数时,依概率收敛和依分布收敛等价。

统计学基本概念

p-value

p p p 值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。

P P P 值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率,或者当原假设为真时所得到的统计数据(如两组样本数据平均值差)会大于或等于实际观察到的结果的概率。

https://martechcareer.com/advice/2020/6/10/-p-value-mmm

零假设

零假设(英语:Null hypothesis,又译虚无假设、原假设,符号: H 0 H_0 H0)是做统计检验时的一类假说。

零假设的内容一般是希望能证明为错误的假设。

备择假设

备择假设(英语:Alternative hypothesis,记作 H a H_{a} Ha H 1 H_1 H1),是做统计检验时的一类假说。

而站在零假设立场对立面的即为备择假设,需要透过统计检验来证明备择假设为真,当有充足证据拒绝零假设时,即可接受备择假设,而若无充足证据证明备择假设为真时,则“不拒绝”零假设。

显著性水平

显著性水平(significance level,符号: α α α)常用于假设检验中检验假设和实验结果是否一致,它代表在零假设(记作 H 0 H_0 H0)为真时,错误地拒绝 H 0 H_0 H0 的概率,即发生第一类错误(弃真错误、α错误)的概率。

拒绝域

定义:拒绝域是由显著性水平围成的区域

拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内,就拒绝原假设,否则不拒绝原假设。给定显著性水平 α α α 后,查表就可以得到具体临界值,将检验统计量与临界值进行比较,判断是否拒绝原假设。

https://zhuanlan.zhihu.com/p/86178674

假设检验

假设检验:H0(原假设),H1(备择假设)

充分统计量

数学上,设 ( X 1 , … , X e ) (X₁, …,Xₑ) (X1Xe) 是来自总体 X X X 的一个随机样本, T = T ( X 1 , … , X e ) T=T(X₁, …,Xₑ) T=T(X1Xe) 是一统计量。若在 T = t T=t T=t 的条件下,样本的条件分布与未知参数 θ θ θ$ 无关,则称统计量 T T T θ θ θ 的充分统计量。

P(precosion)-R(recall)曲线

P(precosion)-R(recall) 曲线:

  • 查准率: P = T P / ( T P + F P ) P=TP/(TP+FP) P=TP/(TP+FP) (在预测正确中,真正正确的概率) 预测为正例的样本中真正正例的比例。
  • 召回率: R = T P / ( T P + F N ) R=TP/(TP+FN) R=TP/(TP+FN) (在真正正确中,预测正确的概率) 真正为正例的样本有多少被预测出来。

ROC曲线

TPR(真阳率(True postive rate))-FPR(假阳率(False positive rate))

  • F P R = F P / ( F P + T N ) FPR=FP/(FP+TN) FPR=FP/(FP+TN) (所有负样本中有多少被预测为正例)
  • T P R = T P / ( T P + F N ) TPR=TP/(TP+FN) TPR=TP/(TP+FN) (等同于recall)

AUC:AUC(Area Under Curve)

被定义为ROC曲线下的面积,因为ROC曲线一般都处于y=x这条直线的上方,所以取值范围在0.5和1之间,使用AUC作为评价指标是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好,而AUC作为一个数值,其值越大代表分类器效果更好。

https://blog.csdn.net/yinyu19950811/article/details/81288287

极大似然估计

最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计。

给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ ,我们可以从这个分布中抽出一个具有 n n n 个值的采样 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,利用 f D f_D fD 计算出其似然函数:

L ( θ ∣ x 1 , … , x n ) = f θ ( x 1 , … , x n ) . {\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} L(θx1,,xn)=fθ(x1,,xn).

D D D 是离散分布, f θ {\displaystyle f_{\theta }} fθ 即是在参数为 θ \theta θ 时观测到这一采样的概率。

若其是连续分布, f θ {\displaystyle f_{\theta }} fθ 则为 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn 联合分布的概率密度函数在观测值处的取值。

一旦我们获得 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,我们就能求得一个关于 θ \theta θ 的估计。最大似然估计会寻找关于 θ \theta θ 的最可能的值(即,在所有可能的 θ \theta θ 取值中,寻找一个值使这个采样的“可能性”最大化)。

从数学上来说,我们可以在 θ \theta θ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ ^ \widehat{\theta} θ 值即称为 θ \theta θ 的最大似然估计。由定义,最大似然估计是样本的函数。

最小二乘法与最大似然估计

在线性回归中,若误差服从正态分布(或 ϵ \epsilon ϵ 服从正态分布),则最小二乘法就是极大似然估计!

https://zhuanlan.zhihu.com/p/55793850

最大后验估计

Maximum A Posteriori, MAP 是贝叶斯学派常用的估计方法!

在贝叶斯统计学中,“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。

MLE 和 MAP 的对比

假设:

  • MLE = 频率学派: θ \theta θ 是固定的
  • MAP = 贝叶斯学派: θ \theta θ 是可以改变的

公式:

  • MLE:
    θ ^ M L E ( x ) = arg ⁡ max ⁡ θ f ( x ∣ θ )  ⁣ {\hat {\theta }}_{{{\mathrm {MLE}}}}(x)=\arg \max _{{\theta }}f(x|\theta )\! θ^MLE(x)=argθmaxf(xθ)

  • MAP:
    θ ^ M A P ( x ) = arg ⁡ max ⁡ θ f ( θ ∣ x ) = arg ⁡ max ⁡ θ f ( x ∣ θ )   g ( θ ) ∫ Θ f ( x ∣ θ ′ )   g ( θ ′ )   d θ ′ = arg ⁡ max ⁡ θ f ( x ∣ θ )   g ( θ )  ⁣ {\hat {\theta }}_{{{\mathrm {MAP}}}}(x)= \arg \max _{{\theta }}f(\theta |x) \\ = \arg \max _{{\theta }}{\frac {f(x|\theta )\,g(\theta )}{\int _{{\Theta }}f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{{\theta }}f(x|\theta )\,g(\theta )\! θ^MAP(x)=argθmaxf(θx)=argθmaxΘf(xθ)g(θ)dθf(xθ)g(θ)=argθmaxf(xθ)g(θ)

其中假设 θ \theta θ 存在一个先验分布 g ( θ ) g(\theta) g(θ),这就允许我们将 θ \theta θ 作为 贝叶斯统计中的随机变量。

  • g ( θ ) = C g(\theta) = C g(θ)=C 时候,引入广义分布的概念简化运算,此时 MAP 转为 MLE

https://zh.m.wikipedia.org/zh-cn/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87

无信息先验分布

费希尔信息(英语:Fisher Information)

随机变量 X X X 的费希尔讯息定义为

I ( θ ) = E ⁡ [ ( ∂ L ∂ θ ) 2 ∣ θ ] = − E ⁡ [ ∂ 2 L ∂ θ 2 ∣ θ ] {\displaystyle {\mathcal {I}}(\theta )=\operatorname {E} \left[\left.\left({\frac {\partial {\mathcal {L}}}{\partial \theta }}\right)^{2}\right|\theta \right]=-\operatorname {E} \left[\left.{\frac {\partial ^{2}{\mathcal {L}}}{\partial \theta ^{2}}}\right|\theta \right]} I(θ)=E[(θL)2 θ]=E[θ22L θ]

L ( X ; θ ) {\displaystyle {\mathcal {L}}(X;\theta )} L(X;θ) X X X 关于母数 θ \theta θ 的对数似然函数,当 X X X 的概率密度函数 f ( X ; θ ) {\displaystyle f(X;\theta )} f(X;θ) 已知时

L ( X ; θ ) = ln ⁡ f ( X ; θ ) {\displaystyle {\mathcal {L}}(X;\theta )=\ln f(X;\theta )} L(X;θ)=lnf(X;θ)

https://zh.m.wikipedia.org/zh-hans/%E8%B4%B9%E5%B8%8C%E5%B0%94%E4%BF%A1%E6%81%AF

附:分号 P ( x ; θ ) P(x;\theta) P(x;θ) 可以看作变量 θ \theta θ 的函数, x x x 代表确定的采样值,加一个 θ \theta θ 是代表待估参数。

  • 记忆:分号代表前后是两类东西,分号前面是 x x x 样本,分号后边是模型参数。

https://blog.csdn.net/DD_PP_JJ/article/details/109722504#:~:text=%E8%80%8C%E4%B8%80%E8%88%AC%E5%9C%B0%EF%BC%8C%E5%86%99%E7%AB%96,%E5%8F%98%E9%87%8FX%3Dx%E7%9A%84%E6%A6%82%E7%8E%87%E3%80%82

Jeffreys Prior (Jeffreys 先验)

参数 θ \theta θ 的 Jeffreys Prior 为以下形式:

p j ( θ ) ∝ I ( θ ) p_j(\theta) \propto \sqrt{\mathcal {I}(\theta)} pj(θ)I(θ)

a ∝ b a \propto b ab 则 a is proportional to b ($a=kb, k \isin Z^+ $)

为什么Jeffreys Prior是无信息先验?

均匀分布在随机变量进行变换时不能保持相对不变。 为了解决这个问题,Jeffreys Prior 应运而生。

均匀分布作为无信息先验的缺陷例子,如令上文 g ( θ ) = 1 g(\theta)=1 g(θ)=1 η = θ 2 \eta = \theta^2 η=θ2,则可推导出 η \eta η 先验证概率分布函数 g η ( η ) = 1 2 η g_\eta(\eta) = \frac{1}{2\sqrt{\eta}} gη(η)=2η 1 显然不是常数,不是均匀分布。

在这里,一个对于理解 Jeffreys Prior 很重要又很有趣的问题来了:Jeffreys Prior明显不是我们原来所想象的那种无信息先验(即,我们对参数的取值没有任何偏好),那么Jeffreys Prior到底为什么可以作为无信息先验分布呢?在这里,引用一段[2]中的话,我认为其非常深刻:

The Jeffreys prior is indeed the uniform prior over the parameter space , but not under the Euclidean geometry (pdfs depend on the geometry, as they give limits of probability of a set over the volume of the set, and volume calculation depends on geometry).

我认为可以这样理解这句话:实际上,我们如何参数化一个模型也是一种主观的决策(例如上边例子中的 与 ),而 Jeffreys Prior 作为无信息先验,能够保证不论我们采取什么样的参数化方法,它们的先验分布终归是互通的,从而后验分布也是互通的。这就保证了我们在不同参数化方法的情况下,都能够在最后推出同样的结论。

https://www.zgbk.com/ecph/words?SiteID=1&ID=238159&Type=bkzyb
https://zhuanlan.zhihu.com/p/428896725

蒙特卡罗方法

是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。通常蒙特卡罗方法可以粗略地分成两类:

  • 一类是所求解的问题本身具有内在的随机性,借助计算机的运算能力可以直接模拟这种随机的过程。
  • 另一种类型是所求解问题可以转化为某种随机分布的特征数,比如随机事件出现的概率,或者随机变量的期望值。通过随机抽样的方法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估算随机变量的数字特征,并将其作为问题的解。这种方法多用于求解复杂的多维积分问题。

在数学中的应用

通常蒙特卡罗方法透过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特卡罗方法是一种有效的求出数值解的方法。一般蒙特卡罗方法在数学中最常见的应用就是蒙特卡罗积分。如求积分、圆周率等。

https://zh.wikipedia.org/zh-cn/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95

也可以用来简化用 MAP 逼近先验函数 g i ( θ ) g_i(\theta) gi(θ) 的迭代,如:

g 1 ( θ ) = f ( x 1 ∣ θ ) g 0 ( θ ) g 2 ( θ ) = f ( x 2 ∣ θ ) g 1 ( θ ) g_1(\theta) = f(x_1|\theta)g_0(\theta) \\ g_2(\theta) = f(x_2|\theta)g_1(\theta) g1(θ)=f(x1θ)g0(θ)g2(θ)=f(x2θ)g1(θ)

传统算法需要一直乘,用蒙特卡洛法可以抽样代替乘积运算。

马尔可夫链

马尔可夫链是满足马尔可夫性质的随机变量序列 X 1 , X 2 , X 3 , . . . X1, X2, X3, ... X1,X2,X3,...,即给出当前状态,将来状态和过去状态是相互独立的。从形式上看,

它将来的状态分布只取决于现在,跟过去无关!

https://zhuanlan.zhihu.com/p/26453269

马尔可夫链蒙特卡洛

马尔可夫链蒙特卡洛(英語:Markov chain Monte Carlo,MCMC)方法(含随机游走蒙特卡洛方法)是一组用马氏链从随机分布取样的算法,之前步骤的作为底本。步数越多,结果越好。

随机游走算法

吉布斯采样

Gibbs抽样是MCMC的一个特例,它交替的固定某一维度,然后通过其他维度的值来抽样该维度的值,注意,gibbs采样只对z是高维(2维以上)(Gibbs sampling is applicable in situations where Z has at least two dimensions)情况有效。

通过这已知的条件分布 f ( x i ∣ x 1 , x i − 1 , x i + 1 , . . . , x n ) f(x_i | x_1, x_{i-1}, x_{i+1},...,x_n) f(xix1,xi1,xi+1,...,xn),再用 gibbs sampling 的方法,可得到联合分布 f ( x 1 , . . . , x n ) f(x_1,...,x_n) f(x1,...,xn)

https://blog.csdn.net/wydbyxr/article/details/83212740

更多:https://zh.m.wikipedia.org/zh/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B

Bootstrap 方法

在统计学中,自助法(Bootstrap Method,Bootstrapping,或自助抽样法、拔靴法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。

对比:

  • 自助法(Bootstrap):假设有n个样本,每次有放回地从n个样本中取一个
  • 刀切法(jack knife):留一交叉验证法,从样本中剔除一个,估计偏差与方差

https://zhuanlan.zhihu.com/p/24851814
刀切法推导:https://blog.csdn.net/taoqick/article/details/121179427
更多参考 bias 定义

EM 算法

全称 Expectation Maximization Algorithm。期望最大算法是一种迭代算法,用于含有隐变量(Hidden Variable)的概率参数模型的最大似然估计或极大后验概率估计。

EM 算法不一定收敛。

数学符号表示 EM 算法

对于真实数据 x , z x, z x,z 概率 P ( x , z ∣ θ ) P(x, z | \theta) P(x,zθ) 服从分布 L ( θ ; x , z ) L(\theta; x, z) L(θ;x,z),求:

θ ^ M L E ( x ) = arg ⁡ max ⁡ θ L ( θ ; x ) = P ( X ∣ θ ) {\hat {\theta }}_{{{\mathrm {MLE}}}}(x) = \arg \max _{{\theta }}L(\theta; x) = P(X|\theta) θ^MLE(x)=argθmaxL(θ;x)=P(Xθ)

机器学习中的数学基础 4_第2张图片

算法流程+推导:https://zhuanlan.zhihu.com/p/78311644

你可能感兴趣的:(机器学习中的数学基础 4)