统计篇(二)-- 概率论、随机过程、信息论知识汇总

4 高斯分布

4.1 一维正态分布

  1. 正态分布的概率密度函数为 :
    p ( x ) = 1 2 π σ e − ( x − μ ) 2 / ( 2 σ 2 ) , − ∞ < x < ∞ (4-1) p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^{2}/ (2\sigma^{2})}, -\infty \lt x \lt \infty\tag{4-1} p(x)=2π σ1e(xμ)2/(2σ2),<x<(4-1)
    其中 μ , σ ( σ > 0 ) \mu,\sigma(\sigma>0) μ,σ(σ>0) 为常数。
  • 若随机变量 X X X 的概率密度函数如上所述,则称 X X X 服从参数为 μ , σ \mu,\sigma μ,σ 的正态分布或者高斯分布,记作 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)
  • 特别的,当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1 时,称为标准正态分布,其概率密度函数记作 φ ( x ) \varphi(x) φ(x),分布函数记作 Φ ( x ) \Phi(x) Φ(x)
  • 为了计算方便,有时也记作: N ( x ; μ , β − 1 ) = β 2 π exp ⁡ ( − 1 2 β ( x − μ ) 2 ) \mathcal N(x;\mu,\beta^{-1}) =\sqrt{\frac{\beta}{2\pi}}\exp\left(-\frac{1}{2}\beta(x-\mu)^{2}\right) N(x;μ,β1)=2πβ exp(21β(xμ)2),其中 β ∈ ( 0 , ∞ ) \beta \in (0,\infty) β(0,)
  1. 正态分布的概率密度函数性质:
  • 曲线关于 x = μ x=\mu x=μ 对称。
  • 曲线在 x = μ x=\mu x=μ 时取最大值。
  • 曲线在 x = μ ± σ x=\mu \pm \sigma x=μ±σ 处有拐点。
  • 参数 μ \mu μ 决定曲线的位置; σ \sigma σ 决定图形的胖瘦。
    统计篇(二)-- 概率论、随机过程、信息论知识汇总_第1张图片
  1. X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2) 则:
  • X − μ σ ∼ N ( 0 , 1 ) \frac{X-\mu}{\sigma} \sim N(0,1) σXμN(0,1)
  • 期望: E [ X ] = μ \mathbb E[X] = \mu E[X]=μ。方差: V a r [ X ] = σ 2 Var[X]=\sigma^2 Var[X]=σ2
  1. 有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 X i ∼ N ( μ i , σ i 2 ) , i = 1 , 2 , ⋯   , n X_i \sim N(\mu_i,\sigma_i^{2}),i=1,2,\cdots,n XiN(μi,σi2),i=1,2,,n 且它们相互独立,则它们的线性组合: C 1 X 1 + C 2 X 2 + ⋯ + C n X n C_1X_1+C_2X_2+\cdots+C_nX_n C1X1+C2X2++CnXn,仍然服从正态分布(其中 C 1 , C 2 , ⋯ C n C_1,C_2,\cdots C_n C1,C2,Cn 不全是为 0 的常数),且: C 1 X 1 + C 2 X 2 + ⋯ + C n X n ∼ N ( ∑ i = 1 n C i μ i , ∑ i = 1 n C i 2 σ i 2 ) C_1X_1+C_2X_2+\cdots+C_nX_n \sim N(\sum_{i=1}^{n}C_i\mu_i,\sum_{i=1}^{n}C_i^{2}\sigma_i^{2}) C1X1+C2X2++CnXnN(i=1nCiμi,i=1nCi2σi2)

4.2 多维正态分布

  1. 二维正态随机变量 ( X , Y ) (X,Y) (X,Y) 的概率密度为:
    p ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp ⁡ { − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 ) 2 σ 1 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 ) 2 σ 2 2 ] } (4-2) p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x-\mu_1)^{2}}{\sigma_1^{2}}\\ -2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^{2}}{\sigma_2^{2}}]\}\tag{4-2} p(x,y)=2πσ1σ21ρ2 1exp{2(1ρ2)1[σ12(xμ1)22ρσ1σ2(xμ1)(yμ2)+σ22(yμ2)2]}(4-2)
    根据定义,可以计算出:
    p X ( x ) = 1 2 π σ 1 e − ( x − μ 1 ) 2 / ( 2 σ 1 2 ) , − ∞ < x < ∞ p Y ( y ) = 1 2 π σ 2 e − ( y − μ 2 ) 2 / ( 2 σ 2 2 ) , − ∞ < y < ∞ E [ X ] = μ 1 E [ Y ] = μ 2 V a r [ X ] = σ 1 2 V a r [ Y ] = σ 2 2 C o v [ X , Y ] = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − μ 1 ) ( y − μ 2 ) p ( x , y ) d x d y = ρ σ 1 σ 2 ρ X Y = ρ (4-3) p_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[X] =\mu_1 \\ \mathbb E[Y] =\mu_2 \\ Var[X] =\sigma_1^{2} \\ Var[Y]=\sigma_2^{2}\\ Cov[X,Y]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{XY}=\rho\tag{4-3} pX(x)=2π σ11e(xμ1)2/(2σ12),<x<pY(y)=2π σ21e(yμ2)2/(2σ22),<y<E[X]=μ1E[Y]=μ2Var[X]=σ12Var[Y]=σ22Cov[X,Y]=(xμ1)(yμ2)p(x,y)dxdy=ρσ1σ2ρXY=ρ(4-3)

  2. 引入矩阵:
    x ⃗ = [ x y ] μ ⃗ = [ μ 1 μ 2 ] Σ = [ c 11 c 12 c 21 c 22 ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] (4-4) \mathbf{\vec x}=\begin{bmatrix} x \\ y \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\quad \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix}\tag{4-4} x =[xy]μ =[μ1μ2]Σ=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22](4-4)

Σ \mathbf{\Sigma} Σ ( X , Y ) (X,Y) (X,Y) 的协方差矩阵。其行列式为 det ⁡ Σ = σ 1 2 σ 2 2 ( 1 − ρ 2 ) \det \mathbf{\Sigma} =\sigma_1^{2}\sigma_2^{2}(1-\rho^{2}) detΣ=σ12σ22(1ρ2),其逆矩阵为:
Σ − 1 = 1 det ⁡ Σ [ σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ] (4-5) \mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix}\tag{4-5} Σ1=detΣ1[σ22ρσ1σ2ρσ1σ2σ12](4-5)
于是 ( X , Y ) (X,Y) (X,Y) 的概率密度函数可以写作 ( x ⃗ − μ ⃗ ) T ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} (x μ )T 表示矩阵的转置:
p ( x , x ) = 1 ( 2 π ) ( det ⁡ Σ ) 1 / 2 exp ⁡ { − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) } (4-6) p(x,x)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-6} p(x,x)=(2π)(detΣ)1/21exp{21(x μ )TΣ1(x μ )}(4-6)
其中:

  • 均值 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2 决定了曲面的位置(本例中均值都为0)。
  • 标准差 σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2 决定了曲面的陡峭程度(本例中方差都为1)。
  • ρ \rho ρ 决定了协方差矩阵的形状,从而决定了曲面的形状。
    • ρ = 0 \rho=0 ρ=0 时,协方差矩阵对角线非零,其他位置均为零。此时表示随机变量之间不相关。
      此时的联合分布概率函数形状如下图所示,曲面在 z = 0 z=0 z=0 平面的截面是个圆形:
      统计篇(二)-- 概率论、随机过程、信息论知识汇总_第2张图片

    • ρ = 0.5 \rho=0.5 ρ=0.5 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。
      此时的联合分布概率函数形状如下图所示,曲面在 z = 0 z=0 z=0 平面的截面是个椭圆,相当于圆形沿着直线 y = x y=x y=x 方向压缩 :
      统计篇(二)-- 概率论、随机过程、信息论知识汇总_第3张图片

    • ρ = 1 \rho=1 ρ=1 时,协方差矩阵对角线非零,其他位置非零。
      此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 z = 0 z=0 z=0 平面的截面是直线 y = x y=x y=x,相当于圆形沿着直线 y = x y=x y=x 方向压缩成一条直线 。
      由于 ρ = 1 \rho=1 ρ=1 会导致除数为 0,因此这里给出 ρ = 0.9 \rho=0.9 ρ=0.9
      统计篇(二)-- 概率论、随机过程、信息论知识汇总_第4张图片

  1. 多维正态随机变量 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn),引入列矩阵:
    x ⃗ = [ x 1 x 2 ⋮ x n ] μ ⃗ = [ μ 1 μ 2 ⋮ μ n ] = [ E [ X 1 ] E [ X 2 ] ⋮ E [ X n ] ] (4-7) \mathbf{\vec x}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[X_1] \\ \mathbb E[X_2] \\ \vdots\\ \mathbb E[X_n] \end{bmatrix}\tag{4-7} x = x1x2xn μ = μ1μ2μn = E[X1]E[X2]E[Xn] (4-7)
    Σ \pmb{\Sigma} ΣΣ ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) 的协方差矩阵。则:
    p ( x 1 , x 2 , x 3 , ⋯   , x n ) = 1 ( 2 π ) n / 2 ( det ⁡ Σ ) 1 / 2 exp ⁡ { − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) } (4-8) p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec x}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-8} p(x1,x2,x3,,xn)=(2π)n/2(detΣ)1/21exp{21(x μ )TΣ1(x μ )}(4-8)
    记做 : N ( x ⃗ ; μ ⃗ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) exp ⁡ ( − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) ) \mathcal N(\mathbf{\vec x};\mathbf{\vec \mu},\mathbf\Sigma) =\sqrt{\frac{1}{(2\pi)^{n}det(\mathbf\Sigma)}}\exp\left(-\frac 12(\mathbf{\vec x-\vec \mu})^{T}\mathbf\Sigma^{-1}(\mathbf{\vec x-\vec \mu})\right) N(x ;μ ,Σ)=(2π)ndet(Σ)1 exp(21(x μ )TΣ1(x μ ))

  2. n n n 维正态变量具有下列四条性质:

  • n n n 维正态变量的每一个分量都是正态变量;反之,若 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn 都是正态变量,且相互独立,则 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) n n n 维正态变量。
  • n n n 维随机变量 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) 服从 n n n 维正态分布的充要条件是: X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn 的任意线性组合: l 1 X 1 + l 2 X 2 + ⋯ + l n X n l_1X_1+l_2X_2+\cdots+l_nX_n l1X1+l2X2++lnXn 服从一维正态分布,其中 l 1 , l 2 , ⋯   , l n l_1,l_2,\cdots,l_n l1,l2,,ln 不全为 0 。
  • ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) 服从 n n n 维正态分布,设 Y 1 , Y 2 , ⋯   , Y k Y_1,Y_2,\cdots,Y_k Y1,Y2,,Yk X j , j = 1 , 2 , ⋯   , n X_j,j=1,2,\cdots,n Xj,j=1,2,,n 的线性函数,则 ( Y 1 , Y 2 , ⋯   , Y k ) (Y_1,Y_2,\cdots,Y_k) (Y1,Y2,,Yk) 也服从多维正态分布。
    这一性质称为正态变量的线性变换不变性。
  • ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) 服从 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn 维正态分布,则 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn) 相互独立 ⟺ X 1 , X 2 , ⋯   , X n \Longleftrightarrow X_1,X_2,\cdots,X_n X1,X2,,Xn 两两不相关。

        更多常见概率分布,请阅读:统计学中常用的分布族

5 先验分布与后验分布

  1. 在贝叶斯学派中,先验分布+数据(似然)= 后验分布
  2. 例如:假设需要识别一大箱苹果中的好苹果、坏苹果的概率。
  • 根据你对苹果好、坏的认知,给出先验分布为:50个好苹果和50个坏苹果。
  • 现在你拿出10个苹果,发现有:8个好苹果,2个坏苹果。根据数据,你得到后验分布为:58个好苹果,52个坏苹果
  • 再拿出10个苹果,发现有:9个好苹果,1个坏苹果。根据数据,你得到后验分布为:67个好苹果,53个坏苹果
  • 这样不断重复下去,不断更新后验分布。当一箱苹果清点完毕,则得到了最终的后验分布。
    在这里:
  • 如果不使用先验分布,仅仅清点这箱苹果中的好坏,则得到的分布只能代表这一箱苹果。
  • 采用了先验分布之后得到的分布,可以认为是所有箱子里的苹果的分布。
  • 当采用先验分布时:给出的好、坏苹果的个数(也就是频数)越大,则先验分布越占主导地位。
  1. 假设好苹果的概率为 p p p,则抽取 N N N 个苹果中,好苹果个数为 k k k 个的概率为一个二项分布:
    B i n o m ( k ∣ p ; N ) = C N k p k ( 1 − p ) N − k Binom(k\mid p;N)=C_N^kp^k(1-p)^{N-k} Binom(kp;N)=CNkpk(1p)Nk
    其中 C N k C_N^k CNk 为组合数。
  2. 现在的问题是:好苹果的概率 p p p 不再固定,而是服从一个分布。
    假设好苹果的概率 p p p 的先验分布为贝塔分布: B e t a ( p ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) p α − 1 ( 1 − p ) β − 1 Beta(p; \alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1} Beta(p;α,β)=Γ(α)Γ(β)Γ(α+β)pα1(1p)β1
    则后验概率为:
    P ( p ∣ k ; N , α , β ) = P ( k ∣ p ; N ) × P ( p ; α , β ) P ( k ; N , α , β ) ∝ P ( k ∣ p ; N ) × P ( p ; α , β ) = C N k p k ( 1 − p ) N − k × Γ ( α + β ) Γ ( α ) Γ ( β ) p α − 1 ( 1 − p ) β − 1 ∝ p k + α − 1 ( 1 − p ) N − k + β − 1 (5-1) P(p\mid k; N,\alpha,\beta)=\frac{P(k\mid p; N)\times P(p; \alpha,\beta)}{P(k; N,\alpha,\beta)} \\ \propto P(k\mid p; N)\times P(p; \alpha,\beta)=C_N^kp^k(1-p)^{N-k}\times \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\\ \propto p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\tag{5-1} P(pk;N,α,β)=P(k;N,α,β)P(kp;N)×P(p;α,β)P(kp;N)×P(p;α,β)=CNkpk(1p)Nk×Γ(α)Γ(β)Γ(α+β)pα1(1p)β1pk+α1(1p)Nk+β1(5-1)
    归一化之后,得到后验概率为:
    P ( p ∣ k ; N , α , β ) = Γ ( α + β + N ) Γ ( α + k ) Γ ( β + N − k ) p k + α − 1 ( 1 − p ) N − k + β − 1 ​ (5-2) P(p\mid k;N,\alpha,\beta)=\frac{\Gamma(\alpha+\beta+N)}{\Gamma(\alpha+k)\Gamma(\beta+N-k)}p^{k+\alpha-1}(1-p)^{N-k+\beta-1}​\tag{5-2} P(pk;N,α,β)=Γ(α+k)Γ(β+Nk)Γ(α+β+N)pk+α1(1p)Nk+β1(5-2)
  3. 好苹果概率 p p p 的先验分布的期望为: E [ p ] = α α + β \mathbb E[p]=\frac{\alpha}{\alpha+\beta} E[p]=α+βα。好苹果概率 p p p 的后验分布的期望为: E [ p ∣ k ] = α + k α + β + N \mathbb E[p\mid k]=\frac{\alpha+k}{\alpha+\beta+N} E[pk]=α+β+Nα+k
  • 根据上述例子所述:
    • 好苹果的先验概率的期望为 50 50 + 50 = 1 2 \frac {50}{50+50}=\frac 12 50+5050=21
    • 进行第一轮数据校验之后,好苹果的后验概率的期望为 50 + 8 50 + 50 + 10 = 58 110 \frac {50+8}{50+50+10}=\frac{58}{110} 50+50+1050+8=11058
  • 如果将 α \alpha α 视为先验的好苹果数量, β \beta β 视为先验的坏苹果数量, N N N 表示箱子中苹果的数量, k k k 表示箱子中的好苹果数量(相应的, N − k N-k Nk 就是箱子中坏苹果的数量)。则:好苹果的先验概率分布的期望、后验概率分布的期望符合人们的生活经验。
  • 这里使用先验分布和后验分布的期望,因为 p p p 是一个随机变量。若想通过一个数值来刻画好苹果的可能性,则用期望较好。
  1. 更一般的,如果苹果不仅仅分为好、坏两种,而是分作尺寸1、尺寸2、……尺寸K等。则 N N N 个苹果中,有 m 1 m_1 m1 个尺寸1的苹果、 m 2 m_2 m2 个尺寸2的苹果…… m K m_K mK 个尺寸 K K K 的苹果的概率服从多项式分布:
    M u l t ( m 1 , m 2 , ⋯   , m K ; μ ⃗ , N ) = N ! m 1 ! m 2 ! ⋯ m K ! ∏ k = 1 K μ k m k (5-3) Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}\tag{5-3} Mult(m1,m2,,mK;μ ,N)=m1!m2!mK!N!k=1Kμkmk(5-3)
    其中苹果为尺寸1的概率为 μ 1 \mu_1 μ1, 尺寸2的概率为 μ 2 \mu_2 μ2,……尺寸 K K K 的概率为 μ K \mu_K μK N = ∑ k = 1 K m k N=\sum_{k=1}^Km_k N=k=1Kmk
  • 假设苹果尺寸的先验概率分布为狄利克雷分布: D i r ( μ ⃗ ; α ⃗ ) = Γ ( ∑ k = 1 K α k ) ∑ k = 1 K Γ ( α k ) ∏ k = 1 K μ k α k − 1 Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1} Dir(μ ;α )=k=1KΓ(αk)Γ(k=1Kαk)k=1Kμkαk1
    苹果尺寸的先验概率分布的期望为: E [ μ ⃗ ] = ( α 1 ∑ k = 1 K α k , α 2 ∑ k = 1 K α k , ⋯   , α K ∑ k = 1 K α k ) \mathbb E[\vec\mu]=\left(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k}\right) E[μ ]=(k=1Kαkα1,k=1Kαkα2,,k=1KαkαK)

  • 则苹果尺寸的后验概率分布也为狄里克雷分布: D i r ( μ ⃗ ; α ⃗ + m ⃗ ) = Γ ( N + ∑ k = 1 K α k ) ∑ k = 1 K Γ ( α k + m k ) ∏ k = 1 K μ k α k + m k − 1 Dir(\vec\mu;\vec\alpha+\mathbf{\vec m})=\frac{\Gamma(N+\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k+m_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1} Dir(μ ;α +m )=k=1KΓ(αk+mk)Γ(N+k=1Kαk)k=1Kμkαk+mk1
    苹果尺寸的后验概率分布的期望为: E [ μ ⃗ ] = ( α 1 + m 1 N + ∑ k = 1 K α k , α 2 + m 2 N + ∑ k = 1 K α k , ⋯   , α K + m K N + ∑ k = 1 K α k ) \mathbb E[\vec\mu]=\left(\frac{\alpha_1+m_1}{N+\sum_{k=1}^K\alpha_k},\frac{\alpha_2+m_2}{N+\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K+m_K}{N+\sum_{k=1}^K\alpha_k}\right) E[μ ]=(N+k=1Kαkα1+m1,N+k=1Kαkα2+m2,,N+k=1KαkαK+mK)


6 随机过程

        随机过程(Stochastic Process)是一组随机变量 X t X_t Xt 的集合,其中 t t t 属于一个索引(index)集合 T \mathcal{T} T。索引集合 T \mathcal{T} T 可以定义在时间域或者空间域,但一般为时间域,以实数或正数表示。当 t t t 为实数时,随机过程为连续随机过程;当 t t t 为整数时,为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括伯努利过程、随机游走(Random Walk)、马尔可夫过程等。和空间相关的随机过程通常称为随机场(Random Field)。比如一张二维的图片,每个像素点(变量)通过空间的位置进行索引,这些像素就组成了一个随机过程。

6.1 马尔科夫过程

        马尔可夫性质在随机过程中,马尔可夫性质(Markov Property)是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。以离散随机过程为例,假设随机变量 X 0 , X 1 , ⋯   , X T X_0,X_1,\cdots,X_T X0,X1,,XT 构成一个随机过程。这些随机变量的所有可能取值的集合被称为状态空间(State Space)。如果 X t + 1 X_{t+1} Xt+1 对于过去状态的条件概率分布仅是 X t X_t Xt 的一个函数,则
P ( X t + 1 = x t + 1 ∣ X 0 : t = x 0 : t ) = P ( X t + 1 = x t + 1 ∣ X t = x t ) (6-1) P(X_{t+1}=x_{t+1}|X_{0:t}=x_{0:t})=P(X_{t+1}=x_{t+1}|X_{t}=x_{t})\tag{6-1} P(Xt+1=xt+1X0:t=x0:t)=P(Xt+1=xt+1Xt=xt)(6-1)
        其中 X 0 : t X_{0:t} X0:t 表示变量集合 X 0 , X 1 , ⋯   , X T X_0,X_1,\cdots,X_T X0,X1,,XT x 0 : t x_{0:t} x0:t 为在状态空间中的状态序列。

        马尔可夫性质也可以描述为给定当前状态时,将来的状态与过去状态是条件独立的。

        离散时间的马尔可夫过程也称为马尔可夫链(Markov Chain)。如果一个马尔可夫链的条件概率
P ( X t + 1 = s ∣ X t = s ′ ) = m s s ′ (6-2) P(X_{t+1}=s|X_{t}=s')=m_{ss'}\tag{6-2} P(Xt+1=sXt=s)=mss(6-2)
        只和状态 s s s s ′ s' s 相关, 和时间 t t t 无关, 则称为时间同质的马尔可夫链(Time Homogeneous Markov Chain),其中 m s s ′ m_{ss'} mss 称为状态转移概率。如果状态空间大小 K 是有限的,状态转移概率可以用一个矩阵 ∈ R K × K \in \mathbb{R}^{K\times K} MRK×K 表示,称为状态转移矩阵(Transition Matrix),其中元素 m i j m_{ij} mij 表示状态 s i s_i si 转移到状态 s j s_j sj 的概率。

        假设状态空间大小为 K,向量 π = [ π 1 , ⋯   , π K ] T \pmb{\pi} = [\pi_1,\cdots,\pi_K]^T ππ=[π1,,πK]T 为状态空间中的一个分布,满足 0 ≤ π k ≤ 1 0 ≤ \pi_k ≤ 1 0πk1 ∑ k = 1 K π k = 1 \sum_{k=1}^{K}\pi_k=1 k=1Kπk=1

        对于状态转移矩阵为 M \pmb{M} MM 的时间同质的马尔可夫链,如果存在一个分布 π \pi π 满足
π = M π (6-3) \pmb{\pi}=\pmb{M\pi}\tag{6-3} ππ=MπMπ(6-3)
        即分布 π \pmb{\pi} ππ 就称为该马尔可夫链的平稳分布(Stationary Distribution)。根据特征向量的定义可知, π \pmb{\pi} ππ 为矩阵 M \pmb{M} MM 的(归一化)的对应特征值为1 的特征向量。

        如果一个马尔可夫链的状态转移矩阵 M \pmb{M} MM 满足所有状态可遍历性以及非周期性,那么对于任意一个初始状态分布 π 0 \pmb{\pi}^0 ππ0,在经过一定时间的状态转移之后,都会收敛到平稳分布,即
π = lim ⁡ N → ∞ M N π ( 0 ) (6-4) \pmb{\pi}= \lim_{N\to\infty}\pmb{M}^N\pmb{\pi}^{(0)}\tag{6-4} ππ=NlimMMNππ(0)(6-4)

6.2 高斯过程

        高斯过程(Gaussian Process)也是一种应用广泛的随机过程模型。假设有一组连续随机变量 X 0 , X 1 , ⋯   , X T X_0,X_1,\cdots,X_T X0,X1,,XT,如果由这组随机变量构成的任一有限集合
X t 1 , ⋯   , t N = [ X t 1 , ⋯   , X t N ] T , 1 ≤ N ≤ T (6-5) X_{t_1,\cdots,t_N}=[X_{t_1},\cdots,X_{t_N}]^T,1\leq N \leq T\tag{6-5} Xt1,,tN=[Xt1,,XtN]T,1NT(6-5)
        都服从一个多元正态分布,那么这组随机变量为一个随机过程。高斯过程也可以定义为:如果 X t 1 , ⋯   , X t N X_{t_1},\cdots,X_{t_N} Xt1,,XtN 的任一线性组合都服从一元正态分布,那么这组随机变量为一个随机过程。

        高斯过程回归(Gaussian Process Regression)是利用高斯过程来对一个函数分布进行建模。和机器学习中参数化建模(比如贝叶斯线性回归)相比,高斯过程是一种非参数模型,可以拟合一个黑盒函数,并给出拟合结果的置信度。

        假设一个未知函数 f ( x ) f(\pmb{x}) f(xx) 服从高斯过程,且为平滑函数。如果两个样本 x 1 , x 2 \pmb{x}_1,\pmb{x}_2 xx1,xx2 比较接近,那么对应的 f ( x , x 2 ) f(\pmb{x}, \pmb{x}_2) f(xx,xx2) 也比较接近。假设从函数 ( x ) (\pmb{x}) f(xx) 中采样有限个样本 X = [ x 1 , x 2 , ⋯   , x N ] \pmb{X}= [\pmb{x}_1, \pmb{x}_2, \cdots,\pmb{x}_N] XX=[xx1,xx2,,xxN],这 N N N 个点服从一个多元正态分布,
[ f ( x 1 ) , f ( x 2 ) , ⋯   , f ( x N ) ] T ∼ N ( μ ( X ) , K ( X , X ) ) (6-6) [f(\pmb{x}_1), f(\pmb{x}_2), \cdots,f(\pmb{x}_N)]^T\sim N(\mu(X),K(X,X))\tag{6-6} [f(xx1),f(xx2),,f(xxN)]TN(μ(X),K(X,X))(6-6)

        其中 μ ( X ) = [ μ ( x 1 ) , μ ( x 2 ) , ⋯   , μ ( x N ) ] T \pmb{\mu}(\pmb{X}) = [\mu_{(\boldsymbol{x}_1)}, \mu_{(\boldsymbol{x}_2)},\cdots,\mu_{(\boldsymbol{x}_N)}]^T μμ(XX)=[μ(x1),μ(x2),,μ(xN)]T 是均值向量, K ( X , X ) = [ k ( x i , x j ) ] N × N \pmb{K}(\pmb{X}, \pmb{X}) = [k(\pmb{x}_i, \pmb{x}_j)]_{N\times N} KK(XX,XX)=[k(xxi,xxj)]N×N 是协方差矩阵, k ( x i , x j ) k(\pmb{x}_i, \pmb{x}_j) k(xxi,xxj) 为核函数,可以衡量两个样本的相似度。

        在高斯过程回归中,一个常用的核函数是平方指数(Squared Exponential)函数
k ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 l 2 ) (6-7) k(\pmb{x}_i, \pmb{x}_j)=exp(\dfrac{-||\pmb{x}_i-\pmb{x}_j||^2}{2l^2})\tag{6-7} k(xxi,xxj)=exp(2l2∣∣xxixxj2)(6-7)
        其中 l l l 为超参数。当 x i \pmb{x}_i xxi x j \pmb{x}_j xxj 越接近,其核函数的值越大,表明 f ( x i ) f(\pmb{x}_i) f(xxi) f ( x j ) f(\pmb{x}_j) f(xxj) 越相关。

        假设 f ( x ) f(\pmb{x}) f(xx) 的一组带噪声的观测值为 { ( x n , y n ) } n = 1 N \{(\pmb{x}_n,y_n)\}_{n=1}^{N} {(xxn,yn)}n=1N,其中 y n ∼ N ( f ( x n , σ 2 ) y_n\sim N(f(\pmb{x}_n,\sigma^2) ynN(f(xxn,σ2) f ( x n ) f(\pmb{x}_n) f(xxn) 的观测值,服从正态分布, σ 2 \sigma^2 σ2 为噪声方差。

        对于一个新的样本点 x ∗ \pmb{x}^* xx,我们希望预测 f ( x ∗ ) f(\pmb{x}^*) f(xx) 的观测值 y ∗ y^* y。令向量 = [ y 1 , y 2 , ⋯   , y N ] T =[y_1,y_2,\cdots,y_N]^T y=[y1,y2,,yN]T 为已有的观测值,根据高斯过程的假设, [ y ; y ∗ ] [\pmb{y}; y^*] [yy;y] 满足
[ y y ∗ ] ∼ ( [ μ ( X ) μ ( x ∗ ) ] , [ K ( X , X ) + σ 2 I K ( x ∗ , X ) T K ( x ∗ , X ) k ( x ∗ , x ∗ ) ] ) (6-8) \begin{bmatrix} \pmb{y} \\y^*\end{bmatrix}\sim \left(\begin{bmatrix} \pmb{\mu}(\pmb{X}) \\\mu(\pmb{x}^*)\end{bmatrix},\begin{bmatrix} \pmb{K}(\pmb{X},\pmb{X})+\sigma^2\pmb{I} & \pmb{K}(\pmb{x}^*, \pmb{X})^T \\\pmb{K}(\pmb{x}^*, \pmb{X}) & k(\pmb{x}^*,\pmb{x}^*)\end{bmatrix} \right) \tag{6-8} [yyy]([μμ(XX)μ(xx)],[KK(XX,XX)+σ2IIKK(xx,XX)KK(xx,XX)Tk(xx,xx)])(6-8)
        其中 K ( x ∗ , X ) = [ k ( x ∗ , x 1 ) , ⋯   , k ( x ∗ , x n ) ] \pmb{K}(\pmb{x}^*, \pmb{X})=[k(\pmb{x}^*,\pmb{x}_1),\cdots,k(\pmb{x}^*,\pmb{x}_n)] KK(xx,XX)=[k(xx,xx1),,k(xx,xxn)]

        根据上面的联合分布, y ∗ y^* y 的后验分布为
p ( y ∗ ∣ X , y ) = N ( μ ^ , σ ^ 2 ) (6-9) p(y^*|\pmb{X},\pmb{y})=N(\hat{\mu},\hat{\sigma}^2)\tag{6-9} p(yXX,yy)=N(μ^,σ^2)(6-9)
        其中均值 μ ^ \hat{\mu} μ^ 和方差 σ ^ \hat{\sigma} σ^
μ ^ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 ( y − μ ( X ) ) + μ ( x ∗ ) σ ^ 2 = k ( x ∗ , x ∗ ) − K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( x ∗ , X ) T (6-10) \hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}(\pmb{y}-\pmb{\mu}(\pmb{X}))+\mu(\pmb{x}^*)\\ \hat{\sigma}^2=k(\pmb{x}^*,\pmb{x}^*)-\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{K}(\pmb{x}^*, \pmb{X})^T\tag{6-10} μ^=KK(xx,XX)(KK(XX,XX)+σ2II)1(yyμμ(XX))+μ(xx)σ^2=k(xx,xx)KK(xx,XX)(KK(XX,XX)+σ2II)1KK(xx,XX)T(6-10)
        从公式可以看出,均值函数 μ ( x ) \pmb{\mu}(\pmb{x}) μμ(xx) 可以近似地互相抵消。在实际应用中,一般假设 μ ( x ) = 0 \mu(\pmb{x})=0 μ(xx)=0,均值 μ ^ \hat{\mu} μ^ 可以将简化为
μ ^ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 y (6-11) \hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{y}\tag{6-11} μ^=KK(xx,XX)(KK(XX,XX)+σ2II)1yy(6-11)
        高斯过程回归可以认为是一种有效的贝叶斯优化方法,广泛地应用于机器学习中。


7 信息论

  1. 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
  • 发生可能性较大的事件包含较少的信息。
  • 发生可能性较小的事件包含较多的信息。
  • 独立事件包含额外的信息 。
  1. 对于事件 X = x X=x X=x,定义自信息self-information为: I ( x ) = − log ⁡ P ( x ) I(x)=-\log P(x) I(x)=logP(x)
    自信息(Self Information)表示一个随机事件所包含的信息量。一个随机事件发生的概率越高,其自信息越低。如果一个事件必然发生,其自信息为0。在自信息的定义中,对数的底可以使用2、自然常数 e e e 或10。当底为2时,自信息的单位为bit;当底为 e e e 时,自信息的单位为nat
    自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是熵:
    H ( X ) = E X ∼ P ( X ) [ I ( x ) ] = − E X ∼ P ( X ) [ log ⁡ P ( x ) ] (7-1) H(X)=\mathbb E_{X\sim P(X)}[I(x)]=-\mathbb E_{X\sim P(X)}[\log P(x)]\tag{7-1} H(X)=EXP(X)[I(x)]=EXP(X)[logP(x)](7-1)
    记作 H ( P ) H(P) H(P)
  • 熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少。如果变量 X X X 当且仅当在 x x x P ( x ) = 1 P(x) = 1 P(x)=1,则熵为0。也就是说,对于一个确定的信息,其熵为0,信息量也为0。如果其概率分布为一个均匀分布,则熵最大。
  • 熵刻画了按照真实分布 P P P 来识别一个样本所需要的编码长度的期望(即平均编码长度)。
    如:含有4个字母(A,B,C,D)的样本集中,真实分布 P = ( 1 2 , 1 2 , 0 , 0 ) P=(\frac{1}{2}, \frac{1}{2}, 0, 0) P=(21,21,0,0),则只需要1位编码即可识别样本。
  • 对于离散型随机变量 X X X,假设其取值集合大小为 K K K,则可以证明: 0 ≤ H ( X ) ≤ log ⁡ K 0\le H(X)\le \log K 0H(X)logK
  1. 对于随机变量 X X X Y Y Y,条件熵 H ( Y ∣ X ) H(Y|X) H(YX) 表示:已知随机变量 X X X 的条件下,随机变量 Y Y Y 的不确定性。
    它定义为: X X X 给定条件下 Y Y Y 的条件概率分布的熵对 X X X 的期望:
    H ( Y ∣ X ) = E X ∼ P ( X ) [ H ( Y ∣ X = x ) ] = − E ( X , Y ) ∼ P ( X , Y ) log ⁡ P ( Y ∣ X ) (7-2) H(Y\mid X) = \mathbb E_{X\sim P(X)}[ H(Y\mid X=x)]=-\mathbb E_{(X,Y)\sim P(X,Y)} \log P(Y\mid X)\tag{7-2} H(YX)=EXP(X)[H(YX=x)]=E(X,Y)P(X,Y)logP(YX)(7-2)
  • 对于离散型随机变量,有:
    H ( Y ∣ X ) = ∑ x p ( x ) H ( Y ∣ X = x ) = − ∑ x ∑ y p ( x , y ) log ⁡ p ( y ∣ x ) (7-3) H(Y\mid X) = \sum_xp(x) H(Y\mid X=x)=-\sum_x\sum_y p(x,y)\log p(y\mid x)\tag{7-3} H(YX)=xp(x)H(YX=x)=xyp(x,y)logp(yx)(7-3)
  • 对于连续型随机变量,有:
    H ( Y ∣ X ) = ∫ p ( x ) H ( Y ∣ X = x ) d x = − ∫ ∫ p ( x , y ) log ⁡ p ( y ∣ x ) d x d y (7-4) H(Y\mid X) = \int p(x) H(Y\mid X=x) dx=-\int\int p(x,y)\log p(y\mid x) dx dy\tag{7-4} H(YX)=p(x)H(YX=x)dx=∫∫p(x,y)logp(yx)dxdy(7-4)
  1. 根据定义可以证明: H ( X , Y ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(Y\mid X)+H(X) H(X,Y)=H(YX)+H(X)
    即:描述 X X X Y Y Y 所需要的信息是:描述 X X X 所需要的信息加上给定 X X X 条件下描述 Y Y Y 所需的额外信息。
  2. KL散度(也称作相对熵):对于给定的随机变量 X X X,它的两个概率分布函数 P ( X ) P(X) P(X) Q ( X ) Q(X) Q(X) 的区别可以用KL散度来度量:
    D K L ( P ∣ ∣ Q ) = E X ∼ P ( X ) [ log ⁡ P ( x ) Q ( x ) ] = E X ∼ P ( X ) [ log ⁡ P ( x ) − log ⁡ Q ( x ) ] D_{KL}(P||Q)=\mathbb E_{X\sim P(X)}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E_{X\sim P(X)}\left[\log P(x) -\log Q(x) \right] DKL(P∣∣Q)=EXP(X)[logQ(x)P(x)]=EXP(X)[logP(x)logQ(x)]
  • KL散度非负:当它为 0 时,当且仅当PQ是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。
  • KL散度不对称: D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P||Q) \neq D_{KL}(Q||P) DKL(P∣∣Q)=DKL(Q∣∣P)
    直观上看对于 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q),当 P ( x ) P(x) P(x) 较大的地方, Q ( x ) Q(x) Q(x)也应该较大,这样才能使得 P ( x ) log ⁡ P ( x ) Q ( x ) P(x)\log\frac {P(x)}{Q(x)} P(x)logQ(x)P(x) 较小。
    对于 P ( x ) P(x) P(x) 较小的地方, Q ( x ) Q(x) Q(x) 就没有什么限制就能够使得 P ( x ) log ⁡ P ( x ) Q ( x ) P(x)\log\frac {P(x)}{Q(x)} P(x)logQ(x)P(x) 较小。这就是KL散度不满足对称性的原因。
  1. 交叉熵cross-entropy H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E X ∼ P ( X ) log ⁡ Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{X\sim P(X)}\log Q(x) H(P,Q)=H(P)+DKL(P∣∣Q)=EXP(X)logQ(x)
  • 交叉熵刻画了使用错误分布 Q 来表示真实分布 P 中的样本的平均编码长度。

  • D K L ( P ∣ ∣ Q ) D_{KL(P||Q)} DKL(P∣∣Q) 刻画了错误分布 Q 编码真实分布 P 带来的平均编码长度的增量。
    示例:假设真实分布 P 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 Q 来近似 P,则有两种方案
    Q 1 ∗ = arg ⁡ min ⁡ Q D K L ( P ∣ ∣ Q ) Q 2 ∗ = arg ⁡ min ⁡ Q D K L ( Q ∣ ∣ P ) (7-5) Q_1^* = \arg\min _Q D_{KL}(P||Q)\\ Q_2^* = \arg\min _Q D_{KL}(Q||P)\tag{7-5} Q1=argQminDKL(P∣∣Q)Q2=argQminDKL(Q∣∣P)(7-5)
    统计篇(二)-- 概率论、随机过程、信息论知识汇总_第5张图片

  • 如果选择 Q 1 ∗ Q_1^* Q1,则:

    • P ( x ) P(x) P(x) 较小的时候, Q ( x ) Q(x) Q(x) 必须较小。如果 P ( x ) P(x) P(x) 较小的时 Q ( x ) Q(x) Q(x) 较大,则 P ( x ) log ⁡ P ( x ) Q ( x ) P(x)\log\frac {P(x)}{Q(x)} P(x)logQ(x)P(x) 较大。
    • P ( x ) P(x) P(x) 较大的时候, Q ( x ) Q(x) Q(x) 可以较大,也可以较小。
      因此 Q 1 ∗ Q_1^* Q1 会贴近 P ( x ) P(x) P(x) 的峰值。由于 Q 1 ∗ Q_1^* Q1 的峰值有两个,因此 Q 1 ∗ Q_1^* Q1 无法偏向任意一个峰值,最终结果就是 Q 1 ∗ Q_1^* Q1 的峰值在 P ( x ) P(x) P(x) 的两个峰值之间。
      统计篇(二)-- 概率论、随机过程、信息论知识汇总_第6张图片
  • 如果选择 Q 2 ∗ Q_2^* Q2,则:

    • P ( x ) P(x) P(x) 较大的时候 Q ( x ) Q(x) Q(x) 也必须较大 。如果 P ( x ) P(x) P(x) 较大时 Q ( x ) Q(x) Q(x) 较小,则 P ( x ) log ⁡ Q ( x ) P ( x ) P(x)\log\frac {Q(x)}{P(x)} P(x)logP(x)Q(x) 较大。
    • P ( x ) P(x) P(x) 较小的时候 Q ( x ) Q(x) Q(x) 可以较大,也可以较小。
      因此 Q 2 ∗ Q_2^* Q2 会贴近 P ( x ) P(x) P(x) 的谷值。最终结果就是 Q 2 ∗ Q_2^* Q2 会贴合 P ( x ) P(x) P(x) 峰值的任何一个。
      统计篇(二)-- 概率论、随机过程、信息论知识汇总_第7张图片
  • 绝大多数场合使用 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q),原因是:当用分布 Q 拟合 P 时我们希望对于常见的事件,二者概率相差不大。


8 其它

  1. 假设随机变量 X , Y X,Y X,Y 满足 Y = g ( X ) Y=g(X) Y=g(X),且函数 g ( ⋅ ) g(\cdot) g() 满足:处处连续、可导、且存在反函数。 则有:
    p X ( x ) = p Y ( g ( x ) ) ∣ ∂ g ( x ) ∂ x ∣ (8-1) p_X(x)=p_Y(g(x)) \left|\frac{\partial g(x)}{\partial x}\right|\tag{8-1} pX(x)=pY(g(x)) xg(x) (8-1)
    或者等价地(其中 g − 1 ( ⋅ ) g^{-1}(\cdot) g1() 为反函数):
    p Y ( y ) = p X ( g − 1 ( y ) ) ∣ ∂ x ∂ y ∣ (8-2) p_Y(y)=p_X(g^{-1}(y)) \left|\frac{\partial x}{\partial y}\right|\tag{8-2} pY(y)=pX(g1(y)) yx (8-2)
  • 如果扩展到高维空间,则有:
    p X ( x ⃗ ) = p Y ( g ( x ⃗ ) ) ∣ det ⁡ ( ∂ g ( x ⃗ ) ∂ x ⃗ ) ∣ (8-3) p_X(\mathbf{\vec x})=p_Y(g(\mathbf{\vec x})) \left|\det\left(\frac{\partial g(\mathbf{\vec x})}{\partial \mathbf{\vec x}}\right)\right|\tag{8-3} pX(x )=pY(g(x )) det(x g(x )) (8-3)
  • 并不是 p Y ( y ) = p X ( g − 1 ( y ) ) p_Y(y)=p_X(g^{-1}(y)) pY(y)=pX(g1(y)),这是因为 g ( ⋅ ) g(\cdot) g() 引起了空间扭曲,从而导致 ∫ p X ( g ( x ) ) d x ≠ 1 \int p_X(g(x))dx \neq 1 pX(g(x))dx=1
    根据 ∣ p Y ( g ( x ) ) d y ∣ = ∣ p X ( x ) d x ∣ |p_Y(g(x))dy|=|p_X(x)dx| pY(g(x))dy=pX(x)dx,求解该方程,即得到上述解。
  1. 机器学习中不确定性有三个来源:
  • 模型本身固有的随机性。如:量子力学中的粒子动力学方程。
  • 不完全的观测。即使是确定性系统,当无法观测所有驱动变量时,结果也是随机的。
  • 不完全建模。有时必须放弃一些观测信息。
    如机器人建模中:虽然可以精确观察机器人周围每个对象的位置,但在预测这些对象将来的位置时,对空间进行了离散化。则位置预测将带有不确定性。

你可能感兴趣的:(数学基础,数学统计,随机过程,高斯过程,马尔科夫过程)