二维正态随机变量 ( X , Y ) (X,Y) (X,Y) 的概率密度为:
p ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp { − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 ) 2 σ 1 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 ) 2 σ 2 2 ] } (4-2) p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x-\mu_1)^{2}}{\sigma_1^{2}}\\ -2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^{2}}{\sigma_2^{2}}]\}\tag{4-2} p(x,y)=2πσ1σ21−ρ21exp{2(1−ρ2)−1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}(4-2)
根据定义,可以计算出:
p X ( x ) = 1 2 π σ 1 e − ( x − μ 1 ) 2 / ( 2 σ 1 2 ) , − ∞ < x < ∞ p Y ( y ) = 1 2 π σ 2 e − ( y − μ 2 ) 2 / ( 2 σ 2 2 ) , − ∞ < y < ∞ E [ X ] = μ 1 E [ Y ] = μ 2 V a r [ X ] = σ 1 2 V a r [ Y ] = σ 2 2 C o v [ X , Y ] = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − μ 1 ) ( y − μ 2 ) p ( x , y ) d x d y = ρ σ 1 σ 2 ρ X Y = ρ (4-3) p_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[X] =\mu_1 \\ \mathbb E[Y] =\mu_2 \\ Var[X] =\sigma_1^{2} \\ Var[Y]=\sigma_2^{2}\\ Cov[X,Y]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{XY}=\rho\tag{4-3} pX(x)=2πσ11e−(x−μ1)2/(2σ12),−∞<x<∞pY(y)=2πσ21e−(y−μ2)2/(2σ22),−∞<y<∞E[X]=μ1E[Y]=μ2Var[X]=σ12Var[Y]=σ22Cov[X,Y]=∫−∞∞∫−∞∞(x−μ1)(y−μ2)p(x,y)dxdy=ρσ1σ2ρXY=ρ(4-3)
引入矩阵:
x ⃗ = [ x y ] μ ⃗ = [ μ 1 μ 2 ] Σ = [ c 11 c 12 c 21 c 22 ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] (4-4) \mathbf{\vec x}=\begin{bmatrix} x \\ y \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\quad \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix}\tag{4-4} x=[xy]μ=[μ1μ2]Σ=[c11c21c12c22]=[σ12ρσ1σ2ρσ1σ2σ22](4-4)
Σ \mathbf{\Sigma} Σ 为 ( X , Y ) (X,Y) (X,Y) 的协方差矩阵。其行列式为 det Σ = σ 1 2 σ 2 2 ( 1 − ρ 2 ) \det \mathbf{\Sigma} =\sigma_1^{2}\sigma_2^{2}(1-\rho^{2}) detΣ=σ12σ22(1−ρ2),其逆矩阵为:
Σ − 1 = 1 det Σ [ σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ] (4-5) \mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix}\tag{4-5} Σ−1=detΣ1[σ22−ρσ1σ2−ρσ1σ2σ12](4-5)
于是 ( X , Y ) (X,Y) (X,Y) 的概率密度函数可以写作 ( x ⃗ − μ ⃗ ) T ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} (x−μ)T 表示矩阵的转置:
p ( x , x ) = 1 ( 2 π ) ( det Σ ) 1 / 2 exp { − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) } (4-6) p(x,x)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-6} p(x,x)=(2π)(detΣ)1/21exp{−21(x−μ)TΣ−1(x−μ)}(4-6)
其中:
ρ = 0 \rho=0 ρ=0 时,协方差矩阵对角线非零,其他位置均为零。此时表示随机变量之间不相关。
此时的联合分布概率函数形状如下图所示,曲面在 z = 0 z=0 z=0 平面的截面是个圆形:
ρ = 0.5 \rho=0.5 ρ=0.5 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。
此时的联合分布概率函数形状如下图所示,曲面在 z = 0 z=0 z=0 平面的截面是个椭圆,相当于圆形沿着直线 y = x y=x y=x 方向压缩 :
ρ = 1 \rho=1 ρ=1 时,协方差矩阵对角线非零,其他位置非零。
此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 z = 0 z=0 z=0 平面的截面是直线 y = x y=x y=x,相当于圆形沿着直线 y = x y=x y=x 方向压缩成一条直线 。
由于 ρ = 1 \rho=1 ρ=1 会导致除数为 0,因此这里给出 ρ = 0.9 \rho=0.9 ρ=0.9:
多维正态随机变量 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn),引入列矩阵:
x ⃗ = [ x 1 x 2 ⋮ x n ] μ ⃗ = [ μ 1 μ 2 ⋮ μ n ] = [ E [ X 1 ] E [ X 2 ] ⋮ E [ X n ] ] (4-7) \mathbf{\vec x}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[X_1] \\ \mathbb E[X_2] \\ \vdots\\ \mathbb E[X_n] \end{bmatrix}\tag{4-7} x=⎣ ⎡x1x2⋮xn⎦ ⎤μ=⎣ ⎡μ1μ2⋮μn⎦ ⎤=⎣ ⎡E[X1]E[X2]⋮E[Xn]⎦ ⎤(4-7)
Σ \pmb{\Sigma} ΣΣ 为 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 的协方差矩阵。则:
p ( x 1 , x 2 , x 3 , ⋯ , x n ) = 1 ( 2 π ) n / 2 ( det Σ ) 1 / 2 exp { − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) } (4-8) p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec x}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-8} p(x1,x2,x3,⋯,xn)=(2π)n/2(detΣ)1/21exp{−21(x−μ)TΣ−1(x−μ)}(4-8)
记做 : N ( x ⃗ ; μ ⃗ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) exp ( − 1 2 ( x ⃗ − μ ⃗ ) T Σ − 1 ( x ⃗ − μ ⃗ ) ) \mathcal N(\mathbf{\vec x};\mathbf{\vec \mu},\mathbf\Sigma) =\sqrt{\frac{1}{(2\pi)^{n}det(\mathbf\Sigma)}}\exp\left(-\frac 12(\mathbf{\vec x-\vec \mu})^{T}\mathbf\Sigma^{-1}(\mathbf{\vec x-\vec \mu})\right) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))。
n n n 维正态变量具有下列四条性质:
更多常见概率分布,请阅读:统计学中常用的分布族
假设苹果尺寸的先验概率分布为狄利克雷分布: D i r ( μ ⃗ ; α ⃗ ) = Γ ( ∑ k = 1 K α k ) ∑ k = 1 K Γ ( α k ) ∏ k = 1 K μ k α k − 1 Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1} Dir(μ;α)=∑k=1KΓ(αk)Γ(∑k=1Kαk)∏k=1Kμkαk−1。
苹果尺寸的先验概率分布的期望为: E [ μ ⃗ ] = ( α 1 ∑ k = 1 K α k , α 2 ∑ k = 1 K α k , ⋯ , α K ∑ k = 1 K α k ) \mathbb E[\vec\mu]=\left(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k}\right) E[μ]=(∑k=1Kαkα1,∑k=1Kαkα2,⋯,∑k=1KαkαK)。
则苹果尺寸的后验概率分布也为狄里克雷分布: D i r ( μ ⃗ ; α ⃗ + m ⃗ ) = Γ ( N + ∑ k = 1 K α k ) ∑ k = 1 K Γ ( α k + m k ) ∏ k = 1 K μ k α k + m k − 1 Dir(\vec\mu;\vec\alpha+\mathbf{\vec m})=\frac{\Gamma(N+\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k+m_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1} Dir(μ;α+m)=∑k=1KΓ(αk+mk)Γ(N+∑k=1Kαk)∏k=1Kμkαk+mk−1。
苹果尺寸的后验概率分布的期望为: E [ μ ⃗ ] = ( α 1 + m 1 N + ∑ k = 1 K α k , α 2 + m 2 N + ∑ k = 1 K α k , ⋯ , α K + m K N + ∑ k = 1 K α k ) \mathbb E[\vec\mu]=\left(\frac{\alpha_1+m_1}{N+\sum_{k=1}^K\alpha_k},\frac{\alpha_2+m_2}{N+\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K+m_K}{N+\sum_{k=1}^K\alpha_k}\right) E[μ]=(N+∑k=1Kαkα1+m1,N+∑k=1Kαkα2+m2,⋯,N+∑k=1KαkαK+mK)
随机过程(Stochastic Process)是一组随机变量 X t X_t Xt 的集合,其中 t t t 属于一个索引(index)集合 T \mathcal{T} T。索引集合 T \mathcal{T} T 可以定义在时间域或者空间域,但一般为时间域,以实数或正数表示。当 t t t 为实数时,随机过程为连续随机过程;当 t t t 为整数时,为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括伯努利过程、随机游走(Random Walk)、马尔可夫过程等。和空间相关的随机过程通常称为随机场(Random Field)。比如一张二维的图片,每个像素点(变量)通过空间的位置进行索引,这些像素就组成了一个随机过程。
马尔可夫性质在随机过程中,马尔可夫性质(Markov Property)是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。以离散随机过程为例,假设随机变量 X 0 , X 1 , ⋯ , X T X_0,X_1,\cdots,X_T X0,X1,⋯,XT 构成一个随机过程。这些随机变量的所有可能取值的集合被称为状态空间(State Space)。如果 X t + 1 X_{t+1} Xt+1 对于过去状态的条件概率分布仅是 X t X_t Xt 的一个函数,则
P ( X t + 1 = x t + 1 ∣ X 0 : t = x 0 : t ) = P ( X t + 1 = x t + 1 ∣ X t = x t ) (6-1) P(X_{t+1}=x_{t+1}|X_{0:t}=x_{0:t})=P(X_{t+1}=x_{t+1}|X_{t}=x_{t})\tag{6-1} P(Xt+1=xt+1∣X0:t=x0:t)=P(Xt+1=xt+1∣Xt=xt)(6-1)
其中 X 0 : t X_{0:t} X0:t 表示变量集合 X 0 , X 1 , ⋯ , X T X_0,X_1,\cdots,X_T X0,X1,⋯,XT; x 0 : t x_{0:t} x0:t 为在状态空间中的状态序列。
马尔可夫性质也可以描述为给定当前状态时,将来的状态与过去状态是条件独立的。
离散时间的马尔可夫过程也称为马尔可夫链(Markov Chain)。如果一个马尔可夫链的条件概率
P ( X t + 1 = s ∣ X t = s ′ ) = m s s ′ (6-2) P(X_{t+1}=s|X_{t}=s')=m_{ss'}\tag{6-2} P(Xt+1=s∣Xt=s′)=mss′(6-2)
只和状态 s s s 和 s ′ s' s′ 相关, 和时间 t t t 无关, 则称为时间同质的马尔可夫链(Time Homogeneous Markov Chain),其中 m s s ′ m_{ss'} mss′ 称为状态转移概率。如果状态空间大小 K 是有限的,状态转移概率可以用一个矩阵 ∈ R K × K \in \mathbb{R}^{K\times K} M∈RK×K 表示,称为状态转移矩阵(Transition Matrix),其中元素 m i j m_{ij} mij 表示状态 s i s_i si 转移到状态 s j s_j sj 的概率。
假设状态空间大小为 K,向量 π = [ π 1 , ⋯ , π K ] T \pmb{\pi} = [\pi_1,\cdots,\pi_K]^T ππ=[π1,⋯,πK]T 为状态空间中的一个分布,满足 0 ≤ π k ≤ 1 0 ≤ \pi_k ≤ 1 0≤πk≤1 和 ∑ k = 1 K π k = 1 \sum_{k=1}^{K}\pi_k=1 ∑k=1Kπk=1。
对于状态转移矩阵为 M \pmb{M} MM 的时间同质的马尔可夫链,如果存在一个分布 π \pi π 满足
π = M π (6-3) \pmb{\pi}=\pmb{M\pi}\tag{6-3} ππ=MπMπ(6-3)
即分布 π \pmb{\pi} ππ 就称为该马尔可夫链的平稳分布(Stationary Distribution)。根据特征向量的定义可知, π \pmb{\pi} ππ 为矩阵 M \pmb{M} MM 的(归一化)的对应特征值为1 的特征向量。
如果一个马尔可夫链的状态转移矩阵 M \pmb{M} MM 满足所有状态可遍历性以及非周期性,那么对于任意一个初始状态分布 π 0 \pmb{\pi}^0 ππ0,在经过一定时间的状态转移之后,都会收敛到平稳分布,即
π = lim N → ∞ M N π ( 0 ) (6-4) \pmb{\pi}= \lim_{N\to\infty}\pmb{M}^N\pmb{\pi}^{(0)}\tag{6-4} ππ=N→∞limMMNππ(0)(6-4)
高斯过程(Gaussian Process)也是一种应用广泛的随机过程模型。假设有一组连续随机变量 X 0 , X 1 , ⋯ , X T X_0,X_1,\cdots,X_T X0,X1,⋯,XT,如果由这组随机变量构成的任一有限集合
X t 1 , ⋯ , t N = [ X t 1 , ⋯ , X t N ] T , 1 ≤ N ≤ T (6-5) X_{t_1,\cdots,t_N}=[X_{t_1},\cdots,X_{t_N}]^T,1\leq N \leq T\tag{6-5} Xt1,⋯,tN=[Xt1,⋯,XtN]T,1≤N≤T(6-5)
都服从一个多元正态分布,那么这组随机变量为一个随机过程。高斯过程也可以定义为:如果 X t 1 , ⋯ , X t N X_{t_1},\cdots,X_{t_N} Xt1,⋯,XtN 的任一线性组合都服从一元正态分布,那么这组随机变量为一个随机过程。
高斯过程回归(Gaussian Process Regression)是利用高斯过程来对一个函数分布进行建模。和机器学习中参数化建模(比如贝叶斯线性回归)相比,高斯过程是一种非参数模型,可以拟合一个黑盒函数,并给出拟合结果的置信度。
假设一个未知函数 f ( x ) f(\pmb{x}) f(xx) 服从高斯过程,且为平滑函数。如果两个样本 x 1 , x 2 \pmb{x}_1,\pmb{x}_2 xx1,xx2 比较接近,那么对应的 f ( x , x 2 ) f(\pmb{x}, \pmb{x}_2) f(xx,xx2) 也比较接近。假设从函数 ( x ) (\pmb{x}) f(xx) 中采样有限个样本 X = [ x 1 , x 2 , ⋯ , x N ] \pmb{X}= [\pmb{x}_1, \pmb{x}_2, \cdots,\pmb{x}_N] XX=[xx1,xx2,⋯,xxN],这 N N N 个点服从一个多元正态分布,
[ f ( x 1 ) , f ( x 2 ) , ⋯ , f ( x N ) ] T ∼ N ( μ ( X ) , K ( X , X ) ) (6-6) [f(\pmb{x}_1), f(\pmb{x}_2), \cdots,f(\pmb{x}_N)]^T\sim N(\mu(X),K(X,X))\tag{6-6} [f(xx1),f(xx2),⋯,f(xxN)]T∼N(μ(X),K(X,X))(6-6)
其中 μ ( X ) = [ μ ( x 1 ) , μ ( x 2 ) , ⋯ , μ ( x N ) ] T \pmb{\mu}(\pmb{X}) = [\mu_{(\boldsymbol{x}_1)}, \mu_{(\boldsymbol{x}_2)},\cdots,\mu_{(\boldsymbol{x}_N)}]^T μμ(XX)=[μ(x1),μ(x2),⋯,μ(xN)]T 是均值向量, K ( X , X ) = [ k ( x i , x j ) ] N × N \pmb{K}(\pmb{X}, \pmb{X}) = [k(\pmb{x}_i, \pmb{x}_j)]_{N\times N} KK(XX,XX)=[k(xxi,xxj)]N×N 是协方差矩阵, k ( x i , x j ) k(\pmb{x}_i, \pmb{x}_j) k(xxi,xxj) 为核函数,可以衡量两个样本的相似度。
在高斯过程回归中,一个常用的核函数是平方指数(Squared Exponential)函数
k ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 l 2 ) (6-7) k(\pmb{x}_i, \pmb{x}_j)=exp(\dfrac{-||\pmb{x}_i-\pmb{x}_j||^2}{2l^2})\tag{6-7} k(xxi,xxj)=exp(2l2−∣∣xxi−xxj∣∣2)(6-7)
其中 l l l 为超参数。当 x i \pmb{x}_i xxi 和 x j \pmb{x}_j xxj 越接近,其核函数的值越大,表明 f ( x i ) f(\pmb{x}_i) f(xxi) 和 f ( x j ) f(\pmb{x}_j) f(xxj) 越相关。
假设 f ( x ) f(\pmb{x}) f(xx) 的一组带噪声的观测值为 { ( x n , y n ) } n = 1 N \{(\pmb{x}_n,y_n)\}_{n=1}^{N} {(xxn,yn)}n=1N,其中 y n ∼ N ( f ( x n , σ 2 ) y_n\sim N(f(\pmb{x}_n,\sigma^2) yn∼N(f(xxn,σ2) 为 f ( x n ) f(\pmb{x}_n) f(xxn) 的观测值,服从正态分布, σ 2 \sigma^2 σ2 为噪声方差。
对于一个新的样本点 x ∗ \pmb{x}^* xx∗,我们希望预测 f ( x ∗ ) f(\pmb{x}^*) f(xx∗) 的观测值 y ∗ y^* y∗。令向量 = [ y 1 , y 2 , ⋯ , y N ] T =[y_1,y_2,\cdots,y_N]^T y=[y1,y2,⋯,yN]T 为已有的观测值,根据高斯过程的假设, [ y ; y ∗ ] [\pmb{y}; y^*] [yy;y∗] 满足
[ y y ∗ ] ∼ ( [ μ ( X ) μ ( x ∗ ) ] , [ K ( X , X ) + σ 2 I K ( x ∗ , X ) T K ( x ∗ , X ) k ( x ∗ , x ∗ ) ] ) (6-8) \begin{bmatrix} \pmb{y} \\y^*\end{bmatrix}\sim \left(\begin{bmatrix} \pmb{\mu}(\pmb{X}) \\\mu(\pmb{x}^*)\end{bmatrix},\begin{bmatrix} \pmb{K}(\pmb{X},\pmb{X})+\sigma^2\pmb{I} & \pmb{K}(\pmb{x}^*, \pmb{X})^T \\\pmb{K}(\pmb{x}^*, \pmb{X}) & k(\pmb{x}^*,\pmb{x}^*)\end{bmatrix} \right) \tag{6-8} [yyy∗]∼([μμ(XX)μ(xx∗)],[KK(XX,XX)+σ2IIKK(xx∗,XX)KK(xx∗,XX)Tk(xx∗,xx∗)])(6-8)
其中 K ( x ∗ , X ) = [ k ( x ∗ , x 1 ) , ⋯ , k ( x ∗ , x n ) ] \pmb{K}(\pmb{x}^*, \pmb{X})=[k(\pmb{x}^*,\pmb{x}_1),\cdots,k(\pmb{x}^*,\pmb{x}_n)] KK(xx∗,XX)=[k(xx∗,xx1),⋯,k(xx∗,xxn)]
根据上面的联合分布, y ∗ y^* y∗ 的后验分布为
p ( y ∗ ∣ X , y ) = N ( μ ^ , σ ^ 2 ) (6-9) p(y^*|\pmb{X},\pmb{y})=N(\hat{\mu},\hat{\sigma}^2)\tag{6-9} p(y∗∣XX,yy)=N(μ^,σ^2)(6-9)
其中均值 μ ^ \hat{\mu} μ^ 和方差 σ ^ \hat{\sigma} σ^ 为
μ ^ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 ( y − μ ( X ) ) + μ ( x ∗ ) σ ^ 2 = k ( x ∗ , x ∗ ) − K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( x ∗ , X ) T (6-10) \hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}(\pmb{y}-\pmb{\mu}(\pmb{X}))+\mu(\pmb{x}^*)\\ \hat{\sigma}^2=k(\pmb{x}^*,\pmb{x}^*)-\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{K}(\pmb{x}^*, \pmb{X})^T\tag{6-10} μ^=KK(xx∗,XX)(KK(XX,XX)+σ2II)−1(yy−μμ(XX))+μ(xx∗)σ^2=k(xx∗,xx∗)−KK(xx∗,XX)(KK(XX,XX)+σ2II)−1KK(xx∗,XX)T(6-10)
从公式可以看出,均值函数 μ ( x ) \pmb{\mu}(\pmb{x}) μμ(xx) 可以近似地互相抵消。在实际应用中,一般假设 μ ( x ) = 0 \mu(\pmb{x})=0 μ(xx)=0,均值 μ ^ \hat{\mu} μ^ 可以将简化为
μ ^ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 y (6-11) \hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{y}\tag{6-11} μ^=KK(xx∗,XX)(KK(XX,XX)+σ2II)−1yy(6-11)
高斯过程回归可以认为是一种有效的贝叶斯优化方法,广泛地应用于机器学习中。
self-information
为: I ( x ) = − log P ( x ) I(x)=-\log P(x) I(x)=−logP(x)。bit
;当底为 e e e 时,自信息的单位为nat
。(A,B,C,D)
的样本集中,真实分布 P = ( 1 2 , 1 2 , 0 , 0 ) P=(\frac{1}{2}, \frac{1}{2}, 0, 0) P=(21,21,0,0),则只需要1位编码即可识别样本。KL
散度(也称作相对熵):对于给定的随机变量 X X X,它的两个概率分布函数 P ( X ) P(X) P(X) 和 Q ( X ) Q(X) Q(X) 的区别可以用KL
散度来度量:KL
散度非负:当它为 0 时,当且仅当P
和Q
是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。KL
散度不对称: D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P||Q) \neq D_{KL}(Q||P) DKL(P∣∣Q)=DKL(Q∣∣P)。KL
散度不满足对称性的原因。cross-entropy
: H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E X ∼ P ( X ) log Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{X\sim P(X)}\log Q(x) H(P,Q)=H(P)+DKL(P∣∣Q)=−EX∼P(X)logQ(x)。交叉熵刻画了使用错误分布 Q 来表示真实分布 P 中的样本的平均编码长度。
D K L ( P ∣ ∣ Q ) D_{KL(P||Q)} DKL(P∣∣Q) 刻画了错误分布 Q 编码真实分布 P 带来的平均编码长度的增量。
示例:假设真实分布 P 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 Q 来近似 P,则有两种方案
Q 1 ∗ = arg min Q D K L ( P ∣ ∣ Q ) Q 2 ∗ = arg min Q D K L ( Q ∣ ∣ P ) (7-5) Q_1^* = \arg\min _Q D_{KL}(P||Q)\\ Q_2^* = \arg\min _Q D_{KL}(Q||P)\tag{7-5} Q1∗=argQminDKL(P∣∣Q)Q2∗=argQminDKL(Q∣∣P)(7-5)
如果选择 Q 1 ∗ Q_1^* Q1∗,则:
如果选择 Q 2 ∗ Q_2^* Q2∗,则:
绝大多数场合使用 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q),原因是:当用分布 Q 拟合 P 时我们希望对于常见的事件,二者概率相差不大。