机器学习——高斯过程

高斯过程

所谓高斯,即高斯分布
所谓过程,即随机过程

高斯分布

一维高斯

p ( x ) = N ( μ , σ 2 ) p(x)=N(\mu, \sigma^2) p(x)=N(μ,σ2)

高维高斯

多元高斯分布——高斯网络 x ∈ R p x\in \mathbb{R}^p xRp
p ( x ) = N ( μ , Σ ) , Σ p × p , p < inf ⁡ p(x)=N(\mu,\Sigma),\Sigma_{p\times p},p<\inf p(x)=N(μ,Σ),Σp×p,p<inf

无限维高斯分布

即高斯过程,定义在连续域(时间或者空间)上的无限多个高斯随机变量所组成的随机过程
假设有一个连续域 T T T,对于任意正整数 n n n,有 t 1 , . . . , t n ∈ T t_1,...,t_n \in T t1,...,tnT,且满足条件
[ ξ t 1 ⋮ ξ t n ] ∼ N ( μ t 1 − t n , Σ t 1 − t n ) \left[ \begin{array}{c}{\xi_{t_{1}}} \\ {\vdots} \\ {\xi_{t_{n}}}\end{array}\right] \sim N(\mu_{t_1-t_n},\Sigma_{t_1-t_n}) ξt1ξtnN(μt1tn,Σt1tn) { ξ t } t ∈ T \{\xi_t\}_{t\in T} {ξt}tT 就是一个高斯过程。

则一个高斯过程可以表示为
G P ( m ( t ) , k ( s , t ) ) GP(m(t),k(s,t)) GP(m(t),k(s,t))其中 m ( t ) = E [ ξ t ] m(t)=E[\xi_t] m(t)=E[ξt]为均值函数, k ( s , t ) = E [ ξ s − E [ ξ s ] ] [ ξ t − E [ ξ t ] ] k(s,t)=E[\xi_s-E[\xi_s]][\xi_t-E[\xi_t]] k(s,t)=E[ξsE[ξs]][ξtE[ξt]]为协方差函数

高斯过程回归

贝叶斯线性回归(权重空间视角)

线性回归
使用核函数就可以用于非线性
贝叶斯线性回归加上核方法(非线性转换内积)也就是高斯过程回归 { f ( x ) = ϕ T ( x ) w y = f ( x ) + ε \left\{\begin{array}{l}{f(x)=\phi^T (x)w} \\ {y=f(x)+\varepsilon}\end{array}\right. {f(x)=ϕT(x)wy=f(x)+ε这是从权重空间的角度来看

函数空间视角

f ( x ) ∼ G P ( m ( x ) , k ( x , x ′ ) ) f(x) \sim GP(m(x),k(x,x')) f(x)GP(m(x),k(x,x))

  1. f(x) 是函数
  2. f(x)是高斯分布
    与之前的定义对应关系就是
    t → ξ t , { ξ t } t ∈ T ∼ G P t \rightarrow \xi_t,\{\xi_t\}_{t\in T}\sim GP tξt,{ξt}tTGP x → f ( x ) , { f ( x ) } x ∈ R p ∼ G P x \rightarrow f(x),\{f(x)\}_{x\in \mathbb{R}^p}\sim GP xf(x),{f(x)}xRpGP

回归问题:
Data: { ( x i , y i ) } i = 1 N , y = f ( x ) + ϵ \{(x_i,y_i)\}_{i=1}^N,y=f(x)+\epsilon {(xi,yi)}i=1N,y=f(x)+ϵ
定义 X N × p = ( x 1 , . . . , x N ) T , Y N × 1 = ( y 1 , . . . , y N ) T X_{N\times p}=(x_1,...,x_N)^T,Y_{N\times 1}=(y_1,...,y_N)^T XN×p=(x1,...,xN)T,YN×1=(y1,...,yN)T
f ( X ) ∼ N ( μ ( X ) , K ( X , X ) ) f(X)\sim N(\mu(X),K(X,X)) f(X)N(μ(X),K(X,X))
Y = f ( X ) + ϵ ∼ N ( μ ( X ) , K ( X , X ) + σ 2 I ) Y=f(X)+\epsilon \sim N(\mu(X),K(X,X)+\sigma^2I) Y=f(X)+ϵN(μ(X),K(X,X)+σ2I)
需要预测的数据为 X ∗ X^* X,则 Y ∗ = f ( X ∗ ) + ϵ Y^*=f(X^*)+\epsilon Y=f(X)+ϵ

已知 x ∼ N ( μ , Σ ) x \sim N(\mu,\Sigma) xN(μ,Σ)
其中 x = ( x a x b ) , μ = ( μ a μ b ) , Σ = ( Σ a a Σ a b Σ b a Σ b b ) x = \left( \begin{array}{l} {x_a}\\ {x_b} \end{array} \right),\mu = \left( \begin{array}{l} {\mu _a}\\ {\mu _b} \end{array} \right),\Sigma= \left( \begin{array}{ll}{\Sigma_{aa}} & {\Sigma_{ab}} \\ {\Sigma_{ba}} & {\Sigma_{bb}}\end{array}\right) x=(xaxb),μ=(μaμb),Σ=(ΣaaΣbaΣabΣbb) x b ∣ x a ∼ N ( μ b ∣ a , Σ b ∣ a ) x_b|x_a \sim N(\mu_{b|a},\Sigma_{b|a}) xbxaN(μba,Σba)其中
μ b ∣ a = Σ b a Σ a a − 1 ( x a − μ a ) + μ b , Σ b ∣ a = Σ b b − Σ b a Σ a a − 1 Σ a b \mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b,\Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} μba=ΣbaΣaa1(xaμa)+μb,Σba=ΣbbΣbaΣaa1Σab

x a = Y , x b = f ( X ∗ ) x_a=Y,x_b=f(X^*) xa=Y,xb=f(X),所要求的的条件概率为 p ( f ( X ∗ ∣ Y , X , X ∗ ) ) p(f(X^*|Y,X,X^*)) p(f(XY,X,X)) p ( x b ∣ x a ) p(x_b|x_a) p(xbxa),带入公式可得 μ ∗ = K ( X ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 ( Y − μ ( X ) ) + μ ( X ∗ ) Σ ∗ = K ( X ∗ , X ∗ ) − K ( X ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( X , X ∗ ) {\mu ^*} = K\left( {{X^*},X} \right){\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}\left( {Y - \mu \left( X \right)} \right) + \mu \left( {{X^*}} \right) \\ \Sigma^*=K(X^*,X^*)-K(X^*,X) {\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}K(X,X^*) μ=K(X,X)(K(X,X)+σ2I)1(Yμ(X))+μ(X)Σ=K(X,X)K(X,X)(K(X,X)+σ2I)1K(X,X)因此 p ( f ( X ∗ ∣ Y , X , X ∗ ) ) = N ( μ ∗ , Σ ∗ ) p(f(X^*|Y,X,X^*))=N(\mu^*,\Sigma^*) p(f(XY,X,X))=N(μ,Σ) p ( Y ∗ ∣ Y , X , X ∗ ) = N ( μ ∗ , Σ ∗ + σ 2 I ) p(Y^*|Y,X,X^*)=N(\mu^*,\Sigma^*+\sigma^2I) p(YY,X,X)=N(μ,Σ+σ2I)

发现了一个易于理解的博客:https://blog.csdn.net/greenapple_shan/article/details/52402051

你可能感兴趣的:(机器学习)