相比于传统获取后验分布模型,高斯过程考虑到 y N y_N yN与 y N + 1 y_{N+1} yN+1的关系即:
p ( y N + 1 ∣ X N + 1 , y N ) \begin{align} p\left(y_{N+1} \mid X_{N+1}, y_{N}\right) \end{align} p(yN+1∣XN+1,yN)
高斯过程通过假设 Y Y Y服从联合正态分布来考虑 y N y_N yN和 y N + 1 y_{N+1} yN+1之间的关系:
[ y 1 y 2 … y n ] ∼ N ( 0 , [ k ( x 1 , x 1 ) , k ( x 1 , x 2 ) , … , k ( x 1 , x n ) k ( x 2 , x 1 ) , k ( x 2 , x 2 ) , … , k ( x 2 , x n ) … k ( x n , x 1 ) , k ( x n , x 2 ) , … , k ( x n , x n ) ] ) \begin{align} \left[\begin{array}{c} y_{1} \\ y_{2} \\ \ldots \\ y_{n} \end{array}\right] \sim N\left(\mathbf{0},\left[\begin{array}{c} k\left(x_{1}, x_{1}\right), k\left(x_{1}, x_{2}\right), \ldots, k\left(x_{1}, x_{n}\right) \\ k\left(x_{2}, x_{1}\right), k\left(x_{2}, x_{2}\right), \ldots, k\left(x_{2}, x_{n}\right) \\ \ldots \\ k\left(x_{n}, x_{1}\right), k\left(x_{n}, x_{2}\right), \ldots, k\left(x_{n}, x_{n}\right) \end{array}\right]\right) \end{align} ⎣ ⎡y1y2…yn⎦ ⎤∼N⎝ ⎛0,⎣ ⎡k(x1,x1),k(x1,x2),…,k(x1,xn)k(x2,x1),k(x2,x2),…,k(x2,xn)…k(xn,x1),k(xn,x2),…,k(xn,xn)⎦ ⎤⎠ ⎞
其中协方差矩阵为核矩阵,仅与特征 x x x有关。将 Y Y Y服从高维高斯分布作为先验条件,根据训练集得到最优核矩阵,从而得到后验分布:
p ( y ∗ ∣ y ∼ N ( K ∗ K − 1 y , K ∗ ∗ − K ∗ K − 1 K ∗ T ) \begin{align} p\left(y_{*} \mid \mathbf{y} \sim N\left(K_{*} K^{-1} \mathbf{y}, K_{* *}-K_{*} K^{-1} K_{*}^{T}\right)\right. \end{align} p(y∗∣y∼N(K∗K−1y,K∗∗−K∗K−1K∗T)
通过高斯过程回归对目标函数建模,得到其后验分布后,需要抽样进行样本计算,而贝叶斯优化很容易在局部最优解上不断采样,为了保证开发和探索之间的权衡。需要使用Acquisition Function寻求下一个 x x x的函数。其中POI函数是一种主流的选择方式:
POI ( X ) = P ( f ( X ) ≥ f ( X + ) + ξ ) = Φ ( μ ( x ) − f ( X + ) − ξ σ ( x ) ) \operatorname{POI}(X)=P\left(f(X) \geq f\left(X^{+}\right)+\xi\right)=\Phi\left(\frac{\mu(x)-f\left(X^{+}\right)-\xi}{\sigma(x)}\right) POI(X)=P(f(X)≥f(X+)+ξ)=Φ(σ(x)μ(x)−f(X+)−ξ)
其中 f ( X ) f(X) f(X)为 X X X的目标函数值, f ( X + ) f(X^{+}) f(X+)为当前目标函数最优值, u ( x ) , σ ( x ) u\left( x \right) ,\sigma \left( x \right) u(x),σ(x)分别为高斯过程所得到的目标函数的均值和方差。贝叶斯优化即不断尝试新的 X X X使得 P O I ( X ) POI(X) POI(X)最大