机器学习笔记之贝叶斯线性回归(三)预测任务推导过程

机器学习笔记之贝叶斯线性回归——预测任务推导过程

  • 引言
    • 回顾:贝叶斯线性回归——推断任务
    • 预测任务
    • 贝叶斯线性回归小结

引言

上一节介绍了贝叶斯线性回归推断任务的推导过程,本节将介绍预测任务(Prediction)的推导过程

回顾:贝叶斯线性回归——推断任务

通过贝叶斯定理,关于后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)推断结果表示如下:
P ( W ∣ X ) \mathcal P(\mathcal W \mid \mathcal X) P(WX)表示关于模型参数 W \mathcal W W的先验概率,与 X \mathcal X X无关,因而省略。
P ( W ∣ D a t a ) = P ( Y ∣ W , X ) ⋅ P ( W ∣ X ) P ( Y ∣ X ) ∝ P ( Y ∣ W , X ) ⋅ P ( W ) \begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X)}{\mathcal P(\mathcal Y \mid \mathcal X)} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned} P(WData)=P(YX)P(YW,X)P(WX)P(YW,X)P(W)
其中,根据线性回归模型,得知似然 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)服从均值为 0 0 0,方差为 σ 2 \sigma^2 σ2的一维高斯分布
该高斯分布维度和标签 y ( i ) ( i = 1 , 2 , ⋯   , N ) \mathcal y^{(i)}(i=1,2,\cdots,N) y(i)(i=1,2,,N)的维度相同
需要注意的点:这个高斯分布是关于 Y \mathcal Y Y的条概率分布。
P ( Y ∣ W , X ) ∼ N ( Y ∣ W T X + μ , σ 2 ) μ = 0 \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal Y \mid \mathcal W^T\mathcal X + \mu,\sigma^2) \quad \mu = 0 P(YW,X)N(YWTX+μ,σ2)μ=0
P ( W ) \mathcal P(\mathcal W) P(W)模型参数 W \mathcal W W先验概率分布,这里假设 P ( W ) \mathcal P(\mathcal W) P(W)服从均值为0,协方差为 Σ p r i o r \Sigma_{prior} Σprior的高斯分布:
同上,这里的高斯分布是 p p p维高斯分布,和 W \mathcal W W的维度相同。
P ( W ) ∼ N ( 0 , Σ p r i o r ) \mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior}) P(W)N(0,Σprior)
因而基于高斯分布的自共轭性质,后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)同样服从高斯分布。这里定义 P ( W ∣ D a t a ) ∼ N ( μ W , Σ W ) \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) P(WData)N(μW,ΣW)并表示如下:
详见指数族分布介绍中的指数族分布共轭性质。
P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)也可以写成 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y).
N ( μ W , Σ W ) ∝ N ( W T X , σ 2 ) ⋅ N ( 0 , Σ p r i o r ) \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior}) N(μW,ΣW)N(WTX,σ2)N(0,Σprior)
通过推断,得到 μ W , Σ W \mu_{\mathcal W},\Sigma_{\mathcal W} μW,ΣW表示如下:
{ μ W = 1 σ 2 ( A − 1 X Y ) Σ W = A − 1 A = [ 1 σ 2 X T X + Σ p r i o r − 1 ] p × p \begin{cases} \mu_{\mathcal W} = \frac{1}{\sigma^2}\left(\mathcal A^{-1} \mathcal X\mathcal Y \right) \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \left[\frac{1}{\sigma^2}\mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right]_{p \times p} \end{cases} μW=σ21(A1XY)ΣW=A1A=[σ21XTX+Σprior1]p×p

预测任务

贝叶斯方法中,求解模型参数的概率分布只是一个中间步骤,最终目标是基于 W \mathcal W W概率分布 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y),给定 未知样本 x ^ \hat x x^,对它的 标签 y ^ \hat y y^ 进行预测
观察一下, P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y)已求解的条件下,未知样本 x ^ \hat x x^标签的预测过程:

  • 基于线性回归模型
    这里 x x x是’单个样本‘的宏观表示, y y y是单个标签的宏观表示。
    { f ( x ) = W T x = x T W = ∑ i = 1 p w i ⋅ x i y = f ( x ) + ϵ ϵ ∼ N ( 0 , σ 2 ) \begin{cases} f(\mathcal x) = \mathcal W^Tx = x^T\mathcal W = \sum_{i=1}^p w_i \cdot x_i\\ y = f(x) + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \end{cases} {f(x)=WTx=xTW=i=1pwixiy=f(x)+ϵϵN(0,σ2)
    其中这里的 W \mathcal W W表示 W \mathcal W W的后验概率分布 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y),是已经通过数据结合 D a t a Data Data学习好了的参数。
  • 未知样本 x ^ \hat x x^看做一个不含概率分布的向量,因而 x ^ T W {\hat x}^T \mathcal W x^TW概率分布表示如下:
    x ^ T W {\hat x}^T \mathcal W x^TW这种表示相当于给 W \mathcal W W乘了一个系数,相当于 x ^ T W {\hat x}^T \mathcal W x^TW W \mathcal W W之间存在线性关系。根据高斯分布的相关定理介绍,有:(常数 B \mathcal B B的方差是0)
    Y = A X + B → { μ Y = E P ( Y ) [ Y ] = A E P ( X ) [ X ] + B = A μ + B Σ Y = Var ( Y ) = Var ( A X ) = A Σ A T \mathcal Y = \mathcal A \mathcal X + \mathcal B \to \begin{cases} \mu_{\mathcal Y} = \mathbb E_{\mathcal P(\mathcal Y)}[\mathcal Y] = \mathcal A \mathbb E_{\mathcal P(\mathcal X)}[\mathcal X] + \mathcal B = \mathcal A \mu + \mathcal B \\ \Sigma_{\mathcal Y} = \text{Var}(\mathcal Y) = \text{Var}(\mathcal A\mathcal X) = \mathcal A\Sigma\mathcal A^T \end{cases} Y=AX+B{μY=EP(Y)[Y]=AEP(X)[X]+B=Aμ+BΣY=Var(Y)=Var(AX)=AΣAT
    这里将 x ^ T {\hat x}^T x^T看作 A ; B = 0 \mathcal A;\mathcal B = 0 A;B=0:
    由于 [ x ^ T ] 1 × p [ W ] p × 1 [{\hat x}^T]_{1 \times p}[\mathcal W]_{p \times 1} [x^T]1×p[W]p×1本身是一个实数(一维向量),因而对应分布同样是一维高斯分布。该分布仅仅是’无高斯分布噪声‘(noise-free)的分布结果。
    x ^ T W ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ ) \begin{aligned} {\hat x}^T \mathcal W & \sim \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x}) \end{aligned} x^TWN(x^TμW,x^TΣWx^)
  • x ^ \hat x x^对应标签 y ^ \hat y y^的概率分布表示如下:
    y ^ = x ^ T W + ϵ ϵ ∼ N ( 0 , σ 2 ) P ( y ^ ∣ D a t a , x ^ ) ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ ) + N ( 0 , σ 2 ) = N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ + σ 2 ) \begin{aligned} & \hat y = {\hat x}^T\mathcal W + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \\ & \begin{aligned} \mathcal P(\hat y \mid Data,\hat x) & \sim \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x}) + \mathcal N(0,\sigma^2) \\ & = \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x} + \sigma^2) \end{aligned} \end{aligned} y^=x^TW+ϵϵN(0,σ2)P(y^Data,x^)N(x^TμW,x^TΣWx^)+N(0,σ2)=N(x^TμW,x^TΣWx^+σ2)
    至此,关于样本 x ^ \hat x x^预测标签 y ^ \hat y y^的概率分布求解完毕。

贝叶斯线性回归小结

使用贝叶斯方法求解线性回归,它主要分为两大步骤:

  • 模型参数 W \mathcal W W的推断过程。即基于数据集合 D a t a Data Data,求解 W \mathcal W W后验概率分布(Psoterior):
    这里先验概率分布 P ( W ) \mathcal P(\mathcal W) P(W)给定一个均值为0的高斯分布。
    P ( W ∣ D a t a ) ∝ P ( Y ∣ W , X ) ⋅ P ( W ) ∼ N ( μ W , Σ W ) \begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \\ & \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \end{aligned} P(WData)P(YW,X)P(W)N(μW,ΣW)
  • 基于已求解的关于 W \mathcal W W的后验分布,给定未知样本 x ^ \hat x x^,对标签 y ^ \hat y y^的概率分布进行预测:
    将训练好的(已求解的) W \mathcal W W带入 x ^ \hat x x^进行预测。
    P ( y ^ ∣ D a t a , x ^ ) = ∫ W ∣ D a t a P ( W ∣ D a t a ) ⋅ P ( y ^ ∣ W , D a t a , x ^ ) d W = E W ∣ D a t a [ P ( y ^ ∣ W , D a t a , x ^ ) ] \begin{aligned} \mathcal P(\hat y \mid Data,\hat x) & = \int_{\mathcal W \mid Data} \mathcal P(\mathcal W \mid Data) \cdot \mathcal P(\hat y \mid \mathcal W,Data,\hat x) d\mathcal W \\ & = \mathbb E_{\mathcal W \mid Data} \left[P(\hat y \mid \mathcal W,Data,\hat x)\right] \end{aligned} P(y^Data,x^)=WDataP(WData)P(y^W,Data,x^)dW=EWData[P(y^W,Data,x^)]

至此,贝叶斯线性回归介绍结束。

相关参考:
机器学习-贝叶斯线性回归(4)-推导Prediction
机器学习-贝叶斯线性回归(4)-小结

你可能感兴趣的:(机器学习,贝叶斯线性回归,预测任务,贝叶斯派任务处理过程)