机器学习算法笔记:贝叶斯线性回归

文章目录

    • 贝叶斯线性回归
        • 推断
        • 预测
    • 参考文献

贝叶斯线性回归

线性回归当噪声为高斯分布的时候,最小二乘损失导出的结果相当于对概率模型应用 MLE,引入参数先验分布是高斯分布,那么 MAP的结果相当于岭回归的正则化,如果先验是拉普拉斯分布,那么相当于 Lasso 的正则化。

利用贝叶斯方法来求解参数的后验分布,线性回归的模型假设为:
f ( x ) = w T x y = f ( x ) + ε ε ∼ N ( 0 , σ 2 ) \begin{aligned} f(x)=w^Tx \\ y=f(x)+\varepsilon\\ \varepsilon\sim\mathcal{N}(0,\sigma^2) \end{aligned} f(x)=wTxy=f(x)+εεN(0,σ2)

在贝叶斯方法中,需要解决推断和预测两个问题。

推断

引入高斯先验:
p ( w ) = N ( 0 , Σ p ) p(w)=\mathcal{N}(0,\Sigma_p) p(w)=N(0,Σp)

对参数的后验分布进行推断:
p ( w ∣ X , Y ) = p ( w , Y ∣ X ) p ( Y ∣ X ) = p ( Y ∣ w , X ) p ( w ∣ X ) ∫ p ( Y ∣ w , X ) p ( w ∣ X ) d w p(w|X,Y)=\frac{p(w,Y|X)}{p(Y|X)}=\frac{p(Y|w,X)p(w|X)}{\int p(Y|w,X)p(w|X)dw} p(wX,Y)=p(YX)p(w,YX)=p(Yw,X)p(wX)dwp(Yw,X)p(wX)

由于 X X X w w w(先验)无影响 → \to p ( w ∣ X ) = p ( w ) p(w|X)=p(w) p(wX)=p(w),代入先验得到: p ( w ∣ X , Y ) ∝ ∏ i = 1 N N ( y i ∣ w T x i , σ 2 ) ⋅ N ( 0 , Σ p ) p(w|X,Y)\propto \prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)\cdot\mathcal{N}(0,\Sigma_p) p(wX,Y)i=1NN(yiwTxi,σ2)N(0,Σp)

由于高斯分布的自共轭性质,可以得到后验分布也是一个高斯分布,上式右边第一项:
∏ i = 1 N N ( y i ∣ w T x i , σ 2 ) = 1 ( 2 π ) N / 2 σ N exp ⁡ ( − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 ) = 1 ( 2 π ) N / 2 σ N exp ⁡ ( − 1 2 ( Y − X w ⏟ μ ) T ( σ − 2 I ⏟ Σ − 1 ) ( Y − X w ) ) = N ( X w , σ 2 I ) \begin{aligned}\prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)&=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2\sigma^2}\sum\limits_{i=1}^N(y_i-w^Tx_i)^2)\\ &=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2}(Y-\underbrace{Xw}_{\color{blue}\mu})^T(\underbrace{\sigma^{-2}\mathbb{I}}_{\color{blue}\Sigma^{-1}})(Y-Xw)) \\ &=\mathcal{N}(Xw,\sigma^2\mathbb{I}) \end{aligned} i=1NN(yiwTxi,σ2)=(2π)N/2σN1exp(2σ21i=1N(yiwTxi)2)=(2π)N/2σN1exp(21(Yμ Xw)T(Σ1 σ2I)(YXw))=N(Xw,σ2I)

所以:
p ( w ∣ X , Y ) ∝ N ( X w , σ 2 I ) ⋅ N ( 0 , Σ p ) ∝ exp ⁡ ( − 1 2 σ 2 ( Y − X w ) T σ − 2 I ( Y − X w ) − 1 2 w T Σ p − 1 w ) ⏟ 只关心指数部分 ⇓ 转换成标准形式 exp ⁡ ( − 1 2 ( X T Σ w − 1 X ⏟ 二次项 − 2 μ w T Σ − 1 X ⏟ 一次项 + c o n s t ) ) \begin{aligned} p(w|X,Y)&\propto\mathcal{N}(Xw,\sigma^2\mathbb{I})\cdot\mathcal{N}(0,\Sigma_p)\\ &\propto\underbrace{\exp(-\frac{1}{2\sigma^2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) }_{\color{blue}\text{只关心指数部分}}\\ &\color{blue}\qquad\qquad\qquad\qquad\qquad\qquad\Downarrow_{\text{转换成标准形式}}\\ &\exp(-\frac12(\underbrace{X^T\Sigma_w^{-1}X}_{\color{blue}\text{二次项}}-\underbrace{2\mu_w^T\Sigma^{-1}X}_{\color{blue}\text{一次项}}+const)) \end{aligned} p(wX,Y)N(Xw,σ2I)N(0,Σp)只关心指数部分 exp(2σ21(YXw)Tσ2I(YXw)21wTΣp1w)转换成标准形式exp(21(二次项 XTΣw1X一次项 2μwTΣ1X+const))

将上式转换成标准形式就可以得到对应的 μ w \color{blue}\mu_w μw Σ w \color{blue}\Sigma_w Σw ,其对应关系如下:
exp ⁡ ( − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) ) 标准形 = exp ⁡ ( − 1 2 ( X T Σ − 1 X − 2 μ T Σ − 1 X + c o n s t ) ) \begin{aligned} &\exp(-\frac12(X-\mu)^T\Sigma^{-1}(X-\mu))\color{blue}\qquad_\text{标准形}\\ &=\exp(-\frac12(X^T\Sigma^{-1}X-2\mu^T\Sigma^{-1}X+const)) \end{aligned} exp(21(Xμ)TΣ1(Xμ))标准形=exp(21(XTΣ1X2μTΣ1X+const))

采用配方的方式来得到最终的分布: N ( μ w , Σ w ) \color{blue}\mathcal{N}(\mu_w,\Sigma_w) N(μw,Σw),提取二次项
− 1 2 σ 2 w T X T X w − 1 2 w T Σ p − 1 w ⇒ Σ w − 1 = σ − 2 X T X + Σ p − 1 = A -\frac{1}{2\sigma^2}w^TX^TXw-\frac{1}{2}w^T\Sigma_p^{-1}w\\ \Rightarrow{\color{blue}\Sigma_w^{-1}}=\sigma^{-2}X^TX+\Sigma_p^{-1}=A 2σ21wTXTXw21wTΣp1wΣw1=σ2XTX+Σp1=A

一次项 1 2 σ 2 2 Y T X w = σ − 2 Y T X w \frac{1}{2\sigma^2}2Y^TXw=\sigma^{-2}Y^TXw 2σ212YTXw=σ2YTXw 于是: μ w T Σ w − 1 = σ − 2 Y T X ⇒ μ w = σ − 2 A − 1 X T Y \mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX\\ \Rightarrow{\color{blue}\mu_w}=\sigma^{-2}A^{-1}X^TY μwTΣw1=σ2YTXμw=σ2A1XTY

预测

给定一个 x ∗ x^* x,求解 y ∗ y^* y,所以 f ( x ∗ ) = x ∗ T w f(x^*)=x^{*T}w f(x)=xTw,代入参数后验,有 x ∗ T w ∼ N ( x T μ w , x ∗ T Σ w x ∗ ) x^{*T}w\sim \mathcal{N}(x^{T}\mu_w,x^{*T}\Sigma_wx^*) xTwN(xTμw,xTΣwx),添上噪声项:
p ( y ∗ ∣ X , Y , x ∗ ) = ∫ w p ( y ∗ ∣ w , X , Y , x ∗ ) p ( w ∣ X , Y , x ∗ ) d w = ∫ w p ( y ∗ ∣ w , x ∗ ) p ( w ∣ X , Y ) d w   = N ( x ∗ T μ w , x ∗ T Σ w x ∗ + σ 2 ) \begin{aligned} p(y^*|X,Y,x^*)&=\int_wp(y^*|w,X,Y,x^*)p(w|X,Y,x^*)dw\\ &=\int_wp(y^*|w,x^*)p(w|X,Y)dw\ \\ &=\mathcal{N}(x^{*T}\mu_w,x^{*T}\Sigma_wx^*+\sigma^2) \end{aligned} p(yX,Y,x)=wp(yw,X,Y,x)p(wX,Y,x)dw=wp(yw,x)p(wX,Y)dw =N(xTμw,xTΣwx+σ2)

参考文献

【1】贝叶斯线性回归
【2】贝叶斯统计观点下的拉普拉斯平滑
【3】伯努利分布、二项分布和Beta分布,从贝叶斯观点出发
【4】朴素贝叶斯实战篇之新浪新闻分类

你可能感兴趣的:(机器学习,机器学习)