【西蒙计算机视觉学习笔记】贝叶斯线性回归

背景:简单的线性回归模型 ①结合了最大似然方法的预测过于自信(分布参数的不确定性没有反映在后验概率中),因此可以通过贝叶斯方法将分布参数可能值的概率分布考虑进去。这意味着,根据新数据预测状态,可以通过参数的概率值对状态的后验概率进行无限加权求和(积分)。

        ①如下(详见【西蒙计算机视觉学习笔记】线性回归模型 ):

        Pr(w|X,\theta)=Norm_w[X^T \phi,\sigma^2 \mathrm{I}]  ②

前提:假设σ^2已知(只求另一个参数φ可能值的概率分布)(当然,σ^2还是可以通过最大似然方法计算其点估计的)。

建模:

给定样本对,参数的后验分布可以利用贝叶斯法则计算:

Pr(\phi|X,w)=\dfrac{Pr(w|X,\phi)Pr(\phi)}{Pr(w|X)}

学习:

学习方法:贝叶斯方法。

分别学习模型的每一项:

  • 先验Pr(φ)的表达式:

        因为梯度向量φ(D*1维)是多元连续的,因此,将其建模为具有均值为0球形协方差(通常设为比较大的值来反映先验比较弱/不确定的事实)的正态分布:

Pr(\phi)=Norm_\phi[0,\sigma_p^2]

  • 似然Pr(w|X,φ)的表达式:见②式,简单的线性回归模型中关于状态的后验。
  • 边缘概率Pr(w|X)的取值:与参数φ无关,则视为常数,记作C
  • 正态分布的乘积的自共轭性:关于数据x的正态分布和另一个关于第一个分布的均值向量μ的正态分布的乘积,将得到一个常数K(本身也是一个正态分布)和一个关于均值向量μ的正态分布。

由此可得,后验分布的闭式计算结果(解析解)的表达式(K,C为常数相除后的商为另一个常数,乘以正态分布仍为正态分布):

【西蒙计算机视觉学习笔记】贝叶斯线性回归_第1张图片

        后验的方差比先验的小,后验分布Pr(φ|X)总比先验分布更窄(这是实验的结果,后续会对A求逆以便得到后验方差与先验方差比较大小)。

A求逆:

对D*D维矩阵A求逆,如果原始数据的维度D很大,那么很难直接计算该逆矩阵。所幸的是,A的结果使得它可以更有效率地求逆,利用Woodbury恒等式:

\begin{align} (A^{-1}+B^TC^{-1}B)^{-1} &=(A^{-1}+B^TC^{-1}B)^{-1}\mathrm{I} \\ &=(A^{-1}+B^TC^{-1}B)^{-1}(\mathrm{I}+B^TC^{-1}BA-B^TC^{-1}BA) \\ &=(A^{-1}+B^TC^{-1}B)^{-1}(A^{-1}A+B^TC^{-1}BA-B^TC^{-1}BA) \\ &=(A^{-1}+B^TC^{-1}B)^{-1}((A^{-1}+B^TC^{-1}B)A-B^TC^{-1}BA) \\ &=A-(A^{-1}+B^TC^{-1}B)^{-1}B^TC^{-1}BA \\ &=A-\Bigg[(A^{-1}+B^TC^{-1}B)^{-1}B^TC^{-1}\Bigg]BA \\ &=A-\Bigg[AB^T(BAB^T+C)^{-1}\Bigg]BA \\ &=A-AB^T(BAB^T+C)^{-1}BA \end{align}

代入A的逆的表达式,得:

\begin{align} A^{-1} &=\Bigg(\dfrac{1}{\sigma^2}XX^T+\dfrac{1}{\sigma_p^2}\mathrm{I}\Bigg)^{-1} \\ &=\Bigg( \dfrac{1}{\sigma_p^2}\mathrm{I}+\dfrac{1}{\sigma^2}XX^T \Bigg)^{-1} \\ &=\Bigg( (\sigma_p^2)^{-1} \mathrm{I}+(\sigma^2)^{-1}XX^T \Bigg)^{-1} \\ &=\Bigg( (\sigma_p^2 \mathrm{I})^{-1} +(X^T)^T(\sigma^2 \mathrm{I})^{-1}(X^T) \Bigg)^{-1} \\ &= (\sigma_p^2 \mathrm{I})-(\sigma_p^2 \mathrm{I})(X^T)^T\Bigg((X^T)(\sigma_p^2 \mathrm{I})(X^T)^T+(\sigma^2 \mathrm{I})\Bigg) ^{-1}(X^T)(\sigma_p^2 \mathrm{I}) \\ &=\sigma_p^2 \mathrm{I}-\sigma_p^2 X\Bigg(X^T\sigma_p^2 X+\sigma^2 \mathrm{I}\Bigg) ^{-1}X^T\sigma_p^2 \\ &=\sigma_p^2 \mathrm{I}-\sigma_p^2 X\Bigg(\Big(X^T X+\dfrac{\sigma^2}{\sigma_p^2} \mathrm{I}\Big) \sigma_p^2\Bigg) ^{-1}X^T\sigma_p^2 \\ &=\sigma_p^2 \mathrm{I}-\sigma_p^2 X\Bigg(X^T X+\dfrac{\sigma^2}{\sigma_p^2} \mathrm{I}\Bigg) ^{-1} (\sigma_p^2)^{-1} X^T\sigma_p^2 \end{align}

\begin{align}A^{-1}&=\sigma_p^2 \mathrm{I}-\sigma_p^2 X\Bigg(X^T X+\dfrac{\sigma^2}{\sigma_p^2} \mathrm{I}\Bigg) ^{-1} X^T (\sigma_p^2)^{-1} \sigma_p^2 \\ &=\sigma_p^2 \mathrm{I}-\sigma_p^2 X\Bigg(X^T X+\dfrac{\sigma^2}{\sigma_p^2} \mathrm{I}\Bigg) ^{-1} X^T \end{align} ④

拟合方差:

最大似然估计法计算σ^2:

先建模——

\begin{align} Pr(w|X,\sigma^2) &=\int Pr(w|X,\phi,\sigma^2)Pr(\phi)\mathrm{d}\phi \\ &=\int Norm_w[X^T\phi,\sigma^2\mathrm{I}]Norm_\phi[0,\phi_p^2\mathrm{I}]\mathrm{d}\phi \\ &=Norm_w[0,\sigma_p^2X^TX+\sigma^2\mathrm{I}] \end{align}

再最大化——

\hat{\sigma}^2=\underset{\sigma^2}{argmax} \ log\ Pr(w|X,\sigma^2)

令偏导等于0,(或者用梯度下降等数值迭代的优化算法),得到一个最优的方差。

推理:

对新的观测数据向量X*在全局状态w*上计算预测分布,相当于在每个可能φ暗示的预测w*的后验上取无穷加权和(积分),其中权重为φ的后验分布:

\begin{align} Pr(w^*|x^*,X,w) &=\int Pr(w^*|x^*,\phi)Pr(\phi|X,w)\mathrm{d}\phi \\ &=\int Norm_w^*[\phi^Tx^*,\sigma^2]Norm_\phi[\dfrac{1}{\sigma^2}A^{-1}Xw,A^{-1}]\mathrm{d}\phi \\ &=Norm_{w^*}[\dfrac{1}{\sigma^2}x^{*T}A^{-1}Xw,x^{*T}A^{-1}x^*+\sigma^2] \end{align}

   

        (2)行中,积分号内有两个正态分布乘积,根据它们的自共轭性可得,积分号内为一个常数K乘以正态分布:常数K提到积分号前面;正态分布作为一类概率,其积分结果必为1。因此,等式结果为常数K,常数K是关于提供的预测状态w*的正态分布(如(3)行)。

        当新数据x*远离观测数据均值x_bar时,梯度φ的不确定性会导致最终预测状态w*的不确定性(观测结果表达式,方差明显比未考虑梯度φ时方差多了一项,是φ的方差即不确定性和新数据x*的平方——都是正数值,使得最终预测状态不确定性更大,并且受新数据x*取值影响)。

        这意味着,新数据x*远离观测数据均值x_bar时预测状态w*的置信度也降低了

将A的逆的新表达式④代入预测分布表达式,得:

Pr(w^*|x^*,X,w) \\ =Norm_w^*[\dfrac{\sigma_p^2}{\sigma^2}x^{*T}Xw-\dfrac{\sigma_p^2}{\sigma^2}x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^TXw, \\ \sigma_p^2x^{*T}x^*-\sigma_p^2x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^Tx^*+\sigma^2] , \qquad \sigma^2 \leftarrow \hat{\sigma}^2

你可能感兴趣的:(计算机视觉,概率论,机器学习,计算机视觉)