【西蒙计算机视觉学习笔记】非线性回归模型

背景:最大似然法学习的简单的线性回归模型的第二个缺点——

 更正假设:对观测数据x进行非线性变换,使得满足如下(f[·]代表一个非线性变换)——

重新建模、学习和推理: 

最大似然方法:

建模:

构建关于全局状态的后验函数(似然函数)。 

原始的模型:

 令Z←X,

 学习:

最大化上述似然函数,令偏导等于0,求得参数关于已知数据的表达式。

原模型的学习结果:

 令Z←X,

【西蒙计算机视觉学习笔记】非线性回归模型_第1张图片                                        ①

 推理:

将新观测数据和预测分布代入已求得分布参数的模型中,计算关于预测分布的后验概率。

 贝叶斯方法:

引入关于分布参数的先验,通过贝叶斯法则、应用正态分布乘积的自共轭性质,计算分布参数的后验,以分布参数的后验为权重对状态的后验进行加权求和,得到最终的状态概率。

原模型的推理结果:

Pr(w^*|x^*,X,w) \\ =Norm_w^*[\dfrac{\sigma_p^2}{\sigma^2}x^{*T}Xw-\dfrac{\sigma_p^2}{\sigma^2}x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^TXw, \\ \sigma_p^2x^{*T}x^*-\sigma_p^2x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^Tx^*+\sigma^2] , \qquad \sigma^2 \leftarrow \hat{\sigma}^2

  令Z←X,

【西蒙计算机视觉学习笔记】非线性回归模型_第2张图片                                                                                                            ②

 非线性变换的选择:

选择一:

【西蒙计算机视觉学习笔记】非线性回归模型_第3张图片

 选择二(通过径向基函数计算新向量z,这是一个高斯函数,用来表示任何球面对称函数,有两组参数,α是函数的中心,λ是控制宽度的缩放因子):

【西蒙计算机视觉学习笔记】非线性回归模型_第4张图片

 选择三(通过反正切函数计算新向量z,同样有两组参数,α决定反正切函数的水平偏移值,λ控制函数变换的速度):

z_i = \begin{bmatrix} 1 \\ arctan[\lambda x_i-\alpha_1] \\ arctan[\lambda x_i-\alpha_2] \\ arctan[\lambda x_i-\alpha_3] \\ arctan[\lambda x_i-\alpha_4] \\ arctan[\lambda x_i-\alpha_5] \\ arctan[\lambda x_i-\alpha_6] \\ \end{bmatrix}

对原观测数据x的每一维经过上述非线性变换后得到一个新的向量z,再对向量z的每一维以向量φ为权重加权,接着求加权和,这个加权和作为状态的后验分布的均值(最大可能性位置),方差不变。

线性与非线性变换的结果比较:

【西蒙计算机视觉学习笔记】非线性回归模型_第5张图片

不难发现,非线性的假设更符合实际,贝叶斯的方法比最大似然法置信度更低(前者的概率分布更扁平和即不确定性更高 )。


提高计算效率的方法:

核技巧:

        观察最大似然法的最终表达式①和贝叶斯方法的最终表达式②,均与计算内积项z^Tz有关,然而,当变换后的空间是高维空间,显示计算z=f[x]的乘积,成本太大了。

        因此,可以用核替换的方法,直接定义核函数k[·]=f[·]^T f[·],不再显示计算变换向量z,将数据投影到高危甚至无限维的空间中。

三种有效核函数的例子(有效是利用Mercer定理定义的,是说核的参数在一个可测空间即非无限维吧时,核函数有效,并且核函数是半正定的):

  •  线性核:

  • p阶多项式核:

  •  径向基(RBF)或称高斯核:

另外,有效核的和与积是半正定的,因此它们也是有效核。 

高斯(核)过程回归:

未使用核技巧的原表达式:

【西蒙计算机视觉学习笔记】非线性回归模型_第6张图片

 使用高斯核的表达式(令 K[x,x]←z^T z):

【西蒙计算机视觉学习笔记】非线性回归模型_第7张图片

         K[X,X]表示点积矩阵,k[x_i,x_j]是其元素。

核函数的参数通过最大化边缘似然来求(高斯核只有一个参数λ要求,它决定宽度和平滑性):

【西蒙计算机视觉学习笔记】非线性回归模型_第8张图片

【西蒙计算机视觉学习笔记】非线性回归模型_第9张图片

 λ太大会太平滑,接近线性;λ太小,太过曲折,观测数据的状态太分散,新数据下模型无法成功在样本之间插值,距离样本均值太远的话,置信度太低;λ取值适中,则是最大似然的长度缩放参数的回归,不太平滑也不太分散。

 

【注】这些学习笔记涉及到一些公式和图片,部分直接摘抄至 Dr Simon J D Prince著作的 Computer Vision Models Learning And Inference一书。

你可能感兴趣的:(计算机视觉,机器学习,概率论,计算机视觉)