从曲线拟合谈平方和误差函数与最大似然的关系

一、曲线拟合问题

        给定 N 个输入样本 \textbf{x} = \left ( \textbf{x}_1, \textbf{x}_2,...,\textbf{x}_N\right )^T 及其标记 \textbf{t} = \left ( t_1,t_2,...,t_N \right )^T,对新的样本 \textbf{x},给出其标记 t 的预测。

 

二、曲线拟合的平方和损失函数

        平方和误差函数是一种广泛使用的误差函数,在曲线拟合问题中,其定义如下:

                                                                               \sum_{i=1}^{N}\left ( y\left ( \textbf{x}_i,\textbf{w} \right )- t_i\right )^2

        我们的目标是最小化上式,函数 y 通常是待求解参数向量 \textbf{w} 的函数,如线性回归中 y = \textbf{w}^T\textbf{x}

        一般的,通过令  \small \frac{\partial f}{\partial \textbf{w}} = \textbf{0} 可确定参数向量 \textbf{w} 的值,进而确定 y 的形式,并对新样本的标记进行预测。

 

三、曲线拟合中的最大似然

       以回归任务为例,最大似然实际上要最大化一个函数,该函数是多个由独立的样本点及其相关参数确定的概率分布的乘积,形如

                                                                                \small \prod_{i=1}^{N}p\left ( t_i|x_i,\textbf{w} \right )

       最大似然是参数估计的重要方法之一,其直观意义是确定参数向量 \small \textbf{w} 最可能的取值,在该取值下, N 个样本取得对应的标记值可能性最大。

       为了将最大似然应用到曲线拟合中,假定给定样本 \small \textbf{x},其标记 \small t 服从高斯分布,等价于标记上的噪声服从高斯分布。

                                                               \bg_white \small p\left ( t|\textbf{x},\textbf{w},\beta \right )=N\left ( t|y\left ( \textbf{x},\textbf{w},\beta^{-1} \right ) \right )

       其中,均值为 y\left ( \textbf{x},\textbf{w} \right ),即待拟合曲线的函数表达式(可以是线性函数或非线性函数,根据实际情况事先给出),\small \beta^{-1} 是方差的倒数,图形化表示如下:

从曲线拟合谈平方和误差函数与最大似然的关系_第1张图片

        其中,绿色直线与蓝色直线交汇处表示在点 \small x_0 出的均值。

        根据上述分布的假定,最大似然函数如下:

                                                   \small p\left (\textbf{t}|\textbf{x},\textbf{w},\beta \right )=\prod_{i=1}^{N} N\left (\textbf{t}_n|y\left ( \textbf{x}_n,\textbf{w}\right ),\beta^-1 \right )

        最大化似然函数等价于最小化似然函数的负对数函数,即

                                                   \small ln\left ( p\left ( \textbf{t}|\textbf{x},\textbf{w},\beta \right ) \right )=-\frac{\beta }{2} \sum_{i=1}^{N}\left \{ y\left ( \textbf{x}_n,\textbf{w} \right )-t_n \right \}^2 + \frac{N}{2}ln\beta

        其中,为简化公式,省略了部分常数项。显然,公式右侧第1项便是平方损失函数。因此,在高斯噪声的假设下,平方损失函数是极大似然函数的一个自然结果。下图是根据我的个人观点总结的从最大似然到平方损失的推导过程。

 

从曲线拟合谈平方和误差函数与最大似然的关系_第2张图片

      

        据上图,平方损失是从直观层面上去定义损失函数,符合人的基本认知;最大似然是从概率统计层面确定最有可能的参数取值,比较抽象且不易理解,而正是从最大化似然函数的计算过程中,平方损失的形式得以显现。在机器学习中,简单而易于理解的公式背后往往蕴藏着问题的本质,而本质一般是抽象的。

你可能感兴趣的:(机器学习,最大似然,平方损失,曲线拟合,高斯噪声)