模式识别与机器学习基础之1-一个简单的回归问题(regression problem)

声明:本文由英文原版“Pattern Recognition and Machine Learning”翻译而来,文中的插图均为原书的配图,只为学习目的。

这里介绍一个简单的回归问题(regression problem),在下文中利用这个例子讲解几个关键的概念。假如,我们观察到一个实数(real-valued)输入变量x,期望利用观察到的这个变量预测这个实数的实数目标变量t。就以目前的目的来说,考虑一个利用综合数据的人工例子是很有益的。因为,如果我们知道了生成数据的精确处理过程,这些数据可以与学习到的任何模型作为比较。这里例子中的数据又函数sin(2πx)生成,函数的目标值中带有随机的噪音。

假设,一个包含N个观察值x的训练集,x=(x1,...,xn)T,和这些值相应的观察值tt=(t1,...,tn)T。

下图为包含10个点的训练集。


上图中的输入数据集x由选择的xn的值生成,n=1,...,Nx的值均匀分布在[0,1]上。目标数据集t的值由函数sin(2πx)的第一个值,这个点加上了一个小的高斯分布(Gaussian distribution)随机噪音,通过这些值来获取tn。通过这样的数据生成方式,我们可以捕获很多实时数据集的属性,即:他们拥有基本的潜在的规律,这个规律是我们想要学习的,但是单个的观察值会因为随机噪音而受到影响。这些噪音会因为随机的处理方法而出现,比如放射性衰变(radioactive decay),更典型的是自身所有的一些不可观察的变量。

我们的目的是通过研究这些训练集,对每个新的输入变量值x来预测其对应的目标变量值t。这也暗含了要发现潜在的函数sin(2πx)。这实际上是很困难的问题,因为我们需要从一个有限的数据集中机型概括总结。还有,观察到的数据由于噪音的影响,因此给出x,这并不是目标值t的准确值。概率论用定量、准确的方式来描述这些不确定性,决策理论使我们探索这些概率表达方式来决策一定方式下的最优问题。

下面看一个简单的基于曲线拟合的方法。特别的以下面的多项式来表示:


虽然多项式对于x不是线性的,但是对于系数w是线性的。像这样的对于已知参数是线性的多项式具有重要的属性,称为线性模型(linear models)

这些系数的值由拟合的多项式训练数据得到(The values of the coefficients will be determined by fitting the polynomial to the training data.)。这些可以通过最小化一个错误函数(error function来测量对于一个给定的值w,函数y(x,w)和训练数据集中数据点的偏差(misfit)。一个常用的错误函数为,求出每个点xn的预测值y(xn,w)和这个点相应的目标值tn的错误值的平方和,所以要尽量减少以下函数的值。


因子1/2是为了后面的方便。后面会讨论采用这种错误函数的动机。在这里简单说一下,这是个非负量,但是可能为0,当且仅当函数y(x,w)正好通过每个训练点。

下图为这种平方误差函数(the sum-of-squares error function)的几何解释。

模式识别与机器学习基础之1-一个简单的回归问题(regression problem)_第1张图片

可以通过对于每个E(w)选择对应的值w来解决曲线拟合问题。因为误差函数是系数w的二次函数,系数w的 derivatives对于系数在w元素中是线性的。因此,误差函数的最小化有唯一的解用w*表示。结果多现式由函数y(x,w*)定义出。

这里还存在选择多项式阶M的值问题,这个问题会成为一个重要的概念模型比较或者是模型选择(model comparison or model selection)的一个例子。

对于每个M的值,可以通过图1.2计算剩余值E(w*),也可以用E(w*)来评价测试数据集。通常用RMS error(root-mean-square error,均方根误差)来表示比较方便。


这里的N可以在平等的条件下来比较不同体积的数据集。平方根确保了ERMS和目标变量t在同样的条件下(同样的单位)进行测量。


你可能感兴趣的:(测试)