PRML 01 绪论:引言与引例

  • 1引言
  • 2引例 Polynomial Curve Fitting
    • 1泛化性能评价
    • 2减小过拟合
      • 21增大数据集
      • 22beyas
      • 23归则化 regularization

PRML 01 绪论:引言与引例_第1张图片
作者Christopher M. Bishop

1引言:

模式识别已经有较长的研究历史,甚至在天文和原子光谱(atomic spectra)也有着重要的应用。
下面使用手写识别这个例子对相关概念做通俗的介绍(in a relatively informed way)
PRML 01 绪论:引言与引例_第2张图片
我们的目的是构建一个模型(Machine)从这些图片的信息中得到我们想要的结果。
图片的信息是我们输入的,这里是28*28像素组成的784维向量
我们可以自己设定规则或者使用启发式的方法来设立这个模型,类似于当图片信息满足某一个条件就是1或者是2,但是这种人工规则的方法有时候并不好用。
使用机器学习的方法有时候可以获得更好的结果,既然是学习,就要有以前的可以学习的样本,这些用来训练机器的样本就是训练样本
如果告诉了每个样本的目标值(1,2,3…)那么这个训练样本就包含目标向量
通过样本学习的过程就叫作训练或者学习
如果我们的训练目标是有限的,就叫做分类,如果是无限的就叫做回归
学习完成之后,用这个训练好的模型可以去识别之前没有遇见过的东西,这样能力叫作泛化
在大多数的应用中,输入值都需要进行预处理,比如可以进行归一化等等。预处理会有助于算法的运行,使计算更迅速,更准确,这个过程也叫作特征抽取。注意对数据进行预处理时可能会丢失有用的信息。
上面这种有目标向量的模型的学习过程,是有监督学习,如果没有目标向量就是无监督学习。无监督学习可能需要将相同的数据放在一起归类,这种就叫做聚类,如果要发现数据分布的规律就叫做密度估计,有的时候需要将数据降维并投影到2d或者3d这一过程叫作可视化
还有一种学习叫作reinforcement learning 增强学习,比如一个机器人有四条腿,我们要让他自己学会先前走,如果他向前走了1步,那我们就给他一个回报reward,鼓励他以下,最后他就会学会如何很好的行走,这种学习方式就是增强学习,这本书不足详细阐述。
上面的学习种类不同,但是也有一些想通之处。
绪论中将会介绍一个引例及以后经常用到的三大部分probability theory, decision theory, and information theory 概率论、决策论及信息论。

2引例 Polynomial Curve Fitting

多项式拟合
本例的任务是用多项式拟合一个正弦图 sin(2πx) ,图中有是个已知点特征是X,目标向量时t,我们目标是用现在的点拟合的方程,在【0,1】内出现新的x时能较好的预测到新的t点。
这里写图片描述
PRML 01 绪论:引言与引例_第3张图片
如何确定多相式中的参数呢?一个常用的方法就是使用最小二乘法
PRML 01 绪论:引言与引例_第4张图片
上式是一个大月等于0的方程,只有拟合的函数全部命中时才会等于0.
当多次项次数M如果确定,其各系数可由最小化上式得到。
M如何确定呢?
M的确定是一个模型选择的问题,下图中比较了M=0,1,3,9的四种情况
PRML 01 绪论:引言与引例_第5张图片
可以看出在0-1范围内,m=0,1和9都不能很好的表示原图像.当M=9时虽然所有的点都与原本的10个点重合,但是与原图像相比相差太多,这种只能拟合现有已知点但是对于未知点不能很好的预测的现象就是过拟合(没有泛化能力)。

2.1泛化性能评价

如何定量的考虑和比较模型的泛化能力呢?
我们可以使用一个新的数据集,代入已经训练好的模型,看其误差函数的表现情况,在这里可以使用下面的误差函数,均方根(root-mean-square)来评价,其分母除以n可以得出平均的误差,因此可以比较在测试集数量不同的情况下的拟合情况。
这里写图片描述
PRML 01 绪论:引言与引例_第6张图片
上图是M等于1-9时的图像,可以看出在m=9时其预测集的误差太大(虽然在训练集上的误差很小,因为有10个参数所以这10个点可以全部拟合)。
下表给出了不同M值时的参数大小变化情况,太大的正负值变化是我们应该避免的问题,至于原因,在之前的ufldl的笔记中曾经提过,这样会时的震荡更剧烈。
PRML 01 绪论:引言与引例_第7张图片
其次M越大,将会更多的描述现有的数据集,这意味着其中的噪声部分也会被描述出来。

2.2减小过拟合

2.2.1增大数据集

如何避免过拟合呢?看下图
PRML 01 绪论:引言与引例_第8张图片
同样M=9时,不同的样本数量得到了不同的结果。
可以发现当n=100时的九次方多项式的拟合结果就比较好了。也就是说样本点越多,得到的模型越不容易过拟合,这也是因为他们的共性更加明显了。
所以一般来说我们要求的样本点数的量 一般要是模型中参数的几倍比如5倍或者10倍。也就是说样本的数量会决定参数的数量的上限。

2.2.2beyas

后面我们将会看到上面的最小二乘法是最大似然法的一个表现形式。其实在beyas角度建立模型时,模型有效参数的数量会根据训练集样本的数量来自动的调整。

2.2.3归则化 regularization

regularization就是在原来误差函数的基础上加上一个规则,也就是对前面提到的过大的参数进行惩罚。
原来的误差函数
PRML 01 绪论:引言与引例_第9张图片
加了惩罚之后的
这里写图片描述
其中这里写图片描述
其中的 w0 一般不被包含在惩罚项中,因为它的加入会使得到的表达式因为初始训练集目标变量的不同而不同,即使加入有点时候回给他单独弄一个惩罚项。
这种规则化在统计叫作shrinkage,还有一种特殊的规则化叫作ridge regression,在神经网络中叫作 weight decay.
下图是加入不同的惩罚因子 λ 的结果
PRML 01 绪论:引言与引例_第10张图片
PRML 01 绪论:引言与引例_第11张图片
下图是不同惩罚因子下得到的测试集结果
PRML 01 绪论:引言与引例_第12张图片
可以看出太大太小都不好。
从上面可以看出,如果使用最小二乘法求解模型,我们对于复杂度的掌控,现在用的是额外的验证集来测试模型的合理性,但是这有点浪费数据,因此我们将在以后探索更好的形式。
后面的章节中我们将会逐渐减少主观的判断作用,更多地使用概率的角度来解决问题。

你可能感兴趣的:(PRML)