第一章

简介

 在一堆数据中寻找中模式这种问题是非常基础的问题,历史很长了。模式识别领域所关心的就是自动化的寻找出数据的一些规律,通过计算机算法,找出这些规律使用这些规律,把数据分类在不同的类别中。

一个手写识别数字的例子,每个数字是一张图片,28*28.因此,可以用一个784位的向量来表示这个数字,目标就是要有一个机器,输入是这个向量, 输出是数字0123456789,手写的样式是多种多样,如果还用人工的规则,或者数字笔画的特点作为区分的方法,会遇到各种各样的例外。这种死板的方法会带来比较差的结果。

比较好的结果,怎么得到呢,可以通过机器学习的方法。用一个训练集里边含有这十个数字的各种写法,作为输入进行自适应模型的调参。十个分类在训练集中都有体现,在训练集里手动标注出来,我们用目标向量t来表示这十个分类。每个分类的表示方法我们之后再讨论。我们现在只要知道对于每一个样本图片我们有这样一个向量t就行。

跑这样一个机器学习的算法,可以把它理解为,有这样一个函数,输入是图片,输出一个向量。这个函数的准确形式是在训练过程中确定的,也可以叫学习过程,是你输入的训练样本为基础。一旦模型训练出来了,就可以确定新的输入数字图片的分类。我们可以用测试集进行测试。用不同于训练集里的数据去测试分类的效果,叫泛化。在实际的应用中输入肯定只能是所有可能输入的一小部分,所以泛化是模式识别的一个中心目标。

在大多数实际的应用中,数据通常是经过了预处理转换成另外一个空间的变量,在这个空间中期望模式识别问题能够更简单的被解决。比如在刚才举例的数字识别中,数字图片经常就给裁剪成一个固定的长度,这样对每一个不同的数字类来说,在内存中都是在用相同的长度,这就为后续的模式识别算法提供的便利,这种预处理的过程经常被称作特征提取,后来新加进去的数据也必须使用相同的预处理的方法进行处理。

预处理的过程,也是为了加快运算的速度,去个例子,如果一个任务是对高分辨率的视频流进行实时人脸识别,计算机的话就必须在每一秒都处理大量的数字数据,如果直接把这些数据,给一个非常复杂的模式识别算法的话,计算量就可能非常的大,不是太方便。取而代之,我们应该找到一些有用的特征使能够进行更快计算,但同时又应该保留非常有用的带有区别性的一些信息,使人脸和非人脸部分能够区分开来。这些特征之后就会被用作模式识别算法的输入。比如说一个矩形的小区域里面的图片密度平均值,就是非常有效的,一系列的这样的特征就能够保证人脸识别有效又快速。因为这些特征的数量是肯定比原始信息的数量要少。在预处理的过程中,我们必须要非常注意被丢弃的一些信息,如果这些信息对于后面的解决方案来说是非常重要的话,那么系统的准确率就会受到影响。

训练数据是有一些输入的向量和相应的目标向量组成,这几样的,我们称为监督学习问题。再说手写数字识别的例子中,我们的目标是给每一个输入的向量,输出是从一系列离散的类别值中选出一个,这样的问题,我们称为分类问题,如果输出是是连续值的话,这项任务就称为回归。回归问题的例子:化工过程中,输入是反应物温度压力这些因素,输出是产量的预测。

其他的一些模式识别的问题中,训练数据是有一系列的输入向量但是却没有相应的目标值。这种叫做非监督学习问题,这种问题的目标是,发现一些相似样本的群,称为簇,或者说发现数据在输入空间的分布,进行密度估计,或者是把一些数据,从高维的空间投射到二维和三维的空间,目的是为了进行可视化。

最后,增强学习问题,关心的是,在给定的情况下,最大化奖励回馈。这种学习算法,它并不像监督学习问题一样,给出一些结果的参考案例,它是通过试验和犯错的过程去发现结果。很典型的就是,算法和他周围的环境交互的时候,有一系列的状态和动作。很多时候当前的动作并不是仅仅影响当前的奖励回馈甚至会影响到之后的奖励。比如用增强学习算法的神经网络进行棋类游戏,这个神经网络的输入是,所在位置以及色子投掷结果, 输出就是,在棋盘上的移动。真实神经网络和他的拷贝体进行了很多很多次的对弈之后的结果,一个很重大的挑战就是,游戏过程,可能涉及到很多步的移动,但是只有在最后游戏结束了时候奖励回归才会以胜利的形式发放下来。这个奖励其实应该多亏之前的很多步,有的贡献大,有的贡献小。这就是一个credit分配的问题。增强学习过程中一个很重要的特征就是,在广度和深度之间的衡量,广度的话系统就可以试很多种新动作去看效果如何,深度的话就是更多的使用已经发现了的能够产生高奖励回馈的动作。过于重视某一方面,都会导致效果不好。在机器学习研究中,增强学习领域,是很活跃的,但是不是本书讨论的重点。

尽管每一个不同的任务都需要各自的工具和技术,但是很多关键性的概念,是共通的。 本章就是用一些简单的例子介绍这些重要概念。在后面的文章中可以看到一些更成熟的模型里边,再次用到这些概念。我们先介绍一下三个重要的工具,那就是概率论,决策论和信息论会贯穿整部书。必须要对他们有一个清醒的认识,才能够在实际应用中更好的使用机器学习技术。

1.1,多项式曲线拟合

我们介绍一个简单的回归问题作为开始。本节中通过通跑整个例子去启发关键性的概念。假如我们的我们观察一个输入变量实数x, 输出是一个实数目标值t的预测值。  目前我们人工合成数据,这样的话就方便和之后的学习模型进行对比,这个例子里面数据是通过一个三角函数输出值加上一些随机噪声作为我们的最终目标值

通过这样构造数据,我们知道数据内部隐藏的这样的规律,这也是我们希望通过机器学习,通过这些数据学到的,但是我们的观测值都被随机噪声污染了。这些噪声的产生,有可能是因为随机过程,但更典型的是因为变量源自身不能被观测。

我们的目标就是要通过训练集,给定新输入的变量值去预测目标值。我们之后就可以看到它其实就是在试图找出底层的三角函数。这是一个很难的问题,因为我们只有有限的数据,而需要把它泛化到更多的数据上。还有就是因为,我们的观测值被噪音所污染的,所以给定一个观测值的话,要推出预测值是有一些不确定性的。概率论中提出了一个框架,描述这种不确定性,从准确度和量化的角度。决策论中,允许我们去使用概率表示,根据某些优化性准则,做出优化的预测。

尽管如此呢,目前我们只是采用一些简单的方法,去进行曲线拟合,我们准备采用一个多项式的函数,尽管这个函数不是输入x的线性函数,但是它是参数w的线性函数。这种对于未知的参数来说是线性的,就称之为线性模型。

通过用训练数据集中数据去拟合多项式函数,就可以确定参数。通过最小化误差函数,常用的一个误差函数就是函数的预测值和训练集中真实值之间的误差的平方和。

概率论

模式识别领域一个最关键的概念就是不确定性问题,一是因为本身带有噪声。二是因为数据集的有限性。 概率论就提出了一个连续框架。从而为模式识别提供了一个重要的基础。和决策论结合起来,允许我们根据有限的信息来提供一个比较好的预测。哪怕信息本身是不完整的,或者是模糊的。

我们用一个简单的例子来说明 概率论的问题。假设我们有两个盒子,一个红色,一个蓝色,在红色盒子里面,我们有两个苹果和六个橘子,在蓝色的盒子里面,我们有三个苹果和一个橘子。假设我们随机选择一个盒子,在这种盒子里面随机的取出一个水果,我们观察这个水果是什么,然后再把这个水果放回到原来的盒子里面去,这个过程重复进行很多次。我们假设我们要40%的概率选中的时候选中红色盒子,60%的概率选中的是蓝色盒子。而且在一个盒子中各个水果被选中概率是一样的。

在这个例子中,被选中的盒子就是一个随机的变量,这个随机变量,有两个可能的值一个是红色,一个是蓝色。同样被选中的水果也是一个随机变量,它可以是苹果也可以是橘子。

首先我们定义一下一个事件的概率就是指该事件发生的概率占总实验次数的百分比,总实验次数趋近于无穷大的。注意概率是肯定是在零到一的范围之内的,并且如果这些事件相互之间是互相排斥了,但是它们包括了所有的可能的输出结果,那么,这些事件的概率的总和应该是等于一。

贝叶斯概率  比如有这样的一些不确定性的事件我们并不能通过重复的试验来测试概率,比如这个世纪末,冰帽是否会融化?但是我们应该可以知道它的融化的速度,假如我们现在都到了新的证据,我们就可以修改我们原来的融化速率看法。我们的这样一个论断,又可以影响到我们的行为。比如说多大程度上减少温室效应气体排放。  在这样的情况下,我们希望能够量化这种不确定性,在有新证据的情况下能够对不确定性进行很好的修正,对我们后续的行为进行更好的优化,这些都可以通过贝斯概率的方式来解决。

贝叶斯概率可以看做是布尔逻辑扩展到具有不确定性的场景之中

用概率论去描述模型参数的不确定性,模型的不确定性

在之前的水果选择的例子之中,贝斯概率论通过对结果的观测,把先验概率转化成了后验概率,从而改变了结论,认为所选择的盒子是红色盒子的概率更大,尽管先验概率中,蓝色盒子的概率大。同样我们可以采用相似的方法应用于量化曲线拟合例子中的参数。我们首先在观测数据之前,对参数有一个假设,这是根据先验概率分布来假设的。从而观测的目标结果数据,通过条件概率的方式描述出来。也就是参数给定的情况下出现这种结果的概率。然后在目标结果数据观测到之后,我们就可以反推出我们的后验概率, 也就是目标结果数据给定的情况下,参数的概率

在给定参数的情况下,结果数据的概率可以看作是参数的一个函数,就被称为是似然函数,所描述的就是采用不同的参数,观测结果的概率。它是一个关于参数的函数,但是他并不是基于参数的概率分布

在贝叶斯和频率派的理论之中,似然函数都是一个中心的角色。但是在频率派里边,参数被认为是一个固定的参数,误差都包含在可能得观测结果数据分布中。而贝叶斯观点认为,结果观测数据只有这一个,误差是包含在参数的概率分布中。

一个经常被广泛使用的就是最大似然估计,参数会设置为使估计函数值最大的参数值,在模式识别中, 似然估计函数的log取负值,称之为误差函数。log取负是一个单调递减函数,最大化似然估计函数其实就是最小化误差函数。

bootstrap:就是我们有个数据集,然后我们可以根据这个数据集去告诉构造更多的数据集。方法就是从这个数据集里面去取出一些点构造一个子集。取L次,就构造了L个数据集。参数估计的准确度性就可以通过对比这些不同的bootstrap数据集的参数变化来分析。

贝叶斯观点有一个很大的优势就是先验知识很自然地就被包括进来。比如说普通的硬币丢了三次都是头面朝下,用经典的最大似然估计的方法会认为将来的结果也都是头面朝下,与之对比的是贝叶斯方法就不会给出这么一个极端的结论。

贝叶斯方法,如果先验选得不好的话,有很大可能性会给出一个相当差的结果。 贝叶斯方法经常被人家诟病的是,先验经常是为了数学上的方便做出的选择,而不是真的基于先验的可信度。甚至,基于对先验选择的一些依赖而使得结论带有一些主观性,被认为是带来困难的源头。所谓的非信息性先验的动机之一就是为了减少这种对先验的依赖。还有就是贝叶斯派关于不同的模型进行对比的困难。频率派有些方法可以避免这些问题,还有交叉验证方法在模型比较领域也是很有作用。

本书重点是贝叶斯观点,过去的多年贝叶斯应用得到重视。但我们也需要一些频率派的概念。

贝叶斯理论在好早发展起来,但是一直有应用瓶颈,因为完整的贝叶斯处理过程需要在整个参数空间进行,涉及到预测和模型比较问题,这些很困难。随着采样方法的发展,比如马尔科夫链蒙特卡洛的出现,大大提高了计算速度和内存,从而贝叶斯实际应用范围大大拓开。但是还是受到计算的局限,只能应用于小规模问题。

最近,变量贝叶斯和期望传播方法发展起来,提供了更多的采样方法,从而可以应用到大规模问题了。

高斯分布

你可能感兴趣的:(第一章)