模式识别和机器学习 笔记 第一章Introduction

第一章 introduction
首先举了一个手写识别的例子,介绍了机器学习的基本概念:训练集、测试集合、训练阶段/学习阶段、泛化能力(generalization)、特征选择/抽取、监督式学习、
分类、回归、无监督式学习、聚类、密度估计、可视化、增强学习(reinforcementlearning).
1.1 多项式曲线拟合的例子:
对sin(2 * PI * x)曲线进行多项式拟合,根据sina函数均匀生成带高斯noise的点,作为训练集合以及测试集合。多项式函数是关于w的线性函数,是一种重要的模型,称为线性模型,在第三、四章会详细介绍,与kernal方法结合,是模式识别和机器学习最重要的方法之一。
定义了错误函数:预测值和实际值之间的差的平方和,这个也是在高斯noise下后验概率的估计结果,作为最小化优化的目标函数,求出w。错误函数是关于w的二次函数,所以有唯一的全局最优解,求导数即可以得到w。

书中以多项式的阶次为例说明了模型选择和模型对比的概念。作者以0,1,3,9为例,过度拟合的问题。指出模式识别和机器学习的最重要的问题是模型的泛化能力。
在测试集上定义了错误函数EMS(root-mean-square error):EMS = sqrt( 2 * E(w) / N ) 绘制了训练集和测试集的错误曲线。
书中给出了M的不同值下,多项式的系数,可以发现当M很大的时候,为了拟合训练集合的点,系数会出现很大的正数和负数,导致曲线有比较大的波动,从而导致周围点拟合比较差。也就是当M越大越目标值就越容易产生随机的噪音。

随后介绍了不同规模的训练集对训练模型的影响,当训练集的规模扩大时,复杂的模型,的过度拟合问题就会缓解,并达到更好的效果。也就是说如果训练集合足够大,我们就能够承担得起模型的复杂性。一般来说训练集元素的数量要是参数个数的5到10倍以上。当然模型的复杂性不仅仅反映在参数的个数上。同样我们不应该根据训练集的大小来选择模型,而应该根据问题的复杂性来选择合适的模型。

最小 平方方法是最大似然估计的一个特例,过度拟合也是最大似然估计的一个固有特点。采用贝叶斯的方法,过度拟合的问题就会被克服,因为贝叶斯模型的有效参数是根据
训练集合的大小自动调整的。

采用规范化(regularization的)方法来解决过度拟合的问题。错误函数中添加了
lamdba * 1 / 2 * sqr( || W || )来避免W中出现过大或过小的正负数值。通过对比
选择合适的lamdba值来解决过度拟合的问题。

书中给出了交叉验证的方法来选择模型(多项式中的M)和规范化的参数lambda。

1.2 概率论
模式识别的一个核心问题是不确定性,主要是由于测量的误差和数据集大小的有限性导致的。概率论提供了一致性的框架来定量的描述这种不确定性,是模式识别的一个中心的基础。结合决策论,我们可以根据已有的信息,甚至是不完整有歧义的信息,来做出最优的预测。

书中首先介绍了古典的概率论的基础知识:事件的概率、联合概率、边缘概率、条件概率、加法和乘法法则、先验概率、后验概率、贝叶斯公式、离散型概率、连续型概率、概率密度、期望、方差、协方差。

贝叶斯概率:
在古典型概率中, 概率是描述可重复的随机事件发生的频率。基于频率来解释概率被称为古典型或者频率型。贝叶斯概率给出了更一般的视角:定量的描述不确定性。
使用贝叶斯概率,我们可以描述模型参数比如w的的不确定性或者模型本身的不确定性。贝叶斯理论能够根据已经观察的的数据提供的证据来将先验概率融入到后验概率的计算中。
后验概率 = 似然函数 * 先验概率

广泛使用的基于频率型估计的是最大似然估计。w被估计为使似然函数P(D|w)取得最大值的w。

贝叶斯观点的一个重要的优势是很自然的集成了先验知识:比如一玫均匀的硬币抛掷了三次,都是正面朝上,使用最大似然估计方法,正面朝上的概率为1,但是贝叶斯集成合理的先验概率能够产生不那么极端的结论。

贝叶斯方法通常被批评先验分布通常是选择基于数学上便利的而不是反应事实的先验信念。基于一个不好的先验可能会给出更差的结果。
通过交叉验证的技术可以评测模型之间的好坏。

高斯分布:
高斯分布又成为正态分布,是一种重要的连续型变量的分布。分布函数、期望和方差。
D-维高斯分布函数。

使用最大似然估计μ和σ参数。μ是无偏估计和σ是有偏估计,但当N趋向于无穷时最大似然估计的σ偏差变的不重要,书中给出了σ一个无偏估计。

曲线拟合revisit:
假设概率给定的x,相应的值t具有均值为y(x,w)的高斯分布:
p(t|x, w, β) = N (t|y(x, w), β^−1)
然后使用ML方法估计w和β的值

随后引入了一个超参数α然后进行最大后验概率估计,得到的结果发现,最大化后验概率的结果和最小化 regularized sum-of-squares error function方法的结果一样。

贝叶斯曲线拟合:
使用贝叶斯理论中的加法和乘法原理,得到
p(t|x, x, t) = N( t|m(x), s2 (x) )

1.3 模型选择:
从曲线拟合的例子中,我们可以看到有一个最佳的M似的模型具有最好的泛化能力。多项式的阶控制着多项式自由参数的个数,因此控制着模型的复杂性。我们经常会考虑一系列的不同的类型的模型,然后根据特定的应用选择一个最好的模型,这就是模型选择问题。

书中提出了交叉验证的方法(leave-one-out)来选择模型的参数或者模型。但是存在的问题训练的次数随着参数的增长呈指数级别的增长。
为了解决最大似然方法的偏差,可以添加补偿因子:
ln p(D|wML ) − M
比如Akaike information criterion、AIC

1.4 维度灾难( The Curse of Dimensionality )
在多项式拟合的例子只有一个输入参数x,而在实际中我们可能处理高维的多个输入参数,这将会带来巨大的挑战。

书中举了一个类似k临近的分类的例子,意思是把输入的空间划分成一个个的格子空间,然后统计要药分类数据所在的格子的点数量最多的类别为该点的类别。这个随着空间的增加,格子的数量程指数级别增加。

关于多变量的例子:曲线拟合的例子如果输入变量为D个,那么多项式的系数呈D^M增长,其中M为多项式的阶。

1.5决策论
结合我们前面说的概率论,决策理论能够然我们在不确定的情况下做出最优的决策。
介绍了最小化分类错误率、最小化期望损失
拒绝区间:如果在一个区间内很难做出决策,那么最好别拒绝做出决策,而是让人去做。可以对p(Ck |x)设置一个threshold。
Inference and decision:给出了三种方式:
1)生成模型方式:首先建模分布p(x,Ck),然后得到条件概率,然后做出决策。
2)判别模型:直接对后验概率p(Ck|x)进行建模,然后做出决策。
3)直接给出判别函数,然后将输入直接映射为分类的label。
如果直接对于分类决策问题,使用1方法比较浪费计算资源和需要过多的训练数据,因为联合概率分布可能有很多和后验概率不相干的结构。使用2方法是一个比较直接的好方法。组合1和2方法是机器学习方法现在研究
比较多的。
方法3无法得到后验概率,这将会有很多问题:
a)最小化risk:更新loss矩阵,需要重新从训练数据中更新分类问题。
b)拒绝选择:使用后验概率,我们可以得到一个最小化分类错误的拒绝标准。
c)先验类别的补偿:类别内数量不对称情况,通常使用平衡的训练集合训练出模型,然后使用先验概率作为补偿。比如类别的先验概率。
d)组合模型:对于一些复杂的问题,我们可能将这个问题分成小的子问题,比如根据不同的属性做分类:
p(Ck |xI , xB ) = p(Ck |xI )p(Ck |xB )/p(Ck )
回归问题也类似。

1.6 信息论
我们给一个离散的随机变量x,当我们观测到这个变量的一些值之后,我们想问我们得到了多少信息。信息的多少可以按照“惊奇度”来度量,越是不可能的事件发生,越能给出更多的信息,一定要发生的事件给的信息量为0.
所以度量信息两药依赖于概率分布p(x),所以我们希望找到一种度量,他是p(x)的单调的函数。我们观察两个独立的变量x,y,那么他们的信息量应该是单独观察这两个变量信息量的和,即:h(x,y) = h(x) + h(y) 而p(x,y) = p(x) * p(y),满足这种关系的函数h必须是对数形式:
h(x) = -log p(x)
在通信模型中,增益代表数据的2进制编码长度,所以取2为底的对数。在其他则可以去其他的对数形式,比如自然对数。

相对增益和互信息:
相对增益
对于一个不知道的分布p(x),我们使用一个近似的分布q(x)来建模,那么如果我们使用q(x)来编码数据,那么对于指定的x,平均需要多传输的信息。
书中使用了凸函数的性质,证明的KL(p||q) > 0
可以使用相对增益来描述分布p(x)和q(x)的不相似性。
互信息:
描述两个随机变量接近相互独立的程度:
I[x, y] = KL(p(x, y)||p(x)p(y))
H[x] − H[x|y] = H[y] − H[y|x].

你可能感兴趣的:(Machine,Learning)