1.1统计学习(统计机器学习)
定义:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
特点:
对象:数据,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
基本假设(关于数据):同类数据(指具有某种共同性质的数据)具有一定的统计规律性。
目的:用于对数据进行预测与分析,特别是对未知新数据进行预测与分析,对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高。
目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。
组成:统计学习由监督学习、非监督学习、半监督学习和强化学习等组成
方法的三要素:模型(模型的假设空间)、策略(模型选择的准则)、算法(模型学习的算法)
实现步骤:
研究:一般包括统计学习方法、统计学习理论及统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。
重要性:
1.2监督学习
定义:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练模型及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
监督:监督学习中,监督是指训练数据集是人工给出的。
任务:学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。
输入空间与输出空间:将输入与输出所有可能取值的集合称为输入空间与输出空间,可以是有限元素的集合,也可以是整个欧氏空间( n维空间),可以是同一个空间,也可以是不同的空间。
特征空间:所有的特征向量(每个具体的输入是一个实例,通常由特征向量表示)存在的空间。模型实际上都是定义在特征空间上的。
具体输入变量的表示:
训练集表示:T={(x1,y1),(x2,y2),(x3,y3),…,(xi,yi)}
回归问题:输入变量与输出变量均为连续变量的预测问题。
分类问题:输出变量为有限个离散变量的预测问题。
标注问题:输入变量与输出变量均为变量序列的预测问题。
联合概率分布(联合分布):是两个及以上随机变量组成的随机向量的概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过一非负函数的积分表示。如:打靶时命中的坐标(x,y)的概率分布就是联合概率分布(涉及两个随机变量)。
独立同分布:在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。如果随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布,这意味着X1和X2具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。如实验条件保持不变,一系列的抛硬币的正反面结果是独立同分布。
假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。参数向量决定的函数族参数向量决定的条件概率分布族
组成:监督学习分为学习和预测两个过程,由学习系统和预测系统完成。
在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布或决策函数,描述输入与输出随机变量之间的映射关系。
在预测过程中,预测系统对于给定的测试样本集中的输入,由模型或给出相应的输出
1.3统计学习三要素
三要素表示:方法=模型+策略+算法
模型:就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
损失函数:在统计学中损失函数是一种衡量损失和错误(这种损失与“错误地”估计有关)程度的函数,在监督学习过程中用来度量预测错误的程度。记作L(Y,f(X))。
常用的损失函数:
(1)0-1损失函数
该损失函数的意义就是,当预测错误时,损失函数值为1,预测正确时,损失函数值为0。该损失函数不考虑预测值和真实值的误差程度,也就是只要预测错误,预测错误差一点和差很多是一样的。
(2)平方损失函数
该损失函数的意义就是取预测差距的平方。
(3)绝对损失函数
该损失函数的意义和上面差不多,只不过是取了绝对值,差距不会被平方缩放。
(4)对数损失函数或对数似然损失函数
事实上,该损失函数用到了极大似然估计的思想。P(Y|X)通俗的解释就是:在当前模型的基础上,对于样本X,其预测值为Y,也就是预测正确的概率。由于概率之间的同时满足需要使用乘法,为了将其转化为加法,我们将其取对数。最后由于是损失函数,所以预测正确的概率越高,其损失值应该是越小,因此再加个负号取个反。
风险函数:以下是理论上模型f(X)关于联合分布P(X,Y)的平均意义上下的损失,称为风险函数或期望损失。记作:
损失函数的期望:
经验风险:模型f(X)关于训练数据集的平均损失称为经验风险或经验损失,记作
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。
基本策略:经验风险最小化与结构风险最小化
经验风险最小化策略认为经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。例如,极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等于极大似然估计。
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生过拟合现象。
结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险在经验风险的基础上加上表示模型复杂度的正则化项。在假设空间、损失函数以及训练集确定的情况下,结构风险的定义是:
结构风险最小化策略认为结构风险最小的模型是最优的模型。根据这一策略,按照结构风险最小化求最优模型就是求解最优化问题:
1.4模型评估与模型选择
意义:训练误差的大小,对给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要,测试误差反映了学习方法对未知的测试数据集的预测能力,测试误差小的方法具有更好的预测能力,是更有效的方法。
过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
1.5正则化与交叉验证
两种常用的模型选择方法:正则化与交叉验证
正则化:是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。模型越复杂,正则化值就越大。正则化项可以是模型参数向量的范数。
范数:数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。
正则化一般具有如下形式:其中第一项是经验风险,第二项是正则化项,为调整两者之间关系的系数。
L1范数的定义如下:,表示向量xx中非零元素的绝对值之和。
L2范数的定义如下: 表示向量元素的平方和再开平方。
交叉验证的基本想法是重复的使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复的进行训练、测试以及模型选择。
交叉验证分为简单交叉验证、S折交叉验证、留一交叉验证。
简单交叉验证:首先随机将已给数据分为两部分,一部分做训练集,另一部分做测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出误差最小的模型。
S折交叉验证:首先随机的将以给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
留一交叉验证:S折交叉验证的特殊情形是S=N,称为留一交叉验证。N是给定数据集的容量。
1.6泛化能力
泛化能力:通常将学习方法对未知数据的预测能力称为泛化能力。
泛化误差上界:学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的
1.7生成模型与判别模型
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成模型表示给定输入X产生输出Y的生产关系。
典型生成模型:朴素贝叶斯法和隐马尔科夫模型
判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
典型判别模型:K近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量(不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种东西)时,仍可以用生成方法学习,此时判别方法不能用。假设现在有1000人的身高数据,163、153、183、203、173等等,不出意外肯定是男生或者女生组成的这1000个人,那么这个163cm我们就没办法知道是男生的还是女生,这其中男女就是一个隐变量,我们只能看到163cm,但是看不到背后男女这个隐变量。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高,由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8分类问题
分类器:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。
分类:分类器对新的输入进行输出的预测,称为分类。
类:可能的输出称为类。
多类分类问题:分类的类别为多个时,称为多类分类问题。
分类问题:包括学习和分类两个过程,在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。
分类准确率:评价分类器性能的指标,其定义是对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
二类分类问题常用评价指标是精确率与召回率。
1.9标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
1.10回归问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是 当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型分为线性回归和非线性回归。