统计学习方法的三要素:模型、策略和算法。
统计学习的对象:数据。提取数据的特征,抽象出数据的模型,最后用于数据的分析与预测。
统计学习的母的:统计学习用于对数据进行预测与分析,特别是对未知数据进行预测与分析。
统计学习的方法:统计学习由监督学习、半监督学习、监督学习、迁移学习、增强学习等。
监督学习的方法概括为:从给定的训练数据集合出发(假设数据是独立同分布的),要学习的模型(某一个函数)属于某个函数的集合(假设空间);应用某个评价标准(策略)从假设空间中选取一个最优的模型(函数),用来它预测未知数据的输出能有最优的效果;最优模型的选取是有算法实现的。所以统计学习的三要素是:模型、策略和算法。
实现统计学习方法的步骤:
(1)得到训练数据集合
(2)确定包含所有可能模型的假设空间
(3)确定模型选择的策略,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过算法选择最优模型
(6)利用选出的最优模型对数据进行分析预测
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特徵空间:每个具体的输入是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间,每一维对应一个特征。
输入可以表示为:
xi=(x(1)i,...,x(n)i)T
训练数据通常表示为:
T={(x1,y1),(x2,y2),...,(xN,yN)}
联合概率密度:
监督学习假设输入随机变量与输出随机变量遵循联合概率分布 P(X,Y) ,学习过程中假设这一分布存在,但是学习系统是事先不知道的。训练数据和测试数据可视为是依联合概率分布产生的。
假设空间:
学习的目的在于找到最好的模型(函数),模型是从输入到输出映射的集合。
监督学习的模型可以是概率模型也可以是非概率模型。概率模型指的是条件概率分布 P(Y|X) ,非概率模型指的是决策函数 Y=f(X) 。
在监督学习中,模型相当于一个映射函数,实现从输入到输出的一个映射,统计学习首先考虑的就是学习什么样的模型。
所有可能的模型构成的集合为假设空间,用 F 表示,若用非概率模型表示,则假设空间为:
F={f|Y=f(X)}
若假设空间由参数决定的函数族,则上面的假设空间可以表示为:
F={f|Y=fθ(X),θ∈Rn}
若用概率模型表示,则假设空间为:
F={P|P(Y|X)}
同样若假设空间由参数决定,则假设空间表示为:
F={P|Pθ(Y|X),θ∈Rn}
统计学习需要考虑按什么准则或者标准来学习或者选择最优的模型(函数),目标在于选取最优的模型。所以引入损失函数和风险函数,前者用于度量模型一次预测的好坏,后者用于度量模型平均意义下的好坏。
常用的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。损失函数越小,模型就越好。损失函数的期望可以用来表述风险函数,但是计算风险函数的过程中需要用到联合概率密度函数,但这正是学习的目标。
如果给定一个训练数据集
T={(x1,y1),(x2,y2),...,(xN,yN)}
模型 f(x) 关于训练数据集的平均损失称为经验风险或经验损失:
Remp(f)=1N∑Ni=1L(yi,f(xi))
当N趋于无穷的时候经验风险趋向于期望风险,自然的想法就是用经验风险估计期望风险。这涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))
当样本容量很小时,经验风险最小化学习的效果未必好,可能会产生“过拟合”现象。
结构风险最小化:
结构风险函数:
Rsrm(f)=1N∑Ni=1L(yi,f(xi))+λJ(f)
其中 J(f) 为模型复杂度,模型越复杂它就越大, λ 用于权衡经验风险和模型复杂度。
所以结构风险最小化策略就是:
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)
算法考虑的是用什么样的计算方法求解最优模型,统计学习问题归结为最优化问题。
模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险的基础上加一个正则化项(一般为模型复杂度的单调递增函数)或罚项,如正则化项可以使模型参数向量的范数,如 L2 范数和 L1 范数。
2、交叉验证
另一种常用的模型选择方法是交叉验证。如果训练数据样本充足的情况下,进行模型选择的一种简单方法是随机的将这些数据分成三部分:训练集(训练模型)、验证集(模型的选择)和测试集(评估学习方法)。交叉验证分为:简单交叉验证、S折交叉验证、留一交叉验证等。
泛化能力指由该方法学习到的模型对未知数据的预测能力。采用最多的方法使用测试误差来评价学习方法的泛化能力。事实上泛化误差就是所学习到的模型的期望风险。
学习方法的泛化能力分析往往是通过研究泛化误差的概率上届进行的,简称为泛化误差上界。
生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布作为预测的模型,即生成模型:
P(Y|X)=P(X,Y)P(X)
典型的生成方法有:朴素贝叶斯和隐马尔科夫模型。优点:可以还原出联合概率分布 P(X,Y) ;学习收敛速度更快,存在隐变量时,仍然可以使用。
判别方法由数据直接学习决策函数或者条件概率分布函数作为预测的模型,即判别模型。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。判别方法:直接面对预测,往往学习的准确率更高;同时可以简化学习问题。
本书中主要介绍的问题包括:分类问题、标注问题、回归问题。