统计学习方法 - 第1章 - 概论

全书章节

第1章 统计学习方法概论
第2章 感知机
第3章 k近邻法
第4章 朴素贝叶斯法
第5章 决策树
第6章 逻辑斯谛回归与最大熵模型
第7章 支持向量机
第8章 提升方法
第9章 EM算法及其推广
第10章 隐马尔可夫模型
第11章 条件随机场
第12章 统计学习方法总结

第1章 统计学习方法概论

我们从监督学习起步学习(监督学习、半监督学习、非监督学习、强化学习),第1章主要是概述介绍统计学习方法的基础概念和基本方法论。

一、统计学习方法的三要素

1 模型

统计学习方法在于学习一个由输入到输出的映射。

模型就是指这个映射关系(输入空间的元素通过模型映射到输出空间的某个元素)

2 策略

对于模型的集合称为假设空间,统计学习方法的目标在于从假设空间中选取最佳的模型。策略即指从假设空间中选取最佳模型的过程。

在策略中相关的函数(判断模型效果的工具):

  • 损失函数:
    损失函数亦称为代价函数,衡量模型映射值(预测值)与真实值之间的差异程度
  • 风险函数:
    风险函数用于衡量模型的平均损失,即损失函数的期望值
  • 经验风险最小化:
    风险函数最优模型的一种
    例:极大似然估计1
  • 结构风险最小化:
    因防止过拟合(过拟合的概念将在下节详述)而生,等价于正则化,在经验风险基础上加上表示模型复杂度的正则化项(罚项)。

3 算法

算法:学习模型的具体计算方法

二、模型评估与选择

1 基本概念

本节内容为模型评估与模型选择,即策略的过程分析,在分析中主要需要使用的工具即为前述的损失函数、风险函数等。

假如在假设空间中存在一个完美的模型,输入空间的元素可以根据该模型完美地映射至输出空间的元素(即预测值与真实值完全一致),统计学习的目标就在于找出该模型,或选择到尽量逼近完美模型的模型。

  • 过拟合:
    由于过于追求提高训练数据(输入空间)的预测能力(通过模型模拟数据),在学习时选择的模型所包含的参数过多,以至于出现该模型对已知数据预测有很好的效果,但对未知数据预测效果很差。该情况称为过拟合。

最佳模型的选择,往往是预测效果和复杂度的综合考虑,旨在避免过拟合,并提高模型预测能力。

2 正则化

正则化是模型选择的一种典型方法,是结构风险最小化策略的实现。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。
后文将继续探讨正则化的应用场景。

3 交叉验证

数据集(输入空间的元素)可以分类为训练集、验证集和测试集。

  • 训练集:用于训练模型
  • 验证集:用于模型的选择
  • 测试集:用于模型的评估

常见验证方法

  • 简单交叉验证
    简单地将数据集分为训练集和测试集两部分;
    通过训练集训练模型,通过测试集评估模型效果
  • S折交叉验证
    随机将数据切分为S个互不相交的数据集;
    利用其中S-1个子集作为训练集,剩余的子集作为测试集;
    重复迭代S-1个训练集的选择(共S种),选出平均测试误差最小的模型
  • 留一交叉验证
    S=N的情况,称为留一交叉验证,N为给定数据集的容量;
    即每个子集里面只有一个元素

4 泛化能力

  • 泛化误差:
    学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。

前述的损失函数、风险函数都是通过测试误差来评价学习方法的泛化能力,但这种评价依赖于测试数据集,而统计学习理论则是尝试从理论上对学习方法的泛化能力进行分析。

泛化误差而言,是对于某个模型进行预测值的评估,但我们需要的是对整个假设空间进行评价,从而帮忙从假设空间中选择最优模型,因此需将泛化误差进行拓展。

  • 泛化误差上界,即泛化误差的概率上界,主要性质包括:
  1. 作为样本容量的函数,当样本容量增加时,泛化上界趋向于0。即测试集的数据量越大,预测值出现误差的概率就越低(当测试集等同于数据集容量时,已经不存在预测的需要,因为所有的值都是已知);
  2. 作为假设空间容量的函数,假设空间越大,模型就越难学,泛化误差上界就越大。
  • 泛化误差上界定理
    对于二类分类问题,当假设空间是有限个函数的集合 ƒ={f1, f2, f3, … ,fd} 时,对任意一个属于ƒ的函数f,至少以概率1-µ,以下不等式成立:
R(f) ≤ R^(f) + ç(d, N, µ)

其中,

ç(d, N, µ) = √{(1/2N)*[log d + log(1/µ)]}

R(f) 是指f的期望风险, R^(f)是指f的经验风险,N是样本容量。
不等式的左边是泛化误差,右边为泛化误差上界。
ç是关于N的单调递减函数,当N趋向于无穷大时ç趋向于0.

对于泛化误差上界定理的证明需借助Hoeffding不等式,证明过程不易理解。但不要紧,泛化无差上界定理的目的在于表明,泛化误差的上界是必然存在的(泛化误差上界的存在性)

三、模型的生成和判别

监督学习方法中区分了生成方法、判别方法:

  • 生成方法:由数据学习联合概率分布,求出条件概率分布作为预测模型。数据 + 概率分布 -> 条件概率分布模型,重点关注的是模型
  • 判别方法:由数据直接学习决策函数或条件概率分布,进行数据预测。 重点关注的是决策

四、主要问题介绍

1 分类问题

分类问题包括两个过程:学习 -> 分类

  • 通过已知的数据集进行分类模型(分类器)的学习;
  • 利用学习的分类器对新的输入实例进行分类

分类器的评价指标一般是分类准确率,即正确分类的样本数与总样本数的比率
针对二分类问题(分类的类别只有2类),常用的分类效果评价指标是精确率召回率
首先需要说明的是,对于二分类问题,目标往往是在于从整体(样本容量)中识别出关注的类。通常以关注的类作为正类,其他类为负类,我们可以将分类的结果情况作以下的约定:

  • TP:将正类预测为正类数(True Positive)
  • FN:将正类预测为负类数(False Negative)
  • FP:将负类预测为正类数(False Positive)
  • TN:将负类预测为负类数(True Negative)
  • 精确率定义
P = TP / (TP + FP)

精确率与分类准确率存在定义上的差异,精确率关注的是在正类结果中的分类正确率

  • 召回率定义
R = TP / (TP + FN)

召回率针对的是正类真实值中的分类正确率

  • F1值:精确率和召回率的调和均值
2/F1 = 1/P + 1/R

即:

F1 = 2TP / (2TP + FP + FN)

基于以上的分类问题介绍,后续的章节中将会详细介绍学习包括k近邻法、感知机、朴素贝叶斯法等分类方法。

2 标注问题

从字面上简单理解标注问题,即通过模型对观测值进行标注,本质上等同于分类问题。我们接下来去探索标注问题与分类问题的差异。

“标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测”
上段落是《统计学习方法》中的原文,标注问题实质上是对于分类问题的推广延伸。分类问题的观测数据集为标量,与观测值的次序无关;而标注问题中观测数据集是向量,在相同的数据集合中,不同的数据次序表示了不同的“方向”。

首先给定一个训练数据集 T = { (x1, y1), (x2, y2), … , (xN, yN) },
这里的xi是一个n维向量,N是指观测数据集的样本容量。xi = (xi(1), xi(2), … , xi(n))T 对应的输出标记序列为 yi = (yi(1), yi(2), … , yi(n))T

标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。即对每个观测序列 xN+1 = (xN+1(1), xN+1(2), … , xN+1(n))T,找到使条件概率 P(((yN+1(1), yN+1(2), … , yN+1(n))T)|(xN+1(1), xN+1(2), … , xN+1(n))T) 最大的标记序列 yN+1 = (yN+1(1), yN+1(2), … , yN+1(n))T
其预测效果的评价指标,与分类问题的评价指标定义一致。

原书中讲述了一个例子:从英文文章中抽取基本名词短语
英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的“开始”、“结束”或“其他”,分别以B(Begin)、E(End)、O(Others)表示,标记序列表示英文句子中基本名词短语的所在位置。
信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。例如,给出以下的观测序列,即英文句子,标注系统产生相应的标记序列,即给出句子中的基本名词短语。

  • 输入
    At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.
  • 输出
    At/O Microsoft/B Research/E, we/O have/O an/O insatiable/B curiosity/E and/O the/B desire/E to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

3 回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系(分类问题重点在于结果的预测)。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。回归问题的两个过程为:学习 -> 预测,最常见的应用为最小二乘法求解。在本节中不展开详述。

统计学习方法 - 第1章 - 概论_第1张图片

符号标记说明

  • arg maxy(N+1) P(yN+1|xN+1):使P(y|x)值最大的x参数

附:习题

  1. 说明伯努利模型2的极大似然估计以及贝叶斯估计3中的统计学习方法三要素
    参照高手的答案:《统计学习方法》第1章 课后题答案
  2. 通过经验风险最小化推到极大似然估计
    参照高手的答案:李航 统计学习方法 第一章 课后 习题 答案

本章完。


  1. 极大似然估计:
    百度百科 - 极大似然估计 ↩︎

  2. 伯努利模型:
    百度百科 - 伯努利模型
    百度百科 - 伯努利分布 ↩︎

  3. 贝叶斯估计:
    百度百科 - 贝叶斯估计 ↩︎

你可能感兴趣的:(机器学习,统计,算法,统计学习方法)