统计学习方法读书笔记第一章:概论

统计学习方法第一章:概论

  • 统计学习方法读书笔记第一章:概论
    • 统计学习
    • 监督学习
    • 统计学习的三要素
    • 模型评估与模型选择
    • 正则化与交叉验证
    • 泛化能力
    • 生成模型与判别模型
    • 分类问题、标注问题、回归问题

统计学习方法读书笔记第一章:概论

统计学习

  • 统计学习的特点: 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。又称为统计机器学习。
    “如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
  • 统计学习的对象: 统计学习的对象时数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
  • 统计学习的目的: 统计学习用于对数据进行预测与分析,特别是对未知数据进行预测与分析。对数据的预测与分析是通过构建概率统计模型实现的。
  • 统计学习的方法: 统计学系的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
    监督学习:从给定的、有限的、用于学习的训练数据集合出发,假设数据时独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及位置测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
    统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法—统计学习方法的三要素:模型、策略和算法。
  • 统计学习的重要性: 统计学习是处理海量数据的有效方法;统计学习是计算机智能化的有效手段;统计学习是计算机科学发展的一个重要组成部分。

监督学习

  • 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。输入空间、特征空间、输出空间。 在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。监督学习从训练数据集合中学习模型,对测试数据进行预测。回归问题与分类问题。
  • 联合概率分布: 监督学习假设输入与输出的随机变量 X X X Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)。训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律, X X X Y Y Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
  • 假设空间: 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)表示,随具体学习方法而定。
  • 问题的形式化: 在学习过程中,学习系统(也就是学习算法)试图通过训练数据中的样本带来的信息学习模型。
    统计学习方法读书笔记第一章:概论_第1张图片

统计学习的三要素

  • 方法 = 模型 + 策略 + 算法
  • 模型: 统计学习首要考虑的问题是学习什么样的模型。
  • 策略: 有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
    损失函数和风险函数: 对于给定的输入 X X X,由 f ( X ) f(X) f(X)给出相应的输出 Y Y Y,这个输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y可能已知也可能不一致,用一个损失函数或代价函数来度量预测错误的程度。
    (1) 0-1损失函数
    L ( Y , f ( X ) ) = { 1 Y ≠ f ( X ) 0 Y = f ( X ) L(Y,f(X)) = \left\{ \begin{array}{ll} 1 & Y \neq f(X) \\ 0 & Y = f(X) \\ \end{array} \right. L(Y,f(X))={10Y̸=f(X)Y=f(X)
    (2)平方损失函数
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X)) = (Y-f(X))^2 L(Y,f(X))=(Yf(X))2
    (3)绝对损失函数
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X)) = |Y-f(X)| L(Y,f(X))=Yf(X)
    (4)对数损失函数或对数似然损失函数
    L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X)) = -logP(Y|X) L(Y,P(YX))=logP(YX)
    损失函数值越小,模型就越好。由于模型的输入、输出 ( X , Y ) (X,Y) (X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是
    R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f) = E_p[L(Y,f(X))] =\int_{x\times y}L(y,f(x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=x×yL(y,f(x))P(x,y)dxdy
    这是理论上模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失,称为风险函数或期望损失。学习的目的就是选择期望风险最小的模型。
    给定一个训练数据集,模型 f ( X ) f(X) f(X)关于训练数据集的平均损失称为经验风险或经验损失。
    期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大叔定律,当样本容来那个 N N N趋于无穷时,经验风险趋于期望风险
    经验风向最小化与结构风险最小化:
    当样本容量很小时,经验风险最小化学习的效果未必会很好,会产生“过拟合”现象。结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。
  • 算法: 算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

模型评估与模型选择

  • 训练误差与测试误差: 统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好地预测能力。通常将学习方法对未知数据的预测能力成为泛化能力。
  • 过拟合与模型选择: 当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。我们希望选择或学习一个模型,如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型。如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对位置数据预测得很差的现象。

正则化与交叉验证

  • 正则化: 模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。
    正则化符合奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
    从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
  • 交叉验证: 另一种常用的模型选择方法是交叉验证。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。
    (1) 简单交叉验证
    (2) S折交叉验证
    (3) 留一交叉验证

泛化能力

  • 泛化误差: 学习方法的泛化能力是指由该学习方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。如果学到的模型是 f ~ \tilde{f} f~,那么英这个模型对未知数据预测的误差即为泛化误差。泛化误差反映了学习方法的泛化能力。
  • 泛化误差的上界:

生成模型与判别模型

  • 生成方法由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)作为预测的模型,即生成模型:
    P ( Y ∣ X ) = P ( Y , X ) P ( X ) P(Y|X) = \frac {P(Y,X)}{P(X)} P(YX)=P(X)P(Y,X)
    这样的方法之所以称之为生成方法,是因为模型表示了给定输入 X X X产生输出 Y Y Y的生成关系。
  • 判别方法由数据直接学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)作为预测的模型,即判别模型。判别方法关心的是给定的输入 X X X,应该预测什么样的输出 Y Y Y
  • 生成方法特点: 生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),儿判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛域真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
  • 判别方法特点: 判别方法直接学习的是条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 f ( X ) f(X) f(X),直接面对预测,往往学习的准确率更高;由于直接学习 P ( Y ∣ X ) P(Y|X) P(YX) f ( X ) f(X) f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

分类问题、标注问题、回归问题

  • 分类问题:
    TP—将正类预测为正类数;
    FN—将正类预测为负类数;
    FP—将负类预测为正类数;
    TN—将负类预测为负类数。
    精确率定义为:
    P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP
    召回率定义为:
    R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP
    此外,还有 F 1 F_1 F1值,是精确率和召回率的调和平均,即:
    2 F 1 = 1 P + 1 R F 1 = 2 T P 2 T P + F P + F N \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R} \\ F_1 = \frac{2TP}{2TP+FP+FN} F12=P1+R1F1=2TP+FP+FN2TP
  • 标注问题: 可以认为标注问题是分类问题的一个推广。
  • 回归问题: 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

你可能感兴趣的:(统计学习方法读书笔记第一章:概论)