《统计学习方法》笔记--概述

统计学习概述

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。目的是使得计算机系统通过运用数据及统计学习方法提高系统性能。

统计学习方法可以概述如下:

从给定的,有限的用于训练的数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设模型中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评定准则下有最优的预测;最优模型的选取由算法实现。

统计学习分类

基本分类

  1. 监督学习:从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射统计规律

  2. 无监督学习:从无标注的数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或潜在结构

  3. 强化学习:智能系统在与环境的连续交互中学习最后最优行为策略的机器学习问题,本质是学习最优的序贯决策。智能系统的目的不是短期奖励的最大化,二十长期累积奖励的最大化。

  4. 半监督学习:指利用标注数据和未标注数据学习预测模型的机器学习问题。主要是通过未标注的数据中的信息,辅助标注数据进行监督学习。

  5. 主动学习:指机器不断主动给出具有较高区分度的实例进行标注,然后利用标注数据学习预测模型的机器学习问题。

按照模型分类

  1. 概率模型/非概率模型:两者的区别不在于输入和输出之间的映射,而在于模型的内在结构。概率模型一定可以表示为联合概率分布的形式,而非概率模型则不一定存在这样的联合概率分布。
  2. 线性模型/非线性模型:根据模型的函数表达形式是否是线性函数分为线性模型和非线性模型。
  3. 参数化模型/非参数化模型:参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画,非参数化模型假设模型参数的维度不固定,随着训练数据量的增加而不断增大。

按照算法分类

  1. 在线学习:每次接受一个样本,进行预测,之后学习模型,并不断重复该循环步骤的机器学习问题。
  2. 批量学习:一次接受全部的数据,学习模型之后进行预测。

按照技巧分类

  1. 贝叶斯学习:在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,并应用这个定理进行模型的估计以及数据的预测。
  2. 核方法:使用核函数表示和学习非线性模型的一种机器学习方法。

统计学习方法三要素

模型

模型就是要学习的条件概率分布或者决策函数

策略

策略就是学习或者选择模型的准则

  1. 损失函数度量模型一次预测的好坏
  2. 风险函数度量平均意义下模型预测的好坏,也称为期望损失
  3. 期望风险是模型关于联合分布的的期望损失
  4. 经验风险是模型关于训练样本集的平均损失
  5. 结构风险是在经验风险上加上表示模型复杂度的正则化项或罚项
  6. 训练误差是指模型关于训练集的平均损失
  7. 测试误差是指模型关于测试集的平均损失
  8. 过拟合是指学习时选择的模型所包含的参数过多,以至于模型对已知的数据预测的很好,而对未知的数据预测的很差的现象。
  9. 交叉验证:
    • 简单交叉验证(流出交叉验证):
      • 随机将数据分为两部分,一部分用于训练集,一部分用于验证集。
    • K折交叉验证:
      • 随机将数据切分为K个互不交互,大小相等的数据集,每次用其中的K-1个数据集进行训练,用余下的子集测试模型,这样进行K次,用K次的平均值作为模型评价指标
    • 留一交叉验证:
      • K折交叉验证的特例,取K折数等于数据集容量N
  10. 泛化误差:模型对未知数据预测的误差的期望
  11. 生成模型/判别模型:
    • 生成模型通过数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 然后求出条件概率分布 P ( X ∣ Y ) P(X|Y) P(XY) 作为预测的模型。它表示了给定输入 X X X输出 Y Y Y的生成关系。
    • 判别模型通过数据直接学习决策函数 f ( X ) f(X) f(X) 或者条件概率分布 P ( X ∣ Y ) P(X|Y) P(XY) 作为预测模型。它关心的是对给定的输入 X X X,应该预测什么样的输出 Y Y Y

算法

算法就是学习模型的具体计算方法

你可能感兴趣的:(大数据与网络安全,《统计学习方法》笔记)