统计学习方法笔记1—概论

第一章统计学习方法概论

1.1统计学习

  1. 统计学习特点:计算机网络平台,数据驱动,构建模型,预测分析
  2. 统计学习对象:data,具有一定统计规律的数据
  3. 统计学习目的:预测分析
  4. 统计学习方法:模型,策略,算法; 统计学习方法的步骤: 统计学习方法笔记1—概论_第1张图片
  5. 统计学习方法的研究:理论与应用
  6. 统计学习方法重要性:数据挖掘领域核心技术

1.2监督学习

1.2.1基本概念

  1. 输入空间,输出空间,特征空间
    实例的特征向量表示:在这里插入图片描述
    特征空间:表示实例的特征向量的集合
    训练集的表示:在这里插入图片描述
  2. 联合概率分布
    输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数。
  3. 假设空间
    输入空间到输出空间的模型集合,就是假设空间。
    监督学习的模型分非概率模型(决策函数Y=F(X))和概率模型(条件概率表示)

1.2.2问题形式化

监督学习问题:
统计学习方法笔记1—概论_第2张图片

1.3统计学习三要素(模型,策略,算法)

1.3.1模型

模型:由输入到输出的一个函数,所有模型(函数)构成假设空间。
模型分类:由决策函数表示的模型称为非概率模型;由条件概率表示的模型称为概率模型。
非概率模型:
统计学习方法笔记1—概论_第3张图片

概率模型:
统计学习方法笔记1—概论_第4张图片

1.3.2策略(如何从假设空间选择最优模型)

策略即衡量模型好坏的一个度量标准。

  1. 损失函数与风险函数
    损失函数:利用模型进行预测的输出值f(X)与真实值Y的度量函数,记为L(Y,f(X))。
    统计学习中常用的损失函数:
    统计学习方法笔记1—概论_第5张图片
    风险函数(期望损失):平均意义下的损失,即损失函数的期望值。
    在这里插入图片描述
    模型选择即策略就是选择期望风险最小的模型。
  2. 经验风险最小化与结构风险最小化
    经验风险:当具体到某一训练集上时,风险函数就变为经验风险,经验风险是关于训练样本集的平均损失。根据大数定律可以知道,当样本足够大时,经验风险就是风险函数。
    统计学习方法笔记1—概论_第6张图片
    经验风险最小化策略:最优模型即经验风险最小时的模型。
    在这里插入图片描述
    当样本容量过小时存在问题:过拟合现象—结构风险最小化
    结构风险最小化:在经验风险上加上表示模型复杂度的正则化项(罚项)
    结构风险定义为:
    在这里插入图片描述
    尾项表示模型复杂度,模型越复杂,结构风险越大,反之,模型越简单,结构风险越小。即可以有效防止过拟合问题。

1.3.3算法

在这里插入图片描述

1.4模型评估与模型选择

1.4.1训练误差与测试误差

训练误差:关于训练数据集
统计学习方法笔记1—概论_第7张图片
测试误差:关于测试数据集
在这里插入图片描述

1.4.2 过拟合与模型选择

过拟合现象:对于训练数据预测能力极高的高复杂度的模型 ,这类模型过于追求对于训练数据的拟合程度,训练误差极低,但导致模型参数过多,复杂度太高,而且对于未知数据的预测能力低,测试误差太大。
如何衡量模型复杂度与测试误差及训练误差的关系?
统计学习方法笔记1—概论_第8张图片
统计学习方法笔记1—概论_第9张图片

1.5正则化与交叉验证

1.5.1正则化

正则化:结构风险最小化策略的实现,为了选择经验风险与模型复杂度同时较小的模型。
正则化项:模型复杂度的单调递增函数,模型复杂度越高,正则化值越大。
正则化项不同形式:(范数?
统计学习方法笔记1—概论_第10张图片

1.5.2交叉验证

数据集分为训练集,验证集,测试集,利用三个集合对模型进行来回验证,即交叉验证。
分类:简单交叉验证;S折交叉验证;留一交叉验证

1.6泛化能力

1.6.1 泛化误差

泛化误差即模型的期望风险。
在这里插入图片描述

1.6.2泛化误差上界

泛化误差上界性质:与样本容量成反比,与假设空间容量成正比。
二分类的泛化误差上界:
统计学习方法笔记1—概论_第11张图片

1.7生成模型与判别模型

生成模型:
统计学习方法笔记1—概论_第12张图片
判别模型:
在这里插入图片描述
优缺点:
统计学习方法笔记1—概论_第13张图片

1.8 三大监督学习问题

  1. 分类问题
    统计学习方法笔记1—概论_第14张图片
    分类问题中的模型称为分类器,评价分类器性能的指标有以下:
    统计学习方法笔记1—概论_第15张图片
  2. 标注问题
    统计学习方法笔记1—概论_第16张图片
    经典应用:词性标注问题
    常用统计学习方法:隐马尔科夫模型,条件随机场
  3. 回归问题
    统计学习方法笔记1—概论_第17张图片

你可能感兴趣的:(统计学习笔记)