统计机器学习及监督学习概论

《统计学习方法-第一篇监督学习》统计机器学习及监督学习概论

  • 一、统计机器学习及监督学习概论:
    • (一)、统计学习
      • 1.特点
      • 2.对象
      • 3.目的
      • 4.方法
      • 5.分类
        • 5.1 基本分类
        • 5.2 按模型分类
        • 5.3 按算法分类
        • 5.4 按技巧分类
      • 6.三要素
        • 6.1 模型
          • (1) 假设空间可定义为决策函数的集合:F = {f | Y = f(X)}
          • (2) 假设空间可定义为条件概率的集合:F = {P | P(Y | X)}
        • 6.2 策略
          • 6.2.1 几个概念
            • (1)损失函数 / 代价函数:L(Y,f(X))
            • (2)风险函数 / 期望损失:R~exp~(f)
            • (3) 经验风险 / 经验损失:R~emp~(f)
            • (4) 经验风险最小化ERM:
            • (5)结构风险最小化SRM:
          • 6.2.2 总结
        • 6.3 算法
      • 7.应用
        • 7.1 分类问题
        • 7.2 标注问题
        • 7.3 回归问题
    • (二)、模型评估与模型选择
      • 1.评估
        • 1.1 训练误差
        • 1.2 测试误差
          • (1) 泛化能力
          • (2)泛化误差
          • (3)泛化误差上界
        • 1.3 过拟合
    • (三)、生成模型与判别模型
      • 1.原理
      • 2.特点
    • (四)、后记

一、统计机器学习及监督学习概论:

(一)、统计学习

统计学习 : 也叫统计机器学习,是关于 计算机 基于 数据 构建 概率统计模型 并运用模型对数据进行 预测分析 的一门学科。

1.特点

根据定义,我们可以归纳以下五个特点:

  1. 以计算机及网络为平台,是建立在 计算机及网络 上的;
  2. 以数据为研究对象,是 数据驱动 的学科;
  3. 目的是对数据进行 预测与分析
  4. 以方法为中心,利用 统计学习方法 构建模型并应用模型进行预测与分析;

2.对象

数据
统计学习的前提 :(基本假设)同类数据具有一定的统计规律性。

3.目的

预测与分析 :学习什么模型,如何学习使模型能够准确的预测与分析,同时也要考虑尽可能提高学习效率。

4.方法

从给定的、有限的、用于学习的 训练数据 集合出发,假设数据是 独立同分布 产生的;
并且假设要学习的模型属于某个函数的集合(假设空间);应用某个 评价准则 ,从假设空间中选取一个 最优模型 (由算法实现),使他对已知的训练数据及位置的测试数据在给定评价准则的条件下有最优预测。

步骤

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据今昔你个预测或分析。

5.分类

书中给出了以下四个分类角度

5.1 基本分类

  1. 监督学习 :从标注数据中学习预测模型的机器学习问题。本质是学习输入到输出映射的统计规律。
  2. 无监督学习 : 从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
  3. 强化学习 :智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优的序贯决策。
  4. 半监督学习 :利用标注数据和未标注数据学习预测模型的机器学习问题。目标是利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低成本达到较好的学习效果。
  5. 主动学习 :机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。目标是找到对学习最有帮助的实例,让教师标注,以较小的标注代价达到较好的学习效果。

5.2 按模型分类

  1. 概率模型与非概率模型 :概率模型可表示为联合概率分布的形式;
  2. 线性模型与非线性模型
  3. 参数化模型与非参数化模型 :区别在于参数的维度是否固定;

5.3 按算法分类

  1. 在线学习 :每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。
  2. 批量学习 :一次接受所有数据,学习模型,之后进行预测。

5.4 按技巧分类

  1. 贝叶斯学习 :在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即 后验概率 ,并应用这个原理进行模型的估计,以及对数据的预测。若需给出模型,则去后验概率最多的模型。
  2. 核方法 :使用核函数表示和学习非线性模型的一种机器学习方法。

6.三要素

方法 == 模型 + 策略 + 算法

模型 : 学习什么样式儿的模型;
策略 :依照什么准则学习,即如何选择最优模型;
算法 : 用什么方法求解最优模型;

我们来串一个这个三要素,大概了解一下三者之间的关系就好:

抓到一个问题拿到一堆数据后,我们第一个考虑的是根据我们要学习什么样儿式儿的模型才能解决我们的问题,当然我们并不能一眼看出最终模型是什么,我们只是有个模型的集合,这个集合就可以理解成假设空间(假设可以用到的模型的空间,哈哈哈哈哈哈我瞎说的不过可以这么理解);

第二步呢就是考虑我们要怎么选择出最优模型。那么什么样的模型可以叫做最优呢,自然是预测值越能靠近真实值越好啦~这里就会提到两个概念,即损失函数和风险函数,Emmm后面再说吧

第三步呢自然就是想办法求解这个最优模型了。

6.1 模型

模型就是所要学习的条件概率分布或决策函数。
模型的 假设空间 包含所有可能的条件概率分布或决策函数。
假设空间:F

(1) 假设空间可定义为决策函数的集合:F = {f | Y = f(X)}

F是由一个参数向量决定的函数族:F = {f | Y= fθ(X) , θ∈Rn}
参数向量θ取值于n维欧式空间Rn,称为参数空间

(2) 假设空间可定义为条件概率的集合:F = {P | P(Y | X)}

F是由一个参数向量决定的条件概率分布族:F = {P | Pθ(Y | X) , θ∈Rn}
参数向量θ取值于n维欧式空间Rn,称为参数空间

6.2 策略

策略的意义在于从假设空间中选取最优模型(预测的越准,即预测值越接近真实值越优)。

先引入几个概念:

概念 含义
损失函数 度量模型 一次 预测的好坏
风险函数 度量模型 平均意义 下预测的好坏
经验风险 模型 f(X) 关于 训练数据集 的平均损失
6.2.1 几个概念
(1)损失函数 / 代价函数:L(Y,f(X))

度量预测错误的程度,即Y和f(X)的 非负实值 函数,记作 L(Y,f(X))
损失函数值越小,模型越好。
常见的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。

(2)风险函数 / 期望损失:Rexp(f)

损失函数的期望,是模型f(X)关于联合分布P(X,Y)的平均意义下的损失:
在这里插入图片描述

Rexp(f) = EP[L(Y,f(X))] = ∫x×yL(y,f(x))P(x,y)dxdy

一次预测的好坏对于整个实验来说影响还是小了点儿,对于整个实验我们要选取的是平均意义下的预测最好模型,即寻找期望损失最小的模型;
要求期望损失最低,就要知道联合分布P(x,y)。
然后,联合分布P(x,y)是未知的,也就是说Rexp(f)是不能直接计算的;
那么这个寻找最佳的问题就变成了一个病态的循环:求风险最低 → 联合分布未知 → 需要学习。

(3) 经验风险 / 经验损失:Remp(f)

模型 f(X) 关于训练数据集的平均损失。
Remp(f) =

期望风险是模型关于联合分布的期望损失,由于联合分布未知所以求期望风险最低的方法不可行;
经验风险是模型关于训练样本集的平均损失,训练样本集数据可知,因此经验风险是可求的;
根据大数定律,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Rexp(f);
辣么,我们是不是可以考虑用经验风险替代期望风险来求出最优模型~

但是这里其实还有一个小问题:
由于训练样本数目有限,需进行一定的矫正,见以下两个概念

(4) 经验风险最小化ERM:

策略是求取:
在这里插入图片描述

当样本容量足够大时效果较好,如极大似然估计;
当样本容量很小时,效果不佳可能过拟合。

(5)结构风险最小化SRM:

策略是求取:
在这里插入图片描述

为了防止过拟合,如贝叶斯估计中的最大后验概率估计;
相当于:SRM =ERM + 正则化项/罚项

J(f) : 模型的复杂度,表示对复杂模型的惩罚;模型f越复杂,复杂度值越大;
λ : 系数,用以权衡经验风险和模型复杂度

6.2.2 总结

根据以上几个概念:
求解最优模型 → 求解期望风险最小的模型 → 求解经验或结构风险函数

6.3 算法

这里指的就是具体计算方法,没什么好说的,后面会慢慢学习。

7.应用

7.1 分类问题

Y取有限离散值时,预测问题就变成了分类问题。
此时,X可离散可连续。
常见方法:KNN、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯蒂回归、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow……

7.2 标注问题

输入:观测序列;
输出:一个标记序列或状态序列。
常用方法:隐马模型、条件随机场

7.3 回归问题

预测输入变量和输出变量之间的关系,表示从输入到输出之间的映射关系。

(二)、模型评估与模型选择

1.评估

1.1 训练误差

这个就是训练集上的误差,意义不大,不细说了。

1.2 测试误差

这个是测试集上的误差,反应了学习方法对未知的测试数据集的预测能力。

(1) 泛化能力

由该学习方法学习到的模型对未知数据的预测能力,常通过测试误差来评价其泛化能力。

(2)泛化误差

学习到的模型对未知数据预测的误差,反应了学习方法的泛化能力。

(3)泛化误差上界

可通过比较两种方法的泛化误差上界来比较其优劣。

性质:
1.是样本容量的函数:随样本容量增大而减小(趋于0);
2.是假设空间的函数:随假设空间容量增大而增大(模型越难学)。

1.3 过拟合

指学习时选择的模型所包含的参数过多,以至于出现这一模型对于已知数据预测的很好,但对于未知数据预测的很差的现象。
即,训练误差很小而测试误差很大。

(三)、生成模型与判别模型

1.原理

方法 模型 原理 示例
生成方法 生成模型 数据学习联合概率分布,再求出条件概率分布作为预测的模型 朴素贝叶斯法、 隐马模型
判别方法 判别模型 数据直接学习决策函数或条件概率分布作为预测的模型 K近邻、感知机、逻辑斯蒂归回、最大熵、支持向量机、提升方法和条件随机场等

2.特点

生成方法 判别方法
1.可还原初联合概率分布P(X,Y) 1.不能还原联合概率分布
2.学习收敛速度更快 2.学习准确率更高,可以简化学习问题
3.存在隐变量时也可用生成方法 3.存在隐变量时不能用判别方法

(四)、后记

哇真的是,看书一小时笔记三五小时……
下次我努力精简,节约时间好了……
溜了溜了,写不动了
统计机器学习及监督学习概论_第1张图片

你可能感兴趣的:(锅锅的学习日记,机器学习,机器学习)