统计学习方法入门

统计学习

“学习”的定义:“如果一个系统能通过执行某个过程改进它的性能,这就是学习”。
现如今的机器学习一般就是统计机器学习。
统计学习的对象:data

  1. 提取特征
  2. 抽象模型
  3. 进行分析和预测

统计学习的目标:

  1. 学习什么样的模型
  2. 如何学习模型

统计学习方法类型:

  1. supervised learning
  2. unsupervised learning
  3. semi-supervised learning
  4. reforcement learning
  5. more...

统计学习的步骤

  1. 得到一个有限的训练数据集合, training data
  2. 确定所有学习模型的集合,model
  3. 确定模型选择的准则,strategy
  4. 实现求解最优模型的算法,algorithm
  5. 通过学习方法选择最优方法
  6. 利用最优模型对新数据进行预测分析

监督学习

过程: 输入 ----------> 特征向量 ------>特征空间 ----->输出空间

输入变量X,输出变量Y:

  • 回归问题:输入输出均为连续变量的预测问题
  • 分类问题:输入输出均为有限个离散变量的预测问题
  • 标注问题:输入输出均为变量序列的预测问题

统计学习三要素

  • 模型
    统计学习首要考虑的问题。
    在监督学习中,模型就是所要学习的条件概率分布或决策函数。

  • 策略

    • 损失函数
      • 定义:用来度量输出的预测值f(X)与真实值Y之间不一致(错误)的程度。
      • 常见损失函数:0-1损失函数,平方损失函数
        记作L(f(X),Y)
      • 意义:损失函数数值越小,模型就越好。
      • 期望风险:Rexp(f)
    • 风险函数
      • 经验风险
        定义:模型关于训练数据集的平均损失。
        Remp(f) : sum(L(yi,f(xi)))/N,当N趋于无限大式,经验风险趋于期望风险。
        经验风险最小化容易导致过拟合现象
      • 结构风险
        意义:防止过拟合
        定义: 在经验风险的基础上加上表示模型复杂度的正则化项或罚项
        Rsrm(f) : sum(L(yi,f(xi)))/N + lambda(J(f))
  • 算法
    经过策略,问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
    挑战:如果保证找到全局最优解,并使求解的过程非常高效。

你可能感兴趣的:(统计学习方法入门)