统计学习

基本概念

统计学习

统计学习是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 也称为统计机器学习。

统计学习的主要特点
  1. 统计学习以计算机及网络为平台, 是建立在计算机及网络之上的;
  2. 统计学习以数据为研究对象, 是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测与分析;
  4. 统计学习以方法为中心, 统计学习方法构建模型并应用模型进行预测与分析;
  5. 统计学习是概率论、 统计学、 信息论、计算理论、 最优化理论及计算机科学等多个领域的交叉学科, 并且在发展中逐步形成独自的理论体系与方法论
统计学习的对象

统计学习的对象是数据(data)。 它从数据出发, 提取数据的特征, 抽象出数据的模型, 发现数据中的知识, 又回到对数据的分析与预测中去。

统计学习关于数据的基本假设

统计学习关于数据的基本假设是同类数据具有一定的统计规律性, 这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据, 例如英文文章、 互联网网页、 数据库中的数据等。由于它们具有统计规律性, 所以可以用概率统计方法来加以处理。 比如, 可以用随机变量描述数据中的特征, 用概率分布描述数据的统计规律。

数据的类型

数据分为连续型变量和离散型变量。

统计学习的目的

统计学习用于对数据进行预测与分析, 特别是对未知新数据进行预测与分析。

  1. 对数据的预测可以使计算机更加智能化, 或者说使计算机的某些性能得到提高;
  2. 对数据的分析可以让人们获取新的知识, 给人们带来新的发现。
  3. 对数据的预测与分析是通过构建概率统计模型实现的。

统计学习总的目标就是考虑学习什么样的模型和如何学习模型, 以使模型能对
数据进行准确的预测与分析, 同时也要考虑尽可能地提高学习效率。

统计学习的方法

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。 分为:

  1. 监督学习(supervised learning)
  2. 非监督学习(unsupervised learning)
  3. 半监督学习(semi-supervised learning)
  4. 强化学习(reinforcement learning)

对于监督学习,统计学习的方法可以概括如下:
1. 从给定的、 有限的、 用于学习的训练数据(training data) 集合出发;
2. 假设数据是独立同分布产生的;
3. 并且假设要学习的模型属于某个函数的集合, 称为假设空间(hypothesis space);
4. 应用某个评价准则 , 从假设空间中选取一个最优的模型, 使它对已知训练数据及未知测试数据(test data) 在给定的评价准则下有最优的预测;

这样, 统计学习方法包括模型的假设空间、 模型选择的准则以及模型学习的算法, 称其为统计学习方法的三要素。简称为模型(model) 、 策略(strategy) 和算法(algorithm) 。

实现统计学习方法的步骤
  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间, 即学习模型的集合;
  3. 确定模型选择的准则, 即学习的策略;
  4. 实现求解最优模型的算法, 即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。
统计学习的研究

统计学习研究一般包括统计学习方法、 统计学习理论及统计学习应用三个方面:

  1. 统计学习方法的研究旨在开发新的学习方法;
  2. 统计学习理论的研究在于探求统计学习方法的有效性与效率, 以及统计学习的基本理论问题;
  3. 统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去, 解决实际问题。
统计学习的重要性
  1. 统计学习是处理海量数据的有效方法
  2. 统计学习是计算机智能化的有效手段
  3. 统计学习是计算机科学发展的一个重要组成部分。 可以认为计算机科学由三维组成: 系统、 计算、 信息。 统计学习主要属于信息这一维, 并在其中起着核心作用。

你可能感兴趣的:(统计学习方法)