统计学习方法学习笔记(一)————统计学习方法概论

1.统计学习

(1)统计学习概念

        统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。

(2)统计学习的特点

  • 统计学习以计算机及网络为平台,是建立在计算机及网络之上的。
  • 统计学习以数据为研究对象,是数据驱动的学科。
  • 统计学习的目的是对数据进行预测与分析
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
  • 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
  • 统计学习方法三要素:模型、策略、算法

(3)统计学习的对象

         统计学习的对象是数据( data),它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。

        统计学习关于数据的基本假设是同类数据具有一定的统计规律性这是统计学习的前提。可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律

(4)统计学习的目的

        对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

(5)统计学习的方法

        统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

        该书主要讨论监督学习,这种情况下统计学习的方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesisspace);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)

(6)实现统计学习方法的步骤

  • 得到一个有限的训练数据集合
  • 确定包含所有可能的模型的假设空间,即学习模型的集合
  • 确定模型选择的准则,即学习的策略
  • 实现求解最优模型的算法,即学习的算法
  • 通过学习方法选择最优模型
  • 利用学习的最优模型对新数据进行预测或分析

 2.监督学习

(1)监督学习的任务

        监督学习( supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)。计算机的基本操作就是给定一个输入产生一个输出,所以监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富、应用最广泛的部分。

(2)输入空间、特征空间和输出空间

        在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(inputspace)与输出空间(output space)。 输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间*。输入空间与输出空间可以是同一个空间,也可以是不同的空间。但通常输出空间远远小于输入空间。

注:欧几里德空间,简称欧氏空间(Euclidean space),或平直空间,是指一类特殊的向量空间,对通常3维空间V3中的向量可以讨论长度、夹角等几何性质。在数学中,它是对欧几里德所研究的二维和三维空间的一般化,就是把长度和角度转换成任意维数的坐标系。这是有限维、实内积空间的“标准”例子。 欧氏空间是一个特别的度量空间,内积空间是欧氏空间的一般化。

        每个具体的输入是一个实例(instance),通常由特征向量( feature vector)表示.这时,所有特征向量存在的空间称为特征空间(feature space)。i特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上的。

        监督学习从训练数据(training data)集合中学习模型,对测试数据( test data)进行预测。训练数据由输入(或特征向量)与输出对组成。
         输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题.

(3)联合概率分布

        监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。

注意:在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

(4)假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。 

你可能感兴趣的:(统计学习方法,李航,统计学习,数据,监督学习,特征空间)