统计学习方法笔记——第一章 统计学习方法概论(1)

1.1  基本概念 

   统计学习是计算机基于数据构建概率统计模型并用该模型进行预测与分析的一门学科,也称统计机器学习。

    统计学习的特点:建立在计算机网络之上,以数据为驱动进行建模并预测分析的一门学科。是概率论、统计学、信息论、最优化等多领域相结合的交叉学科。

    统计学习的对象:数据。

    统计学习的目的:通过概率建模来挖掘已知数据中蕴含的内在规律,并以此来指导对未知数据的预测与分析。

    统计学习的组成:监督学习、半监督学习、无监督学习、强化学习。其中监督与无监督的区别便是数据是否含有类别标签。比如给定一个函数y=x,若点(2,3)不在该函数上,则(2,3)这个点的标签便是0(也可以是1或者其它的,但一定是有标签的)。若所有的数据都含有类别标签,那便是有监督的学习;反之若所有的数据都没有标签,那便是无监督学习;若部分数据有标签,部分数据无标签,那便是半监督学习。《统计学习方法》一书主要讨论的是有监督的学习。

    统计学习的方法步骤:得到一个有限的训练数据集--->确定所有可能的模型(这些模型组成的集合叫假设空间)--->确定选择最优模型的准则(学习策略)--->实现求解最优模型的算法--->通过学得的最优模型对未知数据进行预测与分析。

    统计学习的三要素:模型、策略、算法。


1.2  监督学习

    监督学习是统计学习极其重要的一个分支,也是《统计学习方法》一书主要讨论的内容。简单来说,监督学习就是给定一个训练集,训练集中的所有数据都是带有类别标签的,然后需要通过学习训练集中的数据,来对未知数据的类别标签进行预测分析。

    输入空间:输入所有可能的取值集合;

    输出空间:输出所有可能的取值集合。

    每个具体的输入通常由特征向量表示,所有特征向量组成的空间叫做特征空间(一般与输入空间不做区分)。

    例如,现有一个输入x,它的特征向量记作,上标代表这个输入x的不同特征。

    一个具体的例子:橙子A=(黄色,椭圆,粗糙),其中橙子A是所有水果中的一个实例输入,它有三个特征(颜色,形状,质感),分别对应的特征值为(黄色,椭圆,粗糙)。

    对于多个输入变量(可以想像输入变量为3个不同的橙子),则用下标予以区分:,下标i代表第i个输入,上标代表第i个输入的某个特征。

    监督学习从训练集中学习模型,训练集通常表示为,由N组输入—输出对组成,输入与输出均可以为连续或离散型变量,每组输入—输出对又称为样本。如样本(x1,y1)。

    监督学习有个大前提,就是假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据与测试数据都是依照该联合概率分布P(X,Y)产生的。简单来讲就是假设训练与测试数据都已经内在地符合某种规律了,我们要做的就是通过学习模型来挖掘出这种规律。

    所有模型的集合叫假设空间(通常包含无数个模型),我们首先要做的是从假设空间中找出最优的模型(模型优秀与否的评判标准下一节再具体介绍)。监督学习的模型可以是概率模型或者非概率模型,分别由条件概率分布P(Y|X)或决策函数Y=f(X)表示,对应的输出预测写作P(y|x)或y=f(x)。

    概率模型最终学到的是一个概率分布,如KNN算法,若待测数据点周围的大部分数据属于A类,则该数据点也属于A类的可能最大。非概率模型最终学到的是一个具体的决策函数,如Decision Tree,有较强的可解释性。

    最后附上书上关于监督学习的流程图:

统计学习方法笔记——第一章 统计学习方法概论(1)_第1张图片



   

你可能感兴趣的:(机器学习)