统计学习方法-框架

本文是作者在阅读李航老师《统计学习方法》后,对其中一些重要概念的理解和思考,算是一种形式的笔记,希望跟大家分享,如果转载,请标明作者和出处。本文会随着作者的阅读和理解的加深而不断修改,由于作者水平有限,错误难免,如果有错请各位不吝赐教。

一、统计学习做什么

统计学习要做什么:要预测未来,通过得到一个“未来函数”来预测未来。

“未来函数”:把预测过程看成一个函数,是函数要有输入输出,输入是你有的资料,输出是你想获得的内容,举个例子,现在有一场足球比赛,你想要测一测比赛的输赢,那么足球比赛的两支队伍的信息,两支队伍曾经交手的信息等等就可以算是输入,而比赛结果就是输出。

二、统计学习大体框架

1. 统计学习的框架是怎样的:静态的分为 输入空间,输出空间,假设空间,把这三个空间搞明白,基础就有了。动态的就是学习过程。

输入空间:就是输入的资料可能的取值空间,由于要输入很多相同格式的资料,所以定义一下格式便很有必要了。一般用字母 来表示输入空间。输入的一份资料通常用一个向量来抽象,一个向量会有很多维度,每一个维度都用一个变量表示,每一个变量都有相应的取值范围,这些取值范围的笛卡尔乘积就是输入空间了。
输出空间:输出结果的取值范围。

假设空间:假设空间是预测模型的可能范围。是在模型确定的基础上建造的空间。模型是指假定的输入和输出之间的关系。比如输入实例x与输出结果y呈线性空间,此时便可以假设y=kx+b,二者呈线性关系,k和b是常数,在这个实例中假设空间就是k和b的取值范围的笛卡尔乘积。也就是说,首先确立模型,模型中会含有参数(如果参数是确定的,就已经可以预测了,不需要学习了),参数的取值范围就是假设空间。

所以,空间就是可能取值范围的集合。

2. 实例,样本和训练集

实例是指一个具体的(向量)值,比如输入实例(1,1)中有两个维度,取值都是1,这就是一个实例。 样本是指一个(输入实例,输出实例)的实例,用符号表示如下:

X代表输入实例,y代表输出实例

训练集是样本的集合,实际训练过程中的输入。


特征空间:与输入空间有密切关系,在一个具体学习算法中,二者可以重合,也可以分开,如果分开,则需要有一层从输入空间到特征空间的映射。在实际应用中,特征是很重要的一步抽象,影响最后的识别结果正确率。


3. 学习过程:想要获得预测模型,需要先训练出预测模型,训练模型的过程就是学习的过程,利用学到的模型预测就是预测过程。
学习过程与我们日常生活中的学习相似:以做练习题为例,先做题,然后对答案,做对了证明会解题了,做不对证明有问题,再去练习,让错误率降低。
统计学习的思想也很像:给模型设定一个初始状态,把输入实例放入实例进行运算,求得结果与输出实例进行比较,如果错了,用 损失函数和风险函数 计算错误程度,然后调整模型,使得错误程度降低。这样就把学习问题转化为错误程度最小化的最优化问题,就可以用解决最优化问题中的许多手段来进行统计学习。
模型详解:通俗理解,模型就是一个数学公式,把输入实例放进去,就可以算出输出实例。有两种模型,一种是决策模型,一种生成模型,决策模型就是函数型  


,给一个输入实例直接计算出输出实例结果,

生成模型稍有不同,是一种概率模型


,给一个输入实例输出各个可能输出结果的概率,一般取最大为最后的输出实例。

上述公式中,代表了假设空间,假设空间就是模型的集合了。
损失函数和风险函数:损失函数就是用来计算错误程度的,怎么衡量错误程度呢,有几种想法:统计错误率


0-1损失函数,可以用来衡量错误率

,计算错误结果到正确结果的距离,


平方损失函数


绝对损失函数

这两种思想通常用于决策模型,还有一种适用于统计模型的:


对数损失函数

,如果正确结果的概率越小则错误程度越高(对公式的直观理解)。上述公式中的L就是指损失函数(Loss)

损失函数确立某一个样本(输入实例,输出实例)的错误程度,并不能够总体把握模型的错误程度。

风险函数就是用来衡量模型的整体好坏。公式:

 可以看出  并不不能够求出该风险函数,因为如果知道了P(x,y)(就是生成模型)模型就是确定的了,不再需要学习。所以通常使用 经验风险

来计算风险,评估模型整体性。
调整模型:经过上述过程后,学习过程已经转化为最优化过程。模型调整就是求解最优化问题的过程。其中会用到一些算法,对不同的模型有不同的算法。

你可能感兴趣的:(机器学习,统计学习方法,框架)