统计学习基础知识

    看的是李航的统计学习,上课学期复习(预习)机器学习的时候看过书中的相关内容,觉得讲得算是浅显易懂了。这个学期希望能多啃几本书,多做点项目,好让自己拿得出手QUQ。

以上为吐槽,略(略略略……


    上个学期看了一些书中的内容,对统计学习整体是怎么回事说实话还是有点懵逼的。上午看了第一章,梳理了一下基础知识,对统计学习具体是干啥的,怎么干的,为啥这样干的有了些……emmm更深入的理解(可见我之前学成了什么个鸟样了……)

以下内容在监督学习范围内可食用:

统计学习------是基于数据构建概率模型并用模型对数据进行预测的一门学科,所以统计学习的目的就在于如何学习一个描述输入和输出关系的模型。而其主要处理的预测问题也可以有如下分类:回归问题输入输出均为连续变量)、分类问题输出为有限的离散变量)、标注问题输入输出均为变量序列)。

求解问题的主要步骤有三,缺一不可:

1. 模型 -- 构建输入输出之间的映射关系

2. 策略 -- 对构建的N个模型选择出最优的模型,一般通过损失函数和风险函数对模型进行评估

3. 算法 -- 考虑用什么算法求解选择出的最优模型

对于一个模型,我们通过定义损失函数来表示其预测结果的好坏。损失越高,则预测结果越不好。而损失函数的选择,也会对结果产生一定的影响。一个模型的优良与否,在于其是否能有效的预测数据(泛化能力),而泛化能力就是损失函数的期望。损失函数的期望可表达为:

损失函数

但是由于P(x,y)是不可知的,所以损失函数不能直接求出,要通过经验风险函数来近似估计损失函数,经验风险函数的最小值情况,则能选取最优的模型:

经验风险函数

而在模型的选择中,不同模型的复杂度不同,若复杂度过高,会导致模型过拟合,使其训练误差小而测试误差大。常常使用正则化和交叉验证来减少过拟合。

正则化是在函数后面加上相关的罚项,这一点在优化经验风险函数上也是可用的,正则化的经验风险又称为结构风险。

交叉验证则通过划分出验证集,来查看训练集上的模型是否过拟合,并寻求最不过拟合的那个模型。

你可能感兴趣的:(统计学习基础知识)