《统计学习方法》第一章总结

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习的对象是数据。目的是对数据进行预测和分析。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。同类数据是指具有某种共性的数据。eg:浏览器中的网页,英语文章等

统计学习分为:监督学习 非监督学习 半监督学习 强化学习

监督学习与非监督学习的区别在于是否有用于学习的训练数据。即 监督学习是要先学习训练集,然后再测试,而非监督学习没有训练数据。

监督学习:从给定的,有限的,用于学习的训练数据(trainingdata)集合出发,假设数据独立同分布;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesisspace),应用于某个评价准则(evaluationcriterion),从假设空间中选择一个最优的模型使得它対已知训练数据以及未知测试数据在给定的评价标准下有最优的预测;最优模型的选取由算法实现。因此监督学习分为两个过程,首先要学习,然后得出一个模型,第二个过程是预测,用得出的模型进行预测。 

统计学习的方法——监督学习 

训练数据由输入和输出对组成:

输入x和输出y,可以是连续的,也可以是离散的。 
输入变量
  输出变量均连续          ——回归问题

输出变量为有限个离散变量的预测问题——–分类问题

输入变量输出变量均为变量序列          ——标注问题



监督学习的方法又可以分为生成方法和判别方法,所学到的模型分布称为生成模型和判别模型。 生成模型是先学习联合概率分布然后再学习条件概率分布,注重输入x和输出y之间的关系,而判别模型是直接学习决策函数或者是条件概率分布,注重的是输入x输出的是怎样的y。


统计学习方法的三要素:模型 策略 和 算法 。

模型:所要学习的条件概率分布或决策函数,其假设空间包含所有可能的条件概率分布或决策函数。

策略:按照什么样的准则学习或选择最优的模型,如损失函数和风险函数。

算法:求解最优模型的具体计算方法。



《统计学习方法》第一章总结_第1张图片

非概率模型和概率模型是不同的描述,书中经常会出现这两中说法

统计学习三要素——策略

损失函数或代价函数用以度量预测错误的程度。损失函数式f(X)和y的非负实值函数,记作L(Y,f(X))。

风险函数或期望损失的定义是损失函数的期望。

经验风险最小化:在假设空间、损失函数以及训练数据集确定的情况下,

经验风险函数就可以确定。经验风险最小的模型就是最优的模型。(F是假设空间。)

 


结构风险最小化是为了防止过拟合而提出来的策略。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。

因此我们十分注重对模型的选择,模型选择分为两种方法:正则化和交叉验证

正则化:结构风险最小化策略的实现,是在经验风险上加一个正则化项,正则化项一般都是模型复杂度的单调递增函数;模型越复杂,正则化值就越大。 

交叉验证:在样本数目不够的情况下,可以将给定的数据切分,将切分的数据组合为训练集和测试集,在此基础上反复训练,测试以及模型选择。

这本书主要讲了感知机、k邻近法、决策树、朴素贝叶斯法、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场。


你可能感兴趣的:(统计学习方法)