统计学习方法概论总结(一)

统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行分析和预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。

统计学习方法三要素--模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。

监督学习概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。

统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可以产生过拟合现象。模型选择的方法有正则化和交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。

分类问题,标注问题和回归问题都是监督学习的重要问题。统计学习方法包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔科夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。他们又可以归类为生成方法与判别方法。

1. 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到的伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

三要素分别是模型,策略,算法。

模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。

策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,只不过贝叶斯估计使用的是结构风险最小化。

算法:极大似然估计所使用的算法是求取经验风险函数的极小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。


 

你可能感兴趣的:(统计学习方法)