统计学习(监督学习)框架总结

以下内容参考《统计学习方法》李航著,《Python机器学习及实践》范淼、李超著

机器学习:监督学习——对事物未知表现的预测

                    无监督学习——对事物本身特性的分析

                    半监督学习,强化学习

无监督学习:数据降维——对事物的特性进行压缩和筛选,如图像降维时保留最具有区分度的像素组合

                        聚类——依赖于数据的相似性,把相似的数据样本划分为一个簇。不会预先知道簇的数量和每个簇的具体含义

统计学习:数据——>提取数据特征——>抽象数据模型——>对数据预测分析

——————————————————————————————————————

                    模型————————策略————————算法          

                假设空间——————评价准则——————模型选取     

                不同模型——————损失函数—————  解优化问题

(同一学习方法不同参数)

——————————————————————————————————————

学习模型:决策函数f(X),条件概率分布P(Y|X)

优化目标:损失函数————>期望风险————>经验风险——经验风险最小化————>结构风险=经验风险+正则化项

统计学习(监督学习)框架总结_第1张图片


过拟合:

过分追求提高对训练数据的预测能力,所选模型的复杂度比真实模型复杂度更高———学习模型包含的参数过多。


模型选择:正则化,交叉验证

正则化:结构风险最小化,在经验风险上加上一个正则化项/罚项,正则化项是模型复杂度的单增函数



训练集/测试集——>简单交叉验证

训练集/测试集——>S折交叉验证,留一交叉验证(选择“多次评测的平均测试误差最小的”模型)


泛化能力

学到模型对未知数据预测的误差,即为泛化误差——学习方法的泛化能力,所学习到的模型的期望风险




生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型P(Y|X)=P(X,Y)/P(X)————存在隐变量

典型的生成模型:朴素贝叶斯法,隐马尔可夫模型

判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。即对给定的输入X,应该预测什么样的输出Y。

典型的判别模型:k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法,条件随机场


监督学习:分类问题,标注问题,回归问题

可用于分类问题的统计学习方法:k近邻法,感知机,朴素贝叶斯法,决策树,决策列表,逻辑斯蒂回归模型,支持向量机,提升方法,贝叶斯网络,神经网络,Winnow

可用于标注问题的统计学习方法:隐马尔可夫模型,条件随机场








你可能感兴趣的:(ML和DL算法)