1.2.1 监督学习:
监督学习的本质是学习输入到输出的映射的统计规律,这一映射由模型来表示
(1)输入空间、特征空间和输出空间
每个具体的输入是一个实例,通常由特征向量表示。这时,所有的特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。模型实际上都是定义在特征空间上。
输入变量与输出变量均为连续变量的预测问题称为回归问题。
输出变量为有限个离散变量的预测问题称为分类问题。
输入变量与输出变量均为变量序列的预测问题称为标注问题。
(2)联合概率分布
训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
(3)假设空间
监督学习的目的就在于找到最好的输入到输出的映射规律,即最好的模型。
由输入空间到输出空间的映射的集合,这个集合就是假设空间。即模型的集合
(4)问题形式化
监督学习分为学习和预测两个过程
1.2.2 无监督学习:
无监督学习的本质是学习数据的统计规律或潜在结构。
1.2.3强化学习:
强化学习的本质是学习最优的序贯决策。
补充:
序贯决策: 是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。
1.3.1模型
监督学习过程中,模型就是所要学习的条件概率分布或决策模型。
1.3.2策略
有了模型,就要考虑按照什么样的准则学习或选择最优的模型。
统计学习的目标在于从假设空间中选取最优模型。
损失函数和风险函数:
损失函数越小模型越好!
1.3.3算法
算法是指学习模型的具体计算方法
**
1.4.1训练误差与测试误差
1.4.2过拟合与模型选择
是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测的很好,对未知数据预测的很差的现象。可以说模型的选择旨在避免过拟合并提高模型的预测能力。
拟合可以通过最小二乘法求得唯一参数解:
转载:http://www.360doc.com/content/18/0706/10/15930282_768242401.shtml
为防止过拟合,选择复杂度适当的模型,以达到使测试误差最小的学
习目的。有两种常用的模型选择方法:正则化与交叉验证。
其中,第1 项是经验风险,第2 项是正则化工页, λ大于等于0 为调整两者之间关系的系数。
交叉验证:
简单交叉验证
简单交叉验证方法是:首先随机地将己给数据分为两部分, 一部分作为训练集,另一部分作为测试集(例如,70% 的数据为训练集,30% 的数据为测试集) ;然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
应用最多的是S 折交叉验证C S-fold cross validation) ,方法如下:首先随机地将已给数据切分为S 个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型:将这一过程对可能的S 种选择重复进行;最后选出S 次评测中平均测试误差最小的模型。
S 折交叉验证的特殊情形是S = N , 称为留一交叉验证,往往在数据缺乏的情况下使用。这里, N 是给定数据集的容量。
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
回归(regression) 是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。
转载:
如何通俗地理解“最大似然估计法”?
https://www.matongxue.com/madocs/447
理解无偏估计:
https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247490340&idx=1&sn=0d2b1bcacd3aec82de88038c6ee3fa9a&chksm=e83a71cfdf4df8d9ab5d789bdaad4c9fe2744210ee6fa339f3a48ad6aabf83f31fc0aa228fe9&scene=21#wechat_redirect