模式识别学习笔记(1)——基本概念

模式识别学习笔记——绪论

一、从数据集D中产生训练集S和测试集T,主要有以下方法:

——hold-out(留出法)

——cross-validation(交叉验证法)

——bootstrapping(自助法

hold-out(留出法)

将数据集分为两个互斥的集合,D=S∪T,且S∩T=∅。

attention:

1、训练集和测试集中的类别比例相似,可以利用分层抽样得到。比如说1000个样本中有男女各500个,若训练集和测试集数据个数分别为800和200个,则训练集应该包含400个男,400个女;测试集应该包含100个男,100个女。

2、即使是分层抽样,仍有很多种划分方式对数据集进行分割,因此一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

一般从数据集中取2/3~4/5作为训练集,剩余作为测试集。

cross-validation(交叉验证法)

将数据集D分成k个大小相似的两两互斥的集合。和留出法一样,k个集合中的每个集合的类别比例通过分层抽样得到。每次用k-1个集合作为训练集,剩下的集合作为测试集,则共有k组训练集和测试集。

attention:

1、交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值

2、和留出法一样k折交叉验证需要随机使用不同的划分p次,故最终评估结果为p次k折交叉验证评估结果的均值

3、当k等于D中的样本数时,就得到了一个特例:留一法(leave one out ,LOO)。留一法的评估结果被认为比较准确,但是当数据集比较大时,数据计算量太大。

bootstrapping(自助法

利用数据集D(有m个样本)产生数据集D’(类似于有放回的摸球):每次从数据集D中挑选一个样本,拷贝到数据集D’中,再放回数据集D,重复m次,则数据集D’和数据集D有相同的样本个数(称为自助采样)。但是数据集D’中有些样本是重复的,且数据集D中的有些样本没有采到,数据集D中有0.368的样本没有被采到,将D’作为训练集,其他没采到的作为测试集。

attention:

1、自助法适用于数据集小,难以有效划分训练和数据集的情况

2、因为自助法产生的数据集改变了初始数据集的分布,会引入估计偏差,故初始数据量足够时,常采用留出法和交叉验证法。

二、生成模型和判别模型

生成(generative)模型:表示各个类别内部结构或特征分布p(x|c)

判别(discriminative)模型:表示不同类别之间的区别,一般为判别函数、边界函数或后验概率P(c|x)

生成学习:得到每个类别的结构描述或分布函数,不同类别分别学习

判别学习:得到判别函数或者边界函数的参数,所有类别同时学习

参考资料:

中国科学院大学硕士课《模式识别》ppt

西瓜书——《机器学习》周志华


你可能感兴趣的:(学习笔记)