数据预处理——数据抽样

数据抽样
今天我们来聊一聊数据抽样!
数据抽样也叫数据采样。数据抽样是选择数据子集对象的一种常用方法。
值得注意的是:
1.在统计学中,抽样的目的是实现数据的调查和分析。
2.在数据挖掘中,抽样的目的是压缩数据量,减小数据挖掘算法的资源开销。
3.在数据挖掘中,抽样主要是从海量数据中产生训练集(Train Set)、测试集(Test Set)和验证集(Validation Set)。
训练集用来模型训练。
测试集用来衡量模型的一些统计指标,如准确率、召回率等。在训练模型的过程中不允许使用测试集,否则会导致模型过拟合。
验证集用来验证模型、辅助构建模型。在使用机器学习算法时,验证集是可选的。

PS:
“过拟合”指的是:模型学习特征过于彻底时,噪声数据也会进入模型,导致后期测试时不能很好地识别数据,泛化能力太差。在周志华老师的西瓜书中是这样举例的:在对树叶分类是模型误认为树叶必须要有锯齿。
“欠拟合”指的是:没有很好地捕捉到数据特征,不能很好的拟合数据。正如西瓜书里说“模型误认为绿色的都是树叶”。
常用的抽样方法有:
1.随机抽样
随机抽样(Random Sampling)是指,每次从数据集中随机取出一条数据作为抽样结果。在此此情况下,每次数据被抽取的概率是一样的。随机抽样是最简单的抽样方法。
随机抽样分为:
有放回抽样:每次抽样的数据不从总体数据中删除。
无放回抽样:每次抽取的数据从总体数据中删除。
2.分层抽样:
如果数据总体由不同类型的对象组成,且每种类型的对象数据差别较大,那么,简单随机抽样不能充分代表不太频繁出现的对象类型。如果分析中需要所有类型的代表,则随机抽样会有问题。分层抽样(Stratified Sampling)就是解决这个问题的抽样方法。
抽样时,分层抽样会从预先指定的组开始抽样。有以下两种方法:
等个数抽样:在不同组内抽取的数据条数一致。
等比例抽样:在不同组内抽取的数据条数符合组与组之间的数据条数比例。
3.系统抽样
系统抽样(Systematic Sampliing)又称为机械抽样、等距抽样。其抽样过程如下:
(1)将数据按照一定的顺序为长度相等的n个部分(假设每一段的长度为l);
(2)从第一部分随机抽取第k个数据;
(3)依次用相等间距l从每一部分中抽取一条数据。
这些抽取出的数据组成抽样样本!
4.渐进抽样
合适的样本容量很难确定,因此有时需要自适应(Adaptive)或渐近抽样(Progressive Samping)的方法。这些方法从一个小的样本集开始,然后逐渐增大样本容量,直至足够容量的样本。
渐近抽样方法不需要在一开始就确定正确的样本容量,但需要一个评估方法,以便确定样本容量增大到何种程度是最合适的。例如,使用渐近抽样来学习一线性回归预测模型。尽管预测模型的准确率随着样本容量的增加而增大,但是在某一点准确率会逐渐减小,我们希望在这一点停止增大样本集。
具体做法是:通过掌握模型准确率随样本增大的变化情况,并选取接近于稳定点的其他样本,可以估算出与稳定点的接近程度,从而决定是是否停止抽样。
样本准确率随样本集容量的变化曲线:

数据预处理——数据抽样_第1张图片
码字不易,求个赞!

你可能感兴趣的:(数据分析)