大数据案例分析学习笔记1.2(数据集及其拆分)

鸢尾花数据集

大数据案例分析学习笔记1.2(数据集及其拆分)_第1张图片

类别标签的ground truth与gold standard

  • ground truth:可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等,表示通过直接观察收集到的真是结果
  • gold standard:可翻译为金标准。机器学习领域,更倾向于使用“ground truth”。如果用gold standard这个词,则表示可以很好地代表ground truth

数据集与有监督学习

有监督学习中数据通常分为训练集、测试集两部分
1、训练集(training set)用来训练模型,即被用来学习到的系统的参数值
2、测试集(testing set)用于最终报告模型的评价结果,因此在训练阶段测试集中的样本是不可见的。

有时对训练集做进一步划分为训练集和验证集(validation set)。验证集与测试集类似,也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数,因而一般不用于报告最终结果


训练集、测试集的拆分

  • 可以使用sklearn进行训练集测试集的拆分

一、留出法数据拆分步骤:
1、将数据随机分为两组、一组作为训练集、一组作为测试集
2、利用训练集训练分类器,然后用测试集评估模型,记录最后的分类准确率为此分类器的性能指标
优点:处理简单
缺点:测试集上的预测性能的高低于数据集拆分情况有很大关系,所有基于这种数据集拆分基础上的性能评价结果不够稳定

二、K折交叉验证
大数据案例分析学习笔记1.2(数据集及其拆分)_第2张图片
过程
1、数据集被分为K份(k通常取5或者10)
2、不重复德每次取其中一份做测试集,其他k-1份做训练集训练,这样会得到k个评价模型
3、将上述步骤2中的k次评价的性能均值作为最后评价结果

K折交叉验证有助于提高评估结果的稳定性


数据集的分层抽样策略(Stratified k-fold)

将数据集划分为k份,特点在于,划分的k份中,每一份各类别数据的比例和原始数据集中各类别的比例相同

用网格搜索来调超参数(一)

超参数:指在学习过程之前需要设置其值的一些变量,而不是通过训练得到的参数数据。如深度学习中的学习速率等
加粗样式

网格搜索大数据案例分析学习笔记1.2(数据集及其拆分)_第3张图片

用网格搜索来调超参数(二)

大数据案例分析学习笔记1.2(数据集及其拆分)_第4张图片

你可能感兴趣的:(大数据案例分析学习笔记1.2(数据集及其拆分))