【机器学习300问】3、机器学习中有哪些数据集都有什么用?

在机器学习中,通常将数据集按照不同的功能分成三种:训练集验证集测试集

一、训练集(Training Set)

        作用:用来训练模型算法,模型算法根据这个集合中的样本和对应的标签来学习模型参数或权重。

二、验证集(Validation Set)

        作用:用来调整模型参数、选择模型结构和超参数优化。帮助评估模型在未见过的数据上的表现,防止过拟合。

三、测试集(Test Set)

        作用:用来对最终模型进行性能评估,测试集的结果能反馈模型在实际应用中的泛化能力。

四、三种数据集之间的关系和一般的划分方法

4.1 三种数据集的关系

        在机器学习的过程中,先使用训练集构建模型,再用验证集调参,最后用测试集测试模型性能。有时候也直接分成训练集和测试集,不要验证集。

4.2 数据集的划分方法

        留出法:直接将原始数据随机划分成两部分,比如

                训练集:验证集:测试集 = 70%:15%:15%

                训练集:测试集 = 80%:20%

        交叉验证法:当数据有限的时候,可以采用K折交叉验证法,来充分利用数据。

        自助采样法:用于生成新数据集,尤其是当无法直接分割成多个集合时,通过有放回的抽样方式创建新的训练集,并用剩余的数据作为近似的测试集。

你可能感兴趣的:(【机器学习】,机器学习,人工智能)