监督式机器学习与无监督式机器学习

监督式机器学习

监督式机器学习是指数据集中的每条记录都包含标签或标志的问题类型。

监督式机器学习与无监督式机器学习_第1张图片

请考虑下表,其中包含有关最高温度、最低温度和最大振动的信息。

监督式机器学习与无监督式机器学习_第2张图片

最后一列 asperity 是标签。给定温度和振动数据,我们想要预测粗糙度。这是一个带标签的数据集。

使用这个包含标签的数据集,我们可以训练一种算法来预测未标记数据的未来。你把它拟合到你的算法中,算法现在会预测这个数据的标签。这称为监督学习。回归分类是监督学习的两种类型。

回归

必须预测连续值的用例类型称为回归。例如,如果我们向算法传递值 35、35 和 12,则预测粗糙度的值为 0.32。

监督式机器学习与无监督式机器学习_第3张图片

分类

输出为二进制值或至少是离散值而不是连续值的用例类型称为分类。换句话说,该算法不预测数字,而是预测类变量。

监督式机器学习与无监督式机器学习_第4张图片

例如,如果我们将值 35、35 和 12 传递给算法,则预测值 0 表示损坏。

监督式机器学习与无监督式机器学习_第5张图片

如果只有两个类,则称为二元分类。如果有两个以上的类,则具有多类分类。

无监督学习

无监督机器学习是指数据集中没有记录包含任何标签或标志的问题类型。聚类是一种无监督机器学习。

监督式机器学习与无监督式机器学习_第6张图片

聚类

在前面显示的 3 维图中,请注意 3 个数据簇或云。仅通过绘制表格,我们就可以看到数据以三个聚类为中心。此过程称为聚类分析。

监督式机器学习与无监督式机器学习_第7张图片

构建模型

机器学习模型是指使用以前看到的数据构建的数学配置,并设置为以先前计算的一定程度的精度预测新数据。

以下是从头开始构建模型时迭代执行的步骤序列。

  • 数据探索

  • 数据预处理

  • 拆分数据以进行训练和测试

  • 准备分类模型

  • 使用管道组装所有这些步骤

  • 训练模型

  • 对模型运行预测

  • 评估和可视化模型性能

使用 Python 和 scikit-learn 生成和测试第一个机器学习模型中介绍了生成模型的更详细的实践方法。

管道

管道是在机器学习流中设计数据处理的一个非常方便的过程。数据预处理是一个繁琐的步骤,每次训练开始之前都必须对数据应用,无论将应用哪种算法。下图显示了每次在数据建模开始之前应用的典型预处理步骤序列。

监督式机器学习与无监督式机器学习_第8张图片

这个想法是,在使用管道时,您可以保留预处理,只需切换不同的建模算法或建模算法的不同参数集即可。总体思路是,您可以将整个数据处理流程融合到一个管道中,并且该管道可以在下游使用。

监督式机器学习与无监督式机器学习_第9张图片

与机器学习算法类似,管道具有称为拟合、评估和评分的方法。基本上,fit 开始训练,score 返回预测值。

监督式机器学习与无监督式机器学习_第10张图片

交叉验证是使用管道的最大优势之一。它是指使用同一管道更改或调整多个超参数的过程,从而加速算法的优化。有几个超参数可以调整为性能更好的模型。与这些主题相关的详细信息将在以后的文章中介绍。

总结

本教程提供了机器学习的一些基本概念。它提供了一种实用的方法来理解必要的概念,以帮助您入门。

你可能感兴趣的:(人工智能,深度学习)