AI基础知识 | 机器学习流程拆解

一个典型的机器学习流程如下：

机器学习处理过程流程图

来解读一下这个图。

（1）原始数据采集

原始数据是机器学习过程的第一步，它从各个渠道被采集而来。在监督学习的场景中还需要对数据进行标记。例如，情感分析模型需要用标签标记，来帮助算法理解人类使用的俚语或讽刺挖苦的表达方式。有时数据标记的工作往往非常耗时耗力，在某些场景中，这类工作不仅对人的专业背景要求高，而且完成标记所需的周期长。

（2）数据预处理

原始数据往往比较粗糙或者噪音较多，需要将这些数据进行预处理，得到有效的训练数据，与普通的数据挖掘不同，深度学习的数据预处理过程主要包含数据归一化（包括样本尺度归一化、逐样本的均值相减、标准化）和数据白化。另外，在预处理阶段，我们还需要将数据分为三种数据集，包括用来训练模型的训练集、开发过程中用户调参的验证集以及测试时所使用的测试集。

（3）训练模型

在正式开始模型训练之前，需要针对我们的训练目标进行分类。理解目标的本质对选择训练的方式至关重要。机器学习可以实现的目标被分为：分类、回归、聚类、异常检测等。前期算法工程师需要通过测试集和训练集，在集中可能的算法中做一些Demo测试，再根据测试的结果选择具体的算法，这样可以规避大范围的训练模型改动带来的损失。

（4）模型评估

我们利用在数据预处理中准备好的测试集对模型进行测试。由于测试集对模型来说，时完全新的数据，因此可以客观地度量模型在现实世界中的表现情况。模型的效果通常以“拟合程度”来形容。例如某个图像识别在模型训练后的误差和人类的平均误差率只相差1%，然而测试集误差比训练集误差高10%，这就意味者该模型在全新的数据上表现不好，过度拟合了。

（5）调参

对模型评估结束后，可以通过调参对训练过程进行优化。参数可以分为两类，一类是超参数，即需要在训练前手动设置的参数，另一种是不需要手动设置、在训练过程中可以自动被调整的参数。调参的过程是一种基于数据集、模型、和训练过程细节的实证过程。

调参是个优雅的过程。它通常需要以来经验和灵感探寻其最优值，本质上更接近艺术而非科学。

（6）推断

这就是机器学习的目的啦~

AI基础知识 | 机器学习流程拆解

你可能感兴趣的:(AI基础知识 | 机器学习流程拆解)