机器学习实操的七个步骤

机器学习实操的七个步骤

  1. 收集数据
  2. 准备数据
  3. 选择一个模型
  4. 训练
  5. 评估
  6. 参数调整
  7. 预测

下面我们通过一个案例来了解一下每一个步骤是怎么工作的。

案例:区分红酒和啤酒

收集数据

我们在超市买来⼀堆不同种类的啤酒和红酒,把买来的所有酒都标记出他的颜⾊和酒精度,将数据记录下来。这⼀步⾮常重要,因为数据的数量和质量直接决定了预测模型的好坏。

数据准备

在这个例⼦中,我们的数据是很⼯整的,但是在实际情况中,我们收集到的数据会有很多问题,所以会涉及到数据清洗等⼯作。
当数据本身没有什么问题后,我们将数据分成3个部分:

  • 训练集(60%):用来训练模型
  • 验证集(20%):确保模型没有过拟合
  • 测试集(20%):用来评估模型效果

选择一个模型

研究⼈员和数据科学家多年来创造了许多模型。有些⾮常适合图像数据,有些⾮常适合于序列(如⽂本或⾳乐),有些⽤于数字数据,有些⽤于基于⽂本的数据。
在我们的例⼦中,由于我们只有2个特征,颜⾊和酒精度,我们可以使⽤⼀个⼩的线性模型,这是⼀个相当简单的模型。

训练

⼤部分⼈都认为这个是最重要的部分,其实并⾮如此~ 数据数量和质量、还有模型的选择⽐训练本身重要更多(训练知识台上的3分钟,更᯿要的是台下的10年功)。
这个过程就不需要⼈来参与的,机器独⽴就可以完成,整个过程就好像是在做算术题。因为机器学习的本质就是将问题转化为数学问题,然后解答数学题的过程。

评估

⼀旦训练完成,就可以评估模型是否有⽤。这是我们之前预留的验证集和测试集发挥作⽤的地⽅。评估的指标主要有 准确率、召回率、F值。
这个过程可以让我们看到模型如何对尚未看到的数是如何做预测的。这意味着代表模型在现实世界中的表现。

参数调整

完成评估后,我们可以通过调整参数来进⼀步改进训练。当我们进⾏训练时,我们隐含地假设了⼀些参数,我们可以通过适当的调整这些参数让模型表现的更出⾊。

预测

我们上⾯的6个步骤都是为了这⼀步来服务的。这也是机器学习的价值。这个时候,当我们买来⼀瓶新的酒,只要告诉机器他的颜⾊和酒精度,他就会告诉你,这时啤酒还是红酒了。

参考文章

https://easyai.tech/ai-knowledge-hub/

你可能感兴趣的:(人工智能,机器学习,人工智能)