【机器学习300问】7、怎么进行机器学习?机器学习的基本流程是什么?

一、写在前面        

        也许你和我一样,在刚开始学习机器学习的基本知识的时候,学到了很多的零碎知识点,无法穿成线织成网,本文是机器学习中提纲挈领的一环,将和你一起将今后所有的知识点都捕捉在这张网中。

        当你在问“我该改怎么进行机器学习?”或者“我怎么去用机器学习?”的时候,其实你是想知道“机器学习的基本流程是什么?”。每当你开始一个机器学习项目的时候,请你务必在心中复习一下机器学习的基本流程。

二、机器学习的基本流程(八步走)

        机器学习的基本步骤怎么划分大同小异,我自己为了记忆方便,取名“机器学习八步走”

(1)问题的定义与理解

  • 明确目标:明确机器学习项目的目标,识别要解决的业务或科学问题
  • 确定类型:确定任务类型(如分类、回归、聚类、强化学习等)

(2)数据收集

  • 数据来源要求:数据来源可能包括网络爬取、数据库、日志文件、传感器、API接口等
  • 数据的质量与数量要求:收集相关的原始数据,确保数据的质量和数量能够满足建模需求
  • 数据的结构要求:包括结构化数据(如数据库中的表格数据)和非结构化数据(如文本、图像和音频)

(3)数据预处理

  • 数据清洗:异常值处理、缺失值处理、转换不一致的数据格式等
  • 数据标准化/规范化:对数值型特征进行归一化或标准化操作,使得不同特征具有可比性

(4)特征工程

  • 特征工程定义:创建新的特征、选择或变换已有特征以增强模型的表现力
  • 特征工程的内容:特征选择、特征提取、特征转换和特征降维等操作
  • 通过相关性分析、互信息度量或其他方法筛选出最有助于模型预测能力的特征子集

(5)模型的选择与训练

  • 模型选择的原则:选择适合问题的机器学习模型。模型的选择取决于数据类型(例如分类、回归、聚类等)和问题的特点。
  • 常用的模型:包括线性回归、逻辑回归、决策树、支持向量机、神经网络和深度学习模型等。
  • 数据集的方式:划分数据集为训练集、验证集和测试集(通常是交叉验证的方式),使用训练集训练模型,并在验证集上调整模型参数以优化性能。

(6)模型的评估与调优

        在模型训练完成后,需要对其进行评估和调优

  • 评估指标:评估模型的常见方法包括精度、召回率、F1 值、ROC 曲线和 AUC 等指标。
  • 超参数优化:在评估过程中,还需要进行超参数调优,例如学习率、正则化参数等,以优化模型性能

(7)模型的部署与应用

        在模型评估和调优后,需要将模型部署到实际环境中,这可能涉及将模型集成到现有系统中,创建API接口,或将模型用于实时预测。

(8)模型的监控与维护

        部署后的模型需要进行监控和维护,这包括监控模型的性能、更新模型、修复错误和改进模型等操作

三、写在后面

        我个人认为每个步骤都是需要认真学习的,但其中的3、4、5步我自己在学习的过程中会花更多的心思在这上面。

        在上述八个步骤中有很多,我还没有介绍的知识点,后续我的专题【机器学习300问】中会陆续给大家分享。这里为了大家记忆方便我制作了思维导图,链接如下:

        【腾讯文档】机器学习的基本工作流程(八步走)

        https://docs.qq.com/mind/DY0NzenVQUnB5V0Ru

你可能感兴趣的:(【机器学习】,机器学习,人工智能)