机器学习流程—数据预处理 清洗

文章目录

  • 机器学习流程—数据预处理 清洗
    • 定义问题
    • 数据预处理
      • 数据加载与展示
      • 重复数据处理
      • 数据类型
      • 空值处理
      • 无关特征删除
      • 数据分布
      • 删除异常值
      • 生成标签和特征
      • 数据分割

机器学习流程—数据预处理 清洗

数据处理是将数据从给定形式转换为更可用和更理想的形式的任务,即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识,整个过程可以自动化。这个完整过程的输出可以是任何所需的形式,如图形、视频、图表、表格、图像等等,具体取决于我们正在执行的任务和机器的要求。

数据清洗因为它涉及识别和删除任何丢失、重复或不相关的数据。数据清理的目标是确保数据准确、一致且无错误,因为不正确或不一致的数据会对 ML 模型的性能产生负面影响。专业数据科学家通常会在这一步投入大量时间,因为他们相信Better data beats fancier algorithms

我们可以再次看一下我们整个机器学习的流程,当然我们这里将一些过程合并了,提取出来了这么六个环节

机器学习流程—数据预处理 清洗_第1张图片

我们完整的一个机器学习的步骤包括下面的环节

  1. 定义问题:确定您想要解决的问题并确定是否可以使用机器学习来解决它。
  2. 收集数据:收集并清理将用于训练模型的数据。模型的质量将取决于数据的质量。
  3. *探索数据:*使用数据可视化和统计方法来了

你可能感兴趣的:(机器学习,机器学习,人工智能,数据预处理)