Chapter1 机器学习预备知识

这一章快速过掉了

AT FIRST
机器学习 = Machine Learning = ML

关键术语

数据集dataset

  • 定义

    • 数据的集合
  • 划分

    • 训练集 training set
    • 测试集 test set
    • 验证集 dev set

样本sample / 实例 instance

  • 样本量 / 数据量 data size

    • 表述样本的数量

特征 feature / 属性 attribute

  • 特征维度 feature dimension

    • 表示特征的数量

ML定义

  • 系统通过计算手段利用经验来改善自身性能的过程。

  • 通过分析和计算数据来归纳出数据中普遍的规律

ML目的

  • 在于训练模型,使其不仅能够对已知数据而且能够对未知数据有较好的预测能力。

ML分类

  • 有监督学习 supervised learning

    • 分类 classification
    • 回归 regression

无监督学习 unsupervised learning

  • 聚类 clustering

ML三要素

模型 model

  • 定义
  • 即要学习的决策函数或者条件概率分布
  • 一般用假设空间 hypothesis space F表示

策略 strategy

  • 定义

  • 需要按什么标准去选择最优的模型

    • 比如用损失函数 loss function
    • 不同的机器学习任务对应不同的损失函数

算法 algorithm

  • 定义
  • 这里指的是学习模型的具体优化方法
  • 当模型和损失函数确定时,就可以去考虑如何优化的问题

ML核心问题

核心哲学

  • 所有的有监督学习都可以统一概括为两项之和

    • 经验误差(损失函数)
    • 正则化项

拟合问题

  • 过拟合 over fitting

    • 在模型的训练过程中,模型对学习的程度过度
  • 欠拟合

    • 和上面相反,学的不够

ML正常流程

  • 需求分析

  • 数据采集

  • 数据清洗

  • 数据分析与可视化

  • 建模调优 + 特征工程

  • 模型结果 + 分析报告

  • 模型部署 + 反馈优化

代码学习

  • Numpy

  • sklearn

Reference:
《机器学习——公式推导与代码实现》 鲁伟编著

你可能感兴趣的:(机器学习,公式推导与代码实现,机器学习,人工智能,数据挖掘)