数据分析第六天

文章目录

      • 机器学习数据集的掌握
      • 机器学习的基本概念
      • 机器分类详解
      • 半监督学习

  1. 数据集的名称: 鸢尾花的数据集
    数据分析第六天_第1张图片

机器学习数据集的掌握

  1. 什么样的数据集
  2. 数据集的行——样本
  3. 数据集的列——特征
  4. 特征组成的空间——特征或属性空间
  5. 组成属性空间的点——特征或属性向量
  6. 将数据分成测试集或者训练集
  7. 使用训练集加算法解决问题
  8. 误差进行校验结果分析
  9. 对于非数值的要进行数值转换
  10. 如何对二分类进行分类
  • 绝对值误差函数
  • 平方误差函数
  • 训练误差
  • 泛化误差
  • 性能举证
    • Accuracy 准确率
    • Precsition准确率
    • FRR假正率
    • Recall=Tpr真正率或召回率
    • ROC曲线的AUC指标
    • 数据分析第六天_第2张图片

机器学习的基本概念

  1. 布尔函数
  • C(X)=1,享受运动;C(X)=0,不享受运动,类别便签列
  • X样例,所有实例的结合——分类
  • 房价的举例——回归
  1. 机器学习的步骤
  • 把数据切换成训练集和测试集
  • 用训练集的特征向量来训练算法
  • 把学习用来的算法在测试集里评价算法

机器分类详解

  1. 监督学习和无监督学习的区别
    • 监督问题:是否具有连续值得的预测
      • 分类
      • 回归
      • 无监督问题:
        • 聚类:特征之间的相似性
        • 降维:通过机器学习的算法达到降维

半监督学习

  1. 连续学习
  2. 迁移学习
  • 迁移学习可以解决的问题:
  1. 主动学习:纯半监督学习
    数据分析第六天_第3张图片

你可能感兴趣的:(数据分析,数据挖掘)