day1 机器学习基础

文章目录

      • 1.1什么是机器学习
      • 1.2关键术语
      • 1.3主要任务
        • 分类 回归
      • 1.4如何选择合适的算法
          • 选择监督学习算法后
          • 选择无监督学习算法后
      • 1.5 开发机器学习的步骤
      • 1.6 numpy pandas函数基础

1.1什么是机器学习

简单来说:把无序的数据转化为有用的信息,主要任务:分类 回归

正确率达百分之六十以上的准确率都被认为是成功的

1.2关键术语

一些专业术语

  • 特征 事物的属性
  • 训练集 分类好的样本
  • 测试集 用来评估训练的模型

1.3主要任务

分类 回归

监督学习算法
k-近邻算法    线性回归
朴素贝叶斯    局部加权线性回归
支持向量机    Ridge回归
决策树          Lasso最小回归系数估计
无监督学习算法
k- 均值       最大期望算法
DBSCAN     Parzen窗设计

1.4如何选择合适的算法

首先考虑目的是什么
如果要预测目标的值可以选择监督学习算法,否则可以选择无监督学习算法

选择监督学习算法后

如果目标变量的值是离散的 如 是/否 ,1/2/3 ,红/黄/蓝 可以选择分类算法
如果目标变量值是连续的 如 0-100.0,-999-999等 则需要选择回归算法

如果不想预测可以选择无监督算法

选择无监督学习算法后

如果需要将数据划分为离散的组 聚类算法
如果需要估计数据和每个分组的相似程度 则需要使用密度估计算法

1.5 开发机器学习的步骤

  1. 收集数据
    爬虫 传感器等
  2. 准备输入数据
    确保数据的格式
  3. 分析输入数据
    人工分析以前得到的数据,如果有信任的数据源,可跳过第三步
  4. 训练算法
    将处理过的数据输入到算法中
  5. 测试算法
    使用预测集测试,评估算法的效果
  6. 使用算法
    将机器学习算法转化为应用程序

1.6 numpy pandas函数基础

numpy
pandas

你可能感兴趣的:(机器学习,机器学习)