机器学习 笔记(一)机器学习定义、数据集构成、机器学习算法分类、机器学习开发流程

文章目录

  • 参考资料
  • 一、机器学习的定义
  • 二、数据集构成
  • 三、机器学习算法分类
    • 3.1 白话理解
    • 3.2 练习题
    • 3.3 官方概念
  • 四、机器学习开发流程
  • 五、总结与收获

参考资料


视频链接

一、机器学习的定义


关键词 : 数据、 模型、预测

定义:机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

人类从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略

二、数据集构成

构成元素:特征值 + 目标值

房子面积 房子位置 房子楼层 房子朝向 目标值
数据1 80 9 3 0 80
数据2 100 9 5 1 120
数据3 80 10 3 0 100
  • 每一行数据称为 样本

  • 有的数据集可以没有目标值

三、机器学习算法分类


学习目标

  • 目标
    • 说明机器学习算法监督学习与无监督学习的区别
    • 说明监督学习中的分类、回归特点

3.1 白话理解

特征值(案例) 目标值(案例) 类别
猫 / 狗 的图片 猫 / 狗 的类别 分类问题
房价的各个属性信息 房屋价格 -连续型数据 回归问题
人物的各个属性信息 无监督学习

总结:根据目标值来区分问题类型

  • 类别 -> 分类

  • 连续型数据 -> 回归

  • 无目标值 -> 无监督学习 (聚类)

3.2 练习题

  1. 预测明天的气温是多少度? 回归
  2. 预测明天是阴、晴还是雨? 分类
  3. 人脸年龄预测?回归(具体年龄)/ 分类 (老少)
  4. 人脸识别? 分类

3.3 官方概念

  • 监督学习 (supervised learning) (预测)
    • 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出有限个离散值(称作分类)
    • 分类常见算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
    • 回归常见算法:线性回归、岭回归
  • 无监督学习(unsupervised learning)
    • 定义:输入数据是由输入特征值所组成的
    • 常见算法:聚类 k-means

四、机器学习开发流程


机器学习 笔记(一)机器学习定义、数据集构成、机器学习算法分类、机器学习开发流程_第1张图片

  1. 获取数据
  2. 数据处理
  3. 特征工程
  4. 机器学习算法训练 - 模型
  5. 模型评估
  6. 应用

学习目标:

  • 学会分析问题,使用机器学习算法的目的,想要算法完成哪种任务
  • 掌握算法基本思想,学会对问题用相应的算法解决
  • 学会利用库或者框架解决问题

机器学习库与框架参考:

机器学习 笔记(一)机器学习定义、数据集构成、机器学习算法分类、机器学习开发流程_第2张图片

书籍资料参考:

机器学习 笔记(一)机器学习定义、数据集构成、机器学习算法分类、机器学习开发流程_第3张图片

五、总结与收获


机器学习的三大关键因素是数据、模型、预测。

人工智能 > 机器学习 > 深度学习

逻辑回归居然是分类算法而不是回归算法。

分类与回归的区别在于目标值是类别还是连续型的数据

机器学习的过程:数据获取、处理 -> 特征工程 -> 机器学习算法训练构建模型 -> 模型评估

笔者在本学期的机器学习课程里做的最多就是"特征工程", 但因为数学基础较差,评估结果往往不尽人意,最主要的原因还是知识面太少,比如对字段的了解程度、统计学知识的运用等。

现阶段只需要会使用现成的机器学习算法来预测结果就好。

笔者打算系统整理机器学习的知识,将来在做推荐系统的时候会以机器学习为基础,比如一个商品推荐系统的项目就需要用到机器学习的相关知识。

最后需要实现的目标:在拿到一个数据集,能对数据集进行一些处理,并使用机器学习算法对数据进行模型构建,最后再拿这个模型去预测没有目标值的特征值数据。

你可能感兴趣的:(机器学习,算法,分类)