机器学习实践(一)—sklearn之概述

1956年,人工智能元年。

人类能够创造出人类还未知的东西。

这未知的东西人类能够保证它不误入歧途吗。

一、机器学习和人工智能,深度学习的关系

  • 机器学习是人工智能的一个实现途径

  • 深度学习是机器学习的一个方法发展而来

二、机器学习,深度学习的应用场景

  • 挖掘、预测领域:

    • 应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类…
  • 图像领域:

    • 应用场景:街道交通标志检测、人脸识别等等
  • 自然语言处理领域:

    • 应用场景:语音识别,文本分类、情感分析、自动聊天、文本检测等等

三、什么是机器学习

定义

  • 机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测。

解释

  • 我们可以从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。

例子

  • 从数据(大量的猫和狗的图片)中自动分析获得模型(辨别猫和狗的规律),从而使机器拥有识别猫和狗的能力。
  • 从数据(房屋的各种信息)中自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。

四、数据集构成

  • 结构:特征值+目标值

    注:

    对于每一行数据我们可以称之为样本

    有些数据集可以没有目标值:

五、机器学习算法分类

算法分类

  • 监督学习(supervised learning)
    • 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(回归),或是输出是有限个离散值(分类)。
    • 回归:线性回归、岭回归
    • 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
  • 无监督学习(unsupervised learning)
    • 定义:输入数据是由输入特征值所组成。
    • 聚类:k-means

示例:

  • 特征值:猫/狗的图片;目标值:猫/狗-类别
    • 分类问题
  • 特征值:房屋的各个属性信息;目标值:房屋价格-连续型数据
    • 回归问题
  • 特征值:人物的各个属性信息;目标值:无
    • 无监督学习

六、机器学习开发流程

  1. 获取数据
    • sql、mysql
  2. 数据预处理
    • 缺失值处理,数据类型转换,数据清洗
  3. 特征工程
    • 特征提取,特征预处理,特征降维
  4. 机器学习
    • 训练模型
  5. 模型评估
    • 准确率,召回率,auc,ks,业务指标
    • 如不合格,返回(4
  6. 实施落地
    • 开发产品,api

七、学习框架和资料介绍

  • 算法是核心,数据计算是基础
  • 算法工程师
    • 线代、高数、概率统计
    • 李航<统计学习方法>
    • 周志华<机器学习>
    • PRML
  • 算法落地工程师
    • 大部分复杂模型的算法设计都是算法工程师在做,而应用者
      • 分析很多的数据
      • 分析具体的业务
      • 应用常见的算法
      • 特征工程、调参数、优化
      • 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务
      • 掌握算法基本思想,学会对问题用相应的算法解决
      • 学会利用库或者框架解决问题
    • 框架
      • SKlearn
      • tensorflow
      • pytorch

你可能感兴趣的:(机器学习,机器学习实践)