图解机器学习基本概念及分类

这篇文章主要对机器学习的基本概念和分类做一下总结。

文章目录

      • 什么是机器学习
      • 为什么使用机器学习
      • 机器学习系统的类型
        • 有监督学习和无监督学习
          • 有监督学习
          • 无监督学习
          • 半监督学习
          • 强化学习
        • 批量学习和在线学习
          • 批量学习
          • 在线学习
        • 基于实例的学习于基于模型的学习
          • 基于实例的学习
          • 基于模型的学习

什么是机器学习

机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。

为什么使用机器学习

这里有两张图,描述处理问题时,传统方法和机器学习方法的过程和区别。
这是传统方法:
图解机器学习基本概念及分类_第1张图片
这是机器学习方法:
图解机器学习基本概念及分类_第2张图片
机器学习方法会通过训练数据来学习数据的规律或根据数据抽象出来模型,进而去解决新的问题。
机器学习可以通过数据来形成自适应改变,从而不需要人工干预了。
图解机器学习基本概念及分类_第3张图片
另外,机器学习可以帮助人类学习,通过对大量数据运行机器学习方法,可能会提醒到人类发现之前尚未发现的规律,从而收到启发,解决问题。
图解机器学习基本概念及分类_第4张图片

机器学习系统的类型

  • 是否在人类监督下训练(有监督、无监督、半监督和强化学习)
  • 是否可以动态地进行增量学习(在线学习和批量学习)
  • 是简单的将新的数据点和已知的数据点进行匹配,还是向科学家那样,对训练数据进行模式检测然后建立一个预测模型(基于实例学习和基于模型的学习)

有监督学习和无监督学习

根据训练期间的监督数量和监督类型分类。

有监督学习

如用于垃圾邮件分类的已标记训练集如下,是一个有监督学习(数据带标签)。
图解机器学习基本概念及分类_第5张图片
另一个典型任务是回归(预测):在给定输入特征的情况下预测值(通常有多个输入特征,有时有多个输出值)。
图解机器学习基本概念及分类_第6张图片
一些有监督学习方法:

  • K-近邻算法(k-Nearest Neighbors)
  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 支持向量机(Support Vector Machines ,SVMs)
  • 决策树和随机森林(Decision Trees and Random Forests)
  • 神经网络(Neural networks)
无监督学习

无监督学习的训练数据都是未经过标记的。如图所示:
图解机器学习基本概念及分类_第7张图片
一些重要的无监督学习方法:

  • 聚类
    • K-均值聚类(K-Means)
    • DBSCAN
    • 分层聚类分析(Hierarchical Cluster Analysis ,HCA)
  • 异常检测和新颖性检测
    • 单类SVM(One-class SVM)
    • 孤立森林(Isolation Forest)
  • 可视化和降维
    • 主成分分析(Principal Component Analysis ,PCA)
    • 核主成分分析(Kernel PCA)
    • 局部线性嵌入(Locally Linear Embedding ,LLE)
    • t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding ,t-SNE)
  • 关联规则学习
    • Apriori
    • Eclat

假设对上述数据进行聚类分析,如下所示:
图解机器学习基本概念及分类_第8张图片
可视化算法也是无监督学习算法的一个不错的示例:你提供大量复杂的、未标记的数据,算法轻松绘制输出2D或3D的数据表示:
图解机器学习基本概念及分类_第9张图片
另一个很重要的无监督任务是异常检测(如下图所示)。与之非常类似的一个任务是新颖性检测。
图解机器学习基本概念及分类_第10张图片
最后,还有一个常见的无监督任务是关联规则学习,其目的是挖掘大量数据,发现属性之间有趣的联系。

半监督学习

由于通常给数据做标记是非常耗时和昂贵的,往往会有很多未标记的数据而很少有已标记的数据。有些算法可以处理部分已标记的数据,这称为半监督学习。
如下所示,半监督学习有两个类别(三角形和正方形):未标记的示例(圆形)有助于将新实例(十字)分类为三角形类别而不是正方形类别,即使它更接近于标记的正方形。
图解机器学习基本概念及分类_第11张图片

强化学习

强化学习的学习系统(在其语境中称为智能体)能够观察环境,做出选择,执行动作,并获得回报(或者是以负面形式获得惩罚),如下图。例如许多机器人通过强化学习算法来学习如何行走。
图解机器学习基本概念及分类_第12张图片

批量学习和在线学习

此分类标准是看系统是否可以从传入的数据流中进行增量学习。

批量学习

在批量学习中,系统无法进行增量学习——即必须使用所有可用数据进行训练,所以通常都是离线完成的。离线学习就是先训练系统,然后将其投入生成环境,这是学习过程停止,它只是将其所学到的应用出来。

在线学习

可以循序渐进的给系统提供训练数据,逐步积累学习成果。在线学习中,模型经过训练并投入生产环境,然后随着新数据的进入不断学习,如下图。
图解机器学习基本概念及分类_第13张图片
对于超大数据集——超出一台计算机的主存储器的数据,在线学习算法同样适用(这称为核外学习)。算法每次只加载部分数据,并针对这部分数据进行训练,然后不断重复这个过程,直到完成所有数据的训练,如下图。
图解机器学习基本概念及分类_第14张图片
注意,核外学习通常是离线完成的(也就是不在实时(live)系统上),可以仅视为增量学习。

基于实例的学习于基于模型的学习

看如何泛化来分类,泛化方法主要有2种:基于实例的学习和基于模型的学习。

基于实例的学习

系统用心学习这些示例,然后通过使用相似度度量来比较新实例和已经学习的实例(或他们的子集),从而泛化新实例。例如,下图中的新实例会归为三角形,因为大多数最相似的实例属于那一类。
图解机器学习基本概念及分类_第15张图片

基于模型的学习

从一组示例集中实现泛化的另一种方法是构建这些示例的模型,然后使用该模型进行预测。如根据数据集,构建一些可能的线性模型。
图解机器学习基本概念及分类_第16张图片
过程基本如下:

  • 研究数据
  • 选择模型
  • 使用训练数据进行训练(即前面学习算法搜索模型参数值,从而使成本函数最小化的过程)
  • 最后,应用模型对新示例进行预测(称为推断),希望模型泛化结果不错。

参考文献:Hands-On Machine learning 2nd

你可能感兴趣的:(机器学习与数据挖掘,机器学习)