机器学习概述(机器学习实战)

文章目的只做简单介绍。

一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习。 ——Tom Mitchell,1997

概述

  • 1.什么是机器学习?
    • 1.1 机器学习系统的种类
      • 1.1.1监督式学习类别(回归和分类)
      • 1.1.2 无监督式学习类别
      • 1.1.3 半监督式学习
      • 1.1.4强化学习
      • 1.1.5 批量学习和在线学习
      • 1.1.6 基于实例与基于模型的学习
  • 1.2 机器学习挑战。
    • 2.1"数据问题"
    • 2.2"算法问题"
  • 1.3 测试与验证评估。
      • 引用

1.什么是机器学习?

程序从数据中学习经验的学科。例如邮件分类。

它通过用户手动标记的垃圾邮件以及非垃圾邮件的示例,来学习标记垃圾邮件。

系统用来学习的这些示例,我们称之为训练集。

每一个训练示例称为训练实例或者是训练样本。

当系统学习完毕,我们已利用一些指标来评估我们的模型表现,选择理想中的模型用于自动标记垃圾邮件。

简单来说机器学习可以将传统编程转变为自动化编程。因为机器在学习的过程中,知道如何分类邮件,并能应用在新的数据上,从而形成自动化。

1.1 机器学习系统的种类

  • 监督式学习、无监督式学习、半监督式学习和强化学习。
  • 增量学习:在线学习和批量学习。
  • 基于实例的学习和基于模型的学习。

1.1.1监督式学习类别(回归和分类)

  • K-近邻算法(k-Nearest Neighbors)
  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 支持向量机(Support Vector Machines,SVM)
  • 决策树和随机森林(Decision Trees and Random Forests)
  • 神经网络(Neural networks)

1.1.2 无监督式学习类别

  • 聚类算法
  • k-平均算法(k-Means)
  • 分层聚类分析(Hierarchical Cluster Analysis,HCA)
  • 最大期望算法(Expectation Maximization)
  • 可视化和降维 主成分分析(PCA)
  • 核主成分分析(Kernel PCA)
  • 局部线性嵌入
  • t-分布随机近临嵌入
  • 关联规则学习

1.1.3 半监督式学习

有些算法可以处理部分标记的训练数据——通常是大量未标记数据和少量的标记数据,称为半监督式学习。例如(Google相册)。

1.1.4强化学习

学习系统在自行学习(policy)的情况下,通过观察周围环境,做出选择,执行操作,并得到回报的过程称为强化学习。

1.1.5 批量学习和在线学习

两者是根据系统传入的数据流进行学习的过程。且都是离线学习模式。

批量学习(非增量学习),必须使用所有的数据进行训练,需要大量的时间和资源。先训练系统再投入应用,需要不断地更新数据,并更具需要频繁的更新系统。

在线学习(增量学习)中,可以人工循序渐进的给系统提供训练数据。通常采用小批量的小组数据训练,所用学习起来快速且节省资源。需要留意传入的异常数据。
这使得它能够快速适应不断变化的数据和自动化系统,并且能够在大量的数据上进行训练。

1.1.6 基于实例与基于模型的学习

大多数机器学习任务是要对未见过的数据集做预测,也就是机器学习系统的泛化。

基于实例的学习,系统先完全记住学习的样本,然后通过相似度度量的方式泛化到新的实例。

基于模型的学习,从一组示例集中实现泛化的另一种方法是构建这些示例的模型,然后进行预测。

1.2 机器学习挑战。

2.1"数据问题"

数据缺乏、数据质量差、数据不具代表性、特征不具信息量、模型过于简单对训练数据拟合不足,以及模型过于复杂对训练数据过度拟合。

  1. 训练数据的数量不足。 机器学习算法需要大量的数据才能保持健壮性。
  2. 数据的不合理和不具代表性。不能用与预测的目标无关的数据。数据要对我们的预测目标有代表性和参考性。(例如数据的缺失。数据样本过小,采样噪音将会加大,数据样本过大,采样欠妥,也会出现欠采样偏差。)
  3. 无关特征。(解决方法:特征选择,特征提取,增加新特征。)
  4. 质量差的数据。训练数据集包含错误,异常值和噪音。(丢弃或者补充。)

2.2"算法问题"

  1. 训练数据过度拟合。如果训练集本身是嘈杂的,或者说数据集太小(会导致采样噪声),那么很可能会导致模型检测噪声里的模式。很显然,这些模式不能泛化至新的实例。(解决方法:简化模型,可以减少训练数据中的属性数量,又或者是约束模型。收集更多的训练数据。
    减少训练数据中的噪声(例如,修复数据错误和消除异常值))。

  2. 训练数据拟合不足。选择一个带有更多参数、更强大的模型, 给学习算法提供更好的特征集。减少模型中的约束(比如,减少正则化超参数)

1.3 测试与验证评估。

通常利用8:2的比例将数据分为数据集和测试集,利用测试集来评估模型的表现。但问题是模型可能再测试集上评估表现很好,在生产落地的过程中泛化能力很差,也就是对于新的应用数据模型表现不如我们测试的好以为我们调整模型来拟合了测试集。

这种情况的解决方案是单独分一个保留集合,称为验证集。

使用不同的超参数训练多个模型,然后通过验证集,选择最好的那个模型和对应的超参数,最终的模型会带着这些超参数对整个训练集进行一次训练,最后再用测试集测量泛化误差。

  • 常见方法交叉验证法。(用于模型选择和调整超参数)

引用

《机器学习实战》

你可能感兴趣的:(Machine,Learning,机器学习,人工智能,深度学习)