机器学习之概述

基本术语

  • 数据集(data set):数据的集合
  • 示例(instance)/样本(sample):对数据集中一个事件或对象的描述
  • 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space)/样本空间(sample space)/输入空间:属性长成的空间
  • 特征向量(feature vector):每一个事件或对象在属性空间中都有唯一一个点与之对应(即该事件或对象在各个属性上的取值),由于空间中的每个点都对应一个坐标向量,因此一个示例也叫做“特征向量”
  • 维数(dimensionality):对象属性的数目
  • 学习(learning)/训练(training):从数据中通过执行某个学习算法来学得模型的过程
  • 训练数据(training data):训练过程中使用的数据
  • 训练样本(training sample):训练数据中的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学得的模型对应了关于数据的某种潜在规律,因此也被称为“假设”
  • 真相/真实(ground-truth):该潜在规律自身
  • 学习器(learner):学习模型的别称
  • 标记(label):关于示例结果的信息
  • 样例(example):拥有标记信息的示例
  • 分类(classification):模型预测的是离散值,此类学习任务称为“分类”
  • 回归(regression):模型预测的是连续值,此类学习任务称为“回归”
  • 测试(testing):学得模型后,使用模型进行预测的过程
  • 聚类(clustering):将训练集的样本分成若干组,每组称为一个簇(cluster),这些自动形成的簇可能对应一些桥在的概念划分
  • 监督学习(supervised learning):训练数据拥有标记信息,如分类和回归
  • 无监督学习(unsupervised learning):训练数据不拥有标记信息,如聚类
  • 泛化(generalization):学得模型适用于新样本的能力
  • 归纳(induction):从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律
  • 演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体状况
  • 版本集合(version space):与训练集一致的假设集合
  • 归纳偏好(inductive bias)[偏好]:机器学习算法在学习过程中对某种类型假设的偏好,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
  • 奥卡姆剃刀(Occam's razor):若有多个版本集合与训练集一致,则选择最简单、最平滑的那个,需要注意的是,这不是唯一的原则

算法本身不存在优劣之分,算法自身的归纳偏好与实际问题是否相匹配往往会起到决定性的作用

类型划分

机械学习

即“死记硬背式学习”,把外界输入的信息全部记录下来,在需要时原封不动地取出来使用,实际上没有进行真正的学习,仅仅是在进行信息存储于检索

示教学习和类比学习

类似于“从指令中学习”和“通过观察和发现学习”

归纳学习

相当于“从样例中学习”,是应用最广泛的一种,涵盖了监督学习、无监督学习等

符号注意学习

代表:决策树和基于逻辑的学习

基于神经网络的连接主义学习

产生的是“黑箱”模型,其最大局限是“试错性”,也就是说学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”

统计学习

代表:支持向量机(Support Vector Machine)、核方法(kernel methods)

你可能感兴趣的:(人工智能)