机器学习笔记——第1章 绪论

文章目录

  • 一、绪论
    • 1.1 基本术语
    • 1.2 假设空间与归纳偏好
    • 1.3 发展历程
    • 参考资料

一、绪论

为什么人类的本质是复读机?

浅层次的理解如同QQ/wecaht消息的 +1 操作;

深层次的理解,就得由一款游戏《信任的进化》。游戏中设置了几个角色:

  • 复读机:特点是会选择和玩家之前一模一样的选择。假如玩家一直合作,他也会一直合作;假如玩家一直欺骗,他也会一直欺骗。
  • 千年老油条:永远不合作;
  • 万年小粉红:永远合作;
  • 黑帮老铁:如果第一轮合作,那么后面都合作;如果第一轮欺骗,那么后面都欺骗的。

如同你上学读书十几年,实际上每天都在复读前人的理论知识学说概念,你所学的每一个公式,你背诵的每一首诗,都是在复读前人的成果,也就是人类的智慧,人类的文明。

Scenery 基于复读机这一点,认为人的行为是可以预测的,正如机器学习使用数据进行预测。

1.1 基本术语

  • 数据集(data set), 示例(instance)
  • 属性(attribute)= 特征(feature)
  • 属性值(attribute value),属性空间(attribute space)
  • 特征向量(feature vector)

一般地,令 D = { x 1 , x 2 , . . . , x m } \boldsymbol{D=\{ x_1,x_2,...,x_m \}} D={x1,x2,...,xm} 表示包含 m m m 个示例的数据集,每个示例由 d d d 个属性描述,则每个示例 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) \boldsymbol{x_i =} (x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid) d d d 维样本空间 χ \chi χ 中的一个向量, x i ∈ χ \boldsymbol x_i\in\chi xiχ,其中 x i j x_{ij} xij x i \boldsymbol x_i xi 在第 j j j 个属性上的取值, d d d 称为 x i \boldsymbol x_i xi 的维数。

训练数据(training data)中的每个样本称为一个 训练样本(training sample),训练样本的集合组成训练集(training set)。

学得的模型对应了关于数据的某种潜在得到规律,即“假设”(hypothesis); 这种潜在规律自身,称为“真相”(ground-truth), 训练过程是为了逼近真相

  • 样例-标记 ( x i ; y i ) (\boldsymbol x_i ; y_i) (xi;yi) 表示第 i i i 个样例,其中 y i ∈ Y y_i \in \boldsymbol Y yiY 是示例 x i \boldsymbol x_i xi 的标记, Y \boldsymbol Y Y 是所有标记的集合,称为 标记空间(label space) ;

  • 分类(classification): 预测的是离散值;有 二分类(binary classificaton)多分类(multi-class classification)

  • 回归(regression): 预测的值是连续的;

  • 聚类(clustering): 将训练样本分成若干组;

  • 学习任务分类:

  • 学习任务分类:

Y
N
训练数据
是否有标记?
监督学习 Supervised Learning
分类
回归
无监督学习 Unsupervised Learning
聚类
  • 泛化(generalization)能力 :机器学习得到的模型在未经训练过的样本上的表现能力;

1.2 假设空间与归纳偏好

把学习过程看做是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设;

  • 归纳偏好:学习算法在庞大的假设空间中选择“正确的”的模型;采用 ”奥卡姆剃刀“(Occam’s razor) 原则:若有多个假设与观察一致,则选择最简单的那个,如图1.3,选择曲线A.

机器学习笔记——第1章 绪论_第1张图片

但该原则并不通用,如对图1.4,(a)模型A简单且优于B,(b)模型A简单,但B性能优于A.

机器学习笔记——第1章 绪论_第2张图片

  • “没有免费的午餐”(No Free Lunch Theorem, NFL)定理的前提是所有问题出现的机会相同或者问题同等重要。但实际问题通常并不是这样,针对具体的问题,有相应的最优算法,脱离具体问题而空泛地讨论何种算法更好没有意义。( ps:横看成岭侧成峰么)

1.3 发展历程

  • 1950s,基于神经网络的 连接主义(connectionism) 学习开始出现:F.Rosenblatt的感知机(Perceptron)、B.Widrow的Adaline等;

  • 1960s-1970s,基于逻辑表示的 符号主义(symbolism) 学习技术:P.Winston 的结构学习系统、R.S.Michalski等的基于逻辑的归纳学习系统、E.B.Hunt等的概念学习系统;以决策理论为基础的学习技术以及强化学习技术:N.J.Nilson的学习机器;

  • 1980s,从样例中学习的主流是 符号主义学习:决策树、基于逻辑的学习;

  • 1990s前期,从样例中学习的主流变为 基于神经网络的连接主义学习;

  • 1990s中期,主流是统计学习(statistical learning):支持向量机(Support Vector Machine, SVM)、核方法(kernel methods);

  • 2000s,深度学习,多层神经网络。

参考资料

  1. 机器学习-周志华
  2. 绪论-B站

你可能感兴趣的:(机器学习)