机器学习 西瓜书 第一章学习笔记

机器学习

第一章 绪论

基本概念

机器学习(machine learning): 研究如何通过计算的手段,利用经验来改善系统自身的性能。(也可以说是研究构建学习算法的一门方法学)

一、训练模型

数据集(data set): 一组数据记录的集合


示例(instance) 或 样本(sample): 每条记录是关于一个事件或对象的描述


属性(attribute): 反映事件或对象在某方面的表现或性质的事项


属性值(atribute value): 属性上的取值


属性空间(attribute space)、样本空间(sample space)或 输入空间: 属性张成的空间。
例:设xyz三种属性,我们将它们作为坐标轴张成一个三维空间


特征向量(feature vector): 在上述张开空间中每个样本都能找到自己对应的点,而每一个点都对应一个向量坐标
所以样本等价于特征向量


属性值(atribute value): 属性上的取值


学习(learning)或 训练(training): 从数据中学得模型的过程


训练数据(training data): 这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为


训练样本(training sample): 训练数据中的每个样本


训练集(training set): 训练样本组成的集合


假设(hypothesis): 学得模型对应了关于数据的某种潜在的规律


真相 或 真实(ground-truth): 潜在规律自身
学习过程就是为了找出或逼近真相


学习器(learner): 模型
可看作学习算法在给定数据和参数空间上的实例化

二、预测模型

如果希望学得一个能帮助我们判断所得目标的模型,还需要要建立预测(prediction)模型,我们需获得训练样本的结果信息,例如:((a= 1;b= 2;c=3),目标)


标记(label): 示例结果的信息
例如 “目标”


样例(example): 拥有了标记信息的示例


标记空间(label space) 或 输出空间: 一般地用(xi,yi)表示第i个样例,其中yi∈Y ,是示例Xi的标记,Y是所有标记的集合


测试(testing): 学习得模型后,使用其进行预测的过程

三、分类与回归

测试样本(testing sample): 被预测的样本
例如:在学得了后,对测试例x,可得到其预测标记y = f(x)


分类(classification): 此类学习任务预测的是离散值,例如“好” “坏”
对只涉及两个类别的二分类" (binary classifcation)任务,通常称其中一个类为正类(positive class),另一个类为反类(negative c la ss);涉及多个类别时,则 称为多分类(multi-class classification)任务


回归(reg ression): 此类学习任务预测的是连续值,例如温度23、34


输出与输入空间的设定:
一般地,预测任务是希望通过对训练集{(x1,y1),(x2,y2),… ,(xm,ym)}进行学习,建立一个从输入空间χ到输出空间γ的映射ʃ:χ → γ

  1. 对二分类任务,通常令γ = {-1,+1}或{0, 1}
  2. 对多分类任务,|γ|>2
  3. 对回归任务,γ = R ,R为实数集

四、聚类

我们还可以对样本做聚类
聚类(clustering): 将训练集中的样本分成若干组,每组称为一个簇(cluster);这些自动形成的簇可能对应一些潜在的概念划分,

例如:“本地人” “外地人"甚至“黄种人” “白种人”

有助于了解内在规律,便于建立分析基础

1.需说明的是,在聚类学习中,“本地人” “外地人"这样的概念我们事先是不知道的

2. 学习过程中使用的训练样本通常不拥有标记信息

五、学习任务分类

一般两种:


监督学习(supervised learning): 训练数据拥有标记信息
分类和回归是代表


无监督学习(unsupervised learning): 训练数据未拥有标记信息
聚类则是代表

六、假设空间

泛化(generalization)能力: 学得模型适用于新样本的能力
具有强泛化能力的模型能很好地适用于整个样本空间


独立同分布(independent and distribution,简称:i.i.d): 通常假设样本空间中全体样本服从一个未知分布(distribution)D.

训练样本越多,得到的关于 D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型


归纳(induction): 是从特殊到一般的泛化(generalization)过程,即从具体的事实归结出一般性规律
“ 从样例中学习 ”显然是一个归纳的过程,因此亦称“ 归纳学习 ”(inductive learning).

广义的归纳学习大体相当于从样例中学习

狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或 “概念形成”

概念学习技术目前研究、应用都比较少,学得泛化性能好且语义明确的概念困难,现实常用的技术大多是产生“黑箱”模型。


演绎(deduction): 则是从一般到特殊的特化(specialization)过程,从基础原理推演出具体状况
例如: 在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理


整体的学习过程是用不同的方法对假设空间进行搜索,过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致的假设,就是学得结果。

机器学习 西瓜书 第一章学习笔记_第1张图片

但是一般现实的问题会有一个巨大的假设空间,而拥有的训练集有限或过小,得到多个假设与训练集重合,得到一个假设集合,就是所谓的版本空间(version space)
机器学习 西瓜书 第一章学习笔记_第2张图片

七、归纳偏好

假设在下图中,每个训练样本是图中的一个点(x,y),要学得一个与训练一致的模型,相当于找到一条穿过所有的点的一条曲线,注意,下图中穿过这些样本点的曲线可以有很多种,这就相当于我们的上面所述训练的集合对应的不同的假设,而我们的归纳偏好,就是基于一种偏好选择一种适当的假设。

例:如果我们以最终的曲线要尽量的简洁为一个偏好,那么直观上肯定选择下面的曲线A,而不选择曲线B.

机器学习 西瓜书 第一章学习笔记_第3张图片

奥卡姆剃刀(Occam’s razor)原则: 若有多个假设与观察一致,则选最简单的那个


没有免费的午餐定理(No Free Lunch Theorem,简称NFL定理): 无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能是相同的。

以下是一个简单证明:

机器学习 西瓜书 第一章学习笔记_第4张图片

机器学习 西瓜书 第一章学习笔记_第5张图片

所以由NFL定理可以清晰地得到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,而是应该尽可能的去思考学习算法自身的归纳偏好 问题是否相配,找到最佳的模型。

你可能感兴趣的:(机器学习,机器学习,人工智能,深度学习)