机器学习_周志华_西瓜书_学习笔记_第一章

绪论

1.1引言

以计算的手段利用经验(数据)来改善系统自身性能。在计算机上面从数据中产生模型,我们提供经验数据,基于经验和数据产生模型,面对新的情况模型会给我们相应的判断。

另一本经典教材的作者Mitchell给出了一个形式化的定义,假设:

  • P:计算机程序在某任务类T上的性能。

  • T:计算机程序希望实现的任务类。

  • E:表示经验,即历史的数据集。

若该计算机程序通过利用经验E在任务T上获得了性能P的改善,则称该程序对E进行了学习。

1.2基本术语

1.2.1术语

假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录,定义:

  • 所有记录集合称为数据集。

  • 某一条记录称为一个样本。

  • 色泽、根蒂、敲声等称为属性。

  • 乌黑、青绿、沉闷等称为属性值。

  • 将色泽、根蒂、敲声作为描述西瓜的三维空间,每个样本都可以在空间中找到一个点,每个点对应一个向量,所以称每个样本为一个特征向量。

令D={x1,x2,x3,x4...xm}表示包含了m个样本的数据集,每个样本有d个属性(如上面的西瓜数据集有3个属性),xi={xi1,xi2,xi3...xid}是d维样本空间的一个向量,xij是xi在第j个属性的取值,d称为样本维数。

1.2.2有监督学习

监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。(机器知道要分几类)

分类→预测离散值

  • 二分类

  • 多分类

回归→预测连续值

1.2.3无监督学习

训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。(不知道要分几类,机器自己分)

1.3归纳偏好

奥卡姆剃刀原则:尽量选简单的

NFL定理:所有算法的总误差一样,在某些问题上优秀的算法在其他问题上会有缺陷。→→偏好

1.4假设空间

  • 演绎:一般→特殊,特化

  • 归纳:特殊→一般,泛化

你可能感兴趣的:(机器学习,学习笔记,机器学习)