【机器学习】机器学习绪论

系列文章目录

【01机器学习绪论】


文章目录

  • 系列文章目录
  • 前言
  • 一、基本术语
  • 二、假设空间
  • 三、归纳偏好
  • 问题总结


前言

  本章机器学习绪论从基本术语假设空间归纳偏好三个方面进行论述。

参考资料:《机器学习》周志华

机器学习:通过数据学习一个函数,即 x — > f ( x , b )— > y x—>f(x,b)—>y x>fxb>y

  详细的定义可查看文章:从技术方面如何更好的理解什么是机器学习?


一、基本术语

  我们要进行机器学习,先要有数据。

  假定我们收集了一批关于西瓜的数据,这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”或“样本”。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”,称为“属性”(attribute)或“特征”(feature),属性上的取值称为属性值属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。

  例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”。

  一般地,令 D = { x 1 , x 2 , . . . , x m } D=\{x_1,x_2,...,x_m\} D={x1,x2,...,xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例是d维样本空间中的一个向量,d称为样本 x i x_i xi的“维数”。

  从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。学得模型对应了关于数据的某种潜在的规律,因此亦称为“假设”;这种潜在规律自身,则称为“真相”或“真实”,学习过程就是为了找出或逼近真相。

  拥有标记信息的示例,称为“样例”。y是所有标记的集合,亦称“标记空间”或“输出空间”。

  若预测的是离散值,此类学习任务称为“分类”;若预测的是连续值,此类学习任务称为“回归”;涉及多个类别时,则称为多分类任务。

  学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”。

  根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习和“无监督学习”,分类回归是前者的代表,而聚类是后者的代表。

  学得模型适用于新样本的能力,称为“泛化”能力,具有强泛化能力的模型能很好地使用于整个样本空间。通常假设样本空间中全部样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

二、假设空间

  我们把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。这里我们的假设空间由形如“(色泽=?)&(根蒂=?)&(敲声=?)”的可能取值所形成的假设组成。若“色泽”“根蒂”“敲声”分别有3、3、3种可能取值,此外,还需考虑极端情况:有可能“好瓜”这个概念根本就不成立,世界上没有“好瓜”这种东西,我们用空集表示这个假设。则该假设空间规模大小为4x4x4+1=65.

  需注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。可以理解为,假设空间中所有正例的假设构成版本空间

三、归纳偏好

  机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。

  归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。“奥克姆剃刀”是一种常用的自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个。”该原则引导算法确立“正确的”偏好。

  NFL定理最重要的寓意:脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。


问题总结

  后续做相应问题更新。

你可能感兴趣的:(机器学习,人工智能,深度学习)