一起学习机器学习(1):基本概念

相信每一位学习机器学习的同学都或多或少的听说过周志华老师的《机器学习》一书。其由于封面上的西瓜以及在书中以西瓜的引例,因此被称为“西瓜书”。接下来,计划利用一段不太长但是也不太短的时间和大家来一起学习西瓜书。

在绪论中,针对机器学习的历史及其发展现状,提出了六个问题。通过对着六个问题的解读,简单的介绍了机器学习的前世今生以及未来的发展。

机器学习是什么?每个人都自己的理解,我自己的想法是这样的:

机器学习这个概念是借鉴了人学习的行为,或者说人学习这一动作。古语有言“玉不琢,不成器;人不学,不知道”,人学习的目的便是“知道”。其实机器学习的目的同样是“知道”,让机器“知道”根据什么样的输入从而得到什么样的输出。这便是机器学习。

机器学习所研究的内容是关于计算机上从数据中产生“模型”的算法,有了这个算法,计算机就可以根据以往的经验,对未知的事物做出一定的判断。

在机器学习中有几个重要的术语:

记录的集合称为数据集,每一条记录称为一个样本或示例,反应事物或者对象在某方面的表现或者性质的事项称为属性或者特征,属性的取值称为属性值。属性张成的空间称为属性空间或样本空间。空间中的每一条记录称为特征向量。

除此之外,还有几个重要的概念:特征的维数、训练样本、训练集、测试样本、测试集、真值、学习器等。

归纳是从特殊到一般的泛化过程,演绎是从一般到特殊的特化过程。

机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好。

奥卡姆剃刀原理:若有多个假设与观察一致,则选择最简单的那个。奥卡姆剃刀原理算然简单,但是操作起来有时候并不是那个简单。

下面有一个非常重要的概念:没有免费的午餐定理。

这个定理通过数学计算得出,在不考虑偏好的前提下,算法的期望与算法本身没有关系!因此,脱离实际问题,空谈什么学习算法更好是没有意义的。

本章的内容看似没有什么营养,但确是机器学习的基础,给出了机器学习的基本盖面与基本术语,下一章,开始学习模型的评估与选择。

你可能感兴趣的:(一起学习机器学习(1):基本概念)