《机器学习》(周志华)学习笔记(一):绪论

1. 什么是机器学习
机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。研究的主体内容是从数据中产生模型的算法,即“学习算法”。

2. 机器学习的基本术语汇总
数据(data):机器学习的基础。
数据集(data set):数据的集合。
示例(instance)/样本(sample):每个数据记录,有时数据集也可字体作为一个样本。一般而言假定数据集中的样本服从独立同分布。
属性(attribution)/特征(feature):数据描述的对象的某种特质。其集合为属性集,属性张成的空间称为”属性空间” (attribute space) 、”样本空间” (sample space)或”输入空间”。每一个示例都可以用空间向量表示,也将其称为特征向量(feature vector)。

学习(learning)/训练(training):从数据中获取模型的过程。模型本身又称为学习器(learner)。
测试(test):使用学习到的模型进行预测的过程。被测试对象为测试样本(testing sample)。通常将数据集分为训练集和测试集两部分。

分类(classification)与回归(regression):预测对象为离散值的学习任务为分类,预测对象为连续值得学习任务为回归。分类又有二分类(binary classification)和多分类(multi-class classification),二分类只涉及正类(positive class)和反类(negative class),多分类涉及多个类别。
分类和回归对应训练样本有标记,此类学习任务称为“有监督学习(supervised learning)”

聚类(clustering):为深入理解数据内在规律,将训练集(不带标记)自动分为若干组(即簇,cluster),此类学习任务称为“无监督学习(unsupervised learning)”。

泛化(generalization)能力:学得模型适用于新样本的能力。机器学习目标就是得到泛化能力强的模型。一般而言,训练样本越多,泛化能力越强。

假设空间/版本空间:
学习的过程就是归纳的过程(区别于演绎),从假设空间中搜索,寻找与训练集匹配的假设。通常这样的假设存在多个,组成的假设集合称之为“版本空间(version space)”。

归纳偏好:
假设空间众多,选择最优模型时需要对某种类型假设有所偏好,通常采用奥卡姆剃刀(若有多个假设与观察一致,则选最简单的那个)作为一般原则。
但基于NFL 定理(”没有免费的午餐”定理),对于均匀分布情况,版本空间中所有假设的期望是一样的。启发:讨论一个算法好坏,不能脱离具体问题,需要考虑归纳偏好与问题是否匹配。

3. 机器学习发展历程

4.机器学习应用现状

课后习题

你可能感兴趣的:(机器学习笔记)