周志华西瓜书笔记——第一章

1.1引言

概念1:基于经验做出的预判

机器学习定义:通过计算手段,利用经验数据产生模型用于改善系统自身性能。

更形式化的定义 假设用P 评估计算机在某任务类T的性能,若一个程序通过利用经验E在T任务上获得了性能上的改善,就说关于T,P该程序对E进行了学习

 

 

1.2基本术语

Data set 数据集:纪录的集合

Instancesample 示例、样本:某条具体的纪录

attributefeature 特征、属性

Attribute value 属性

Attribute spacesample space 属性空间、样本空间

Feature vector 特征向量:in the attribute spaceevery instancecorresponding to a vector

示例:数据集 D={X1,X2,X3,,,Xm}由m个示例组成,

         Xi=(xi1,xi2,,,xid),每个示例由d个属性描述 Xid维样本空间的一个向量d称为Xi维数

 

Label 标记

Example 样例:拥有了标记信息的示例

Label space 标记空间所有标记的集合

一个样例:(Xi,Yi)

 

学习的任务分类:

      1. 预测离散值——classification 分类

             binary classification 二分分类,positive class 正类,negative class 反类

             multi-class classification 多分类

      2. 预测连续值——regression 回归

学习结果:

建立一个从输入空间到输入空间的映射f

聚类:训练集中的样本称为一个簇,这些簇对应一些潜在的分类

 

Supervised learning 监督学习:训练数据拥有标记信息,分类和回归是这类学习的代表

Unsupervised learning 无监督学习:不用有标记信息,聚类是这类学习的代表

Generalization 泛化能力:学习得到的模型适用于新样本的能力

通常假设整个样本空间遵从一个未知的分布 D

Independent and identical distributed 独立同分布 i.i.d: 在概率统计中,指随机过程中,任何时刻取值都为随机变量如果这些随机变量遵从同一分布并且相互独立那么这些随机变量是独立同分布

 

1.3 假设空间

假设是所有可能结果的集合

学习过程是在所有假设组成的空间中寻找符合训练集的假设的过程

版本空间:多个与训练集相匹配的假设所组成的集合

 

1.4 归纳偏好:

机器学习算法在学习过程中对某类型假设的偏好,称为归纳偏好

选择归纳偏好的原则有:

奥卡姆剃刀原则——当有多个假设符合观察的时候,选择最简单的那个

没有免费的午餐定理 NFL定理,任何两个算法的期望值都是相等的——重要前提:所有问题出现的机会相同,重要性相同——启发:针对具体的问题选择归纳偏好,因为对于所有潜在的可能性,任何算法期望是相等的这样的假设对解决具体问题是没有意义的

 

1.5机器学习发展历程:

推理期:赋予机器逻辑推理能力

知识期:使得机器拥有知识

 

1.6机器学习的应用

 

1.7 阅读材料:推荐各种阅读材料+重要国际、区域性会议+期刊

 

习题解答:

  1. 注意点,版本空间的每一假设都能单独地符合(退出)给定的示例
    解题思路,先列出假设空间,根据给定的训练数据进行筛选。

后面习题有些难,附上链接 http://blog.csdn.net/icefire_tyh/article/details/52064910

你可能感兴趣的:(机器学习)