机器学习(西瓜书) 第一章读书笔记

目录

第一章 绪论

机器学习学科的目的

基本术语介绍

假设空间

归纳偏好

人工智能发展历程

应用现状

重要会议

 

第一章 绪论

机器学习学科的目的

研究如何通过计算手段,利用经验来改善系统自身的性能。

 

基本术语介绍

单条数据: 包含部分特征值的数据,有些时候包含目标值(监督学习,半监督学习) 有些时候不包含(无监督学习,半监督学习)

数据集: 多条数据组成的集合

特征: 反映事件或对象在某方面的表现或性质         特征值 :特征的取值

样本空间、属性空间、输入空间: 样本集构成的空间

标记空间、输出空间: 所有标签的集合

 

特征向量: 样本空间中的一个点。

维数: 一般指特征的个数

训练集: 训练过程中使用的数据 训练样本: 训练中的每个样本

测试集: 测试过程中使用的数据 测试样本: 被预测中的每个样本

监督学习--回归任务: 连续型数值的预测

监督学习--分类任务: 离散型数值的预测 二分类 和多类分的区别: 标签数量是否大于2

无监督学习--聚类: 通过计算,把数据按照某种结构分成若干个组。每个组称为一个 "簇"

通常我们没有标签信息,并且各种组的对应的概念、特征我们事先都不知道

泛化能力: 模型在"新样本"上的性能表现。机器学习希望模型能够很好地适用于“新样本”。

采样要求: 训练集能够很好地反映出样本空间的特性。否则很难期望在训练集上学得的模型能在整个样本空间上

都工作得很好。

 

独立同分布

通常假设样本空间中全体样本服从一个未知分布 D。 我们获得的每个样本都是独立同分布的-- 即互相独立地从这个分布上采样获得。

 

泛化能力与样本数量的关系

具有强泛化能力的模型能够更好适应与整个样本空间。

一般来说,训练样本越多,我们得到的关于D的信息越多。 这样就越有可能通过学习获得具有强泛化能力的模型。

 

假设空间

科学推理的基本手段:

归纳: 从具体的事实归结出一般性规律 (机器学习采用的手段)

演绎: 从一般到特殊的特化过程。从基础原理推演出具体情况。

 

假设空间: 所有特征的取值形成的空间,包括空集

版本空间 : 与训练集匹配的多个假设的集合称为版本空间

 

版本空间的概念是为了让大家理解接下来的意思:上面求出来了西瓜问题的版本空间,但可以看到版本空间不是很确定,包含有*的假设可能会得到正确的判断,也可能得到错误的判断(这句话是针对实际问题,如果针对表1.1的训练集,那当然不会有错误的判断)。因此,要想判断的正确,就要全面、大量的训练,以排除更多假设空间中的错误假设。

错误假设越少,剩下的假设越少,就越有可能是正确假设,我们判断的结果的正确概率越大。因为最终的假设会随着版本(数据集)变化而变化,所以叫做版本空间。训练样本的假设集合也只是真正的版本空间一个子集。

 

泛化的意思也就是,根据某些偏好,我们选择了版本空间里的一种假设作为判断好

 

机器学习的过程

可以把学习过程看成一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断正确的假设。

 

搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设, 寻找到一个合适的版本空间

 

版本空间的寻找:可以从假设空间中去掉不符合的条件的假设,也可以从训练集中找到符合规律的假设组成集合

 

归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。

有效的机器学习算法必有其归纳偏好,及对选中的版本空间中的某一条假设。

 

奥卡姆剃刀原则: 若有多个假设与观察一致,选取最简单的那个。判断一种模型是否简单,有些时候从图形和多 项式可以看出来。 图形越光滑,多项式高阶次数越低被认为是更简单。 但有些时候我们不能去判断,需要借助其他机制才能解决。

No Free lunch : 对于一个学习算法A,若它在一部分数据集上性能比算法B好,则必然在另一部分数据集上性能比算法B差。对于所有数据,算法A,B的性能都是一样的。

                                                    E_{ote}( L_{a}|X,f ) = \sum_{h}\sum_{x \in \chi - X} P(X) \mathbb{I}(h(x) \neq f(x)) P(h|X,L_{a})

                                             \sum_{f} E_{ote}( L_{a}|X,f ) \\ = \sum_{f}\sum_{h}\sum_{x \in \chi - X} P(X) \mathbb{I}(h(x) \neq f(x)) P(h|X,L_{a}) \\ = \sum_{x \in \chi - X} P(X) \sum_{h} P(h|X,L_{a}) \sum_{f}\mathbb{I}(h(x) \neq f(x)) \\ = \frac{1}{2} 2^{\chi} * 1 * \sum_{h} P(h|X,L_{a}) = \frac{1}{2} 2^{\chi} \sum_{h} P(h|X,L_{a})

NFL 定理推论:

NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要。 但事实上并不是这样的。上面NFL 定理的简短论述过程中假设了f 的均匀分布,而实际情形并非如此。

 

不能脱离问题谈论算法的相对优劣。要针对具体问题具体分析。

 

人工智能发展历程

1950-1970 -- 人工智能推理期。

A Newell H simon 逻辑理论家 通用问题求解

E.A Feigenbaum 机器要拥有智能,必须具有知识

F,Rosenblatt 感知机 连接主义

P.Winston 结构学习系统,基于逻辑的归纳学习系统 符号主义

E.B.Hunt 概念学习系统

.......

 

应用现状

多媒体,图形学,网络通信,软件工程,体系结构,芯片设计等等行业都适用

我们主攻方向,计算机视觉

 

重要会议

机器学习领域最重要的国际学术会议是国际机器学习会议(ICML)

国际神经信息处理系统会议(NIPS),国际学习理论会议(COLT)

重要的区域性会议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML);

你可能感兴趣的:(机器学习)