第一章 统计学习方法概论

1.1 统计学习

1.1.1 统计学习特点

定义:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门科学。

学习——如果某个系统能够通过执行某个过程改进它的性能,这就是学习。

统计学习就是计算机系统通过运用统计学方法提高系统性能的机器学习。

1.1.2 统计学习对象

——数据。从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中去。

统计学习的前提:同类(共同性质的)数据具备一定的统计规律。

1.1.3 统计学习的目的

统计学习的终极目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

1.1.4 统计学习的方法

基于数据构建统计模型从而对数据进行预测与分析(分监督、非监督、半监督和强化学习)。

假设空间:假设要学习的模型所在的函数集合。

统计学习三要素=模型+策略+算法

——假设空间+模型选择准则+模型选择算法

1.1.5 统计学习的研究(略)

1.1.6 统计学习的重要性(略)



1.2 监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测

1.2.1 基本概念

输入空间:输入所有可能取值的集合

输出空间:输出所有可能取值的集合

实例:具体的一个输入称为一个实例,通常由特征向量表示。

特征空间:所有特征向量存在的空间(特征空间和输入空间可以相同也可以不同,有时候需要将具体的实例从输入空间映射至特征空间)

样本点:由一对输入与输出组成

------------------------------------------------------------------------------------------------------

回归问题:输入与输出均是连续性变量

分类问题:输出是离散的

标注问题:输入与输出均是变量序列的预测问题

------------------------------------------------------------------------------------------------------

统计学习理论是基于输入与输出数据具有联合概率分布的假设,认为训练数据中的X和Y是依联合概率密度P(X,Y)独立同分布产生的。

监督学习模型:概率模型和非概率模型,由条件概率分布P(Y|X)和决策函数Y=f(X)表示。

------------------------------------------------------------------------------------------------------

1.2.2 问题的形式化(略)



1.3 统计学习三要素

方法=模型+策略+算法

1.3.1 模型

假设空间F表示。通常F是由一个参数向量决定的函数簇(决策函数型)

                                                                                         

参数所有的可能取值空间称为参数空间(条件概率型)。

                                                                                           

本书中称由决策函数表示的模型为非概率模型,由条件概率表示的模型称为概率模型。

1.3.2 策略

统计学习的目的在于从假设空间选择最优模型

------------------------------------------------------------------------------------------------------

统计函数和风险函数

损失函数(loss function):损失函数是和Y的非负实值函数,记为

(1)0-1损失函数

(2)平方损失函数

你可能感兴趣的:(第一章 统计学习方法概论)