统计学习方法概论

1.1、统计学习

 

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

赫尔伯特,西蒙(Herbert A.Simon)曾对“学习”给出以下定义:如果一个系统能够通过知行某个过程改进它的性能,这就是学习。

统计学习的对象是数据(data)

统计学习的目的:就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习的效率。

统计学习的三要素:1、模型(model);2、策略(strategy);3、算法(algorithm);

实现统计学习方法的步骤如下:

(1)、得到一个有限的训练数据集合

(2)、确定包含所有可能的模型的假设空间,即学习模型的集合

(3)、确定模型的选择的准则,即学习的策略

(4)、实现求解最优模型的算法,即学习的算法

(5)、通过学习方法选择最优模型

(6)、利用学习的最优模型对新数据进行预测或分析

 

1.2、监督学习

统计学习包括:1、监督学习(supervised learning);2、非监督学习;3、半监督学习;4、强化学习;

基本概念:

1、每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示,这时,所有特征向量存在的空间称为特征空间(feature space)。

2、模型实际上都是定义在特征空间上的

3、监督学习训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。

4、输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题成为标注问题

5、

随机变量&概率分布:

我们已经了解概率中通常将试验的结果称为“随机变量”,随机变量将每一个试验结果赋予了一个数值,包含离散型随机变量和连续性随机变量。

例子:抛硬币就是一个典型的离散型随机变量;某个时间点就是一个典型的连续型随机变量,1.2分钟,1.234分钟,可以无限分割,它可以在某一区间内取任一个数值。

既然随机变量可以取不同的值,统计学家就用概率分布来描述随机变量取不同值的概率,相对应的有离散型概率分布和连续型概率分布。

数学期望&方差

数学期望是对随机变量中心位置的一种度量,简单的说,它是概率中的平均值。

方差描述的是随机变量的稳定性,方差越大,随机变量的结果越不稳定。标准差等于sqrt(方差),代表的是与期望之间的差值。

6、监督学习的目的在于学习一个有输入到输出的映射,这一映射有模型来表示。换句话说,学习的目的就是找到最好的这样的模型,模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。监督学习的模型可以是概率型或非概率型,条件概率P(X|Y)决策函数(decision function) Y=f(X)表示。

 

问题的形式化:

监督学习利用训练数据集学习一个模型。它分为学习和预测两个过程。

统计学习方法概论_第1张图片

1.3、统计学习的三要素

方法=模型+策略+算法

(1)模型:模型就是所要学习的条件概率分布或决策函数

(2)策略:

统计学习的目标在于从假设空间中选取最有模型;

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型的好坏;

(3)算法:是指学习模型的具体计算方法

 

 

 

 

你可能感兴趣的:(一,数据分析-基础)