《统计学习方法》第1章 统计学习方法概论 1.2 监督学习

《统计学习方法》第1章 统计学习方法概论

  • 1.2 监督学习
    • 1.2.1 基本概念
      • 1.输入空间、特征空间与输出空间
      • 2.联合概率分布
      • 3.假设空间
    • 1.2.2 问题的形式化

1.2 监督学习

监督学习的任务就是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

1.2.1 基本概念

1.输入空间、特征空间与输出空间

(1)输入空间和输出空间:输入与输出所有可能取值的集合分别成为输入空间(input space)输出空间(output space)。输入和输出空间可以是有限元素的集合,也可以是整个欧式空间。可以是同一空间,也可以是不同空间;通常,输出空间小于输入空间。
注释:欧式空间:
《统计学习方法》第1章 统计学习方法概论 1.2 监督学习_第1张图片
(2) 特征空间: 所有特征向量存在的空间称为特征空间(feature space)。特征向量(feature vector)是每个具体输入(也叫做实例(instance))的表示。特征空间的每一个维度对应一个特征。输入空间和特征空间可以相同, 也可以不同,如果不同,则将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上。
(3)表示:
a.在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入、输出变量用大写字母表示:输入为X,输出为Y;输入、输出变量所取的值用小写字母表示:输入变量的取值为x,输出变量的取值为y。(比那辆可以是标量也可以是向量,表示不变)。输入实例x的特征向量记作:
Alt
x(i)表示x的第i个特征。xi表示多个输入变量中的第i个。即:在这里插入图片描述
b.监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
训练数据由输入(或特征向量)与输出对组成。训练集的表示为:
在这里插入图片描述测试数据的表示同上。输入与输出对又称为样本(sample)或样本点
(4)预测任务:
a.回归问题:输入输出变量均为连续变量的预测问题;
b.分类问题:输出变量为有限个离散变量的预测问题;
c.标注问题:输入变量与输出变量均为变量序列的预测问题。

2.联合概率分布

监督学习关于数据的基本假设:X和Y具有联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布独立同分布产生的。统计学习假设数据存在一定的统计规律。
联合概率分布

3.假设空间

监督学习的目的在于找到一个从输入到输出的映射,用模型表示。模型属于输入空间到输出空间的映射的集合,整个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。
模型可以是概率模型非概率模型,由条件概率分布 P(Y|X)或决策函数(decision function)Y=f(X)表示。对具体的输入进行相应的输出与测试,写作P(y|x)或y=f(x)。

1.2.2 问题的形式化

《统计学习方法》第1章 统计学习方法概论 1.2 监督学习_第2张图片学习系统通过训练数据集中的样本带来的信息学习模型。

你可能感兴趣的:(统计学习方法读书笔记,统计学习方法)