基本概念--05.18

监督学习（定义）

一、输入空间、特征空间与输出空间概念

1、输入空间、输出空间

2、实例（instance）、特征向量、特征空间。（特征空间每一维代表什么）

输入也成为实例。输出也成为观测值。

3、训练数据由“输入与输出对”构成，测试数据也由“输入与输出对”构成，

输入与输出对又称样本或样本点

4、预测任务（问题）分为三类

a、回归问题；输入变量与输出变量均为连续变量的预测问题

b、分类问题；输出变量为有限个离散的变量的预测问题

c、标注问题；输入变量与输出变量均为变量序列的预测问题

二、联合概率分布

假设：监督学习假设输入与输出空间的随机变量X与Y遵循联合概率分布(X ,Y),

P(X,Y)表示分布函数，或者分布密度函数；

注意：1、在学习过程中，假设这一联合概率分布的存在，但是对学习系统来说，联合概率分布的具体定义是未知的。

2、训练数据与预测数据被看作依赖联合分布P(X,Y)独立同分布的。

3、统计学习假设数据存在一定的统计规律。X与Y具有联合概率分布的假设就是监督学习关于数据的基本假设

以上，简言之，给了我们一对数据时，我们并不知道这些数据是否含有统计规律。但是我们假设这些数据（X，Y）具有联合概率分布。假设了这些数据具有统计规律后，我们并不知道这些数据该使用什么算法。这就是做算法的人需要锻炼的地方。可以将数据可视化，然后，查看数据规律，然后使用相应的模型。

三、假设空间

1、（监督）学习的目的：学习一个由输入到输出的映射，这一映射由模型来表示。

2、假设空间；模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）.假设空间的确定意味着学习范围的确定。

问题的形式化

1、监督学习分为学习和预测两个过程。

2、训练数据通过训练得到一个模型。模型表现为条件概率分布或者决策函数，即描述输入和输出随机变量之间的映射关系。

3、一个好的模型。具体的时候：。。。。对训练集有一个很好的预测，同时对未知的测试数据集的预测也有尽可能好的推广.[泛化能力强]