基本概念--05.18

监督学习(定义)

一、输入空间、特征空间与输出空间概念

1、输入空间、输出空间

2、实例(instance)、特征向量 、特征空间。(特征空间每一维代表什么)

    输入也成为实例。输出也成为观测值。

3、训练数据由“输入与输出对”构成,测试数据也由“输入与输出对”构成,

      输入与输出对又称样本样本点

4、预测任务(问题)分为三类

     a、 回归问题;输入变量与输出变量均为连续变量的预测问题

     b、分类问题; 输出变量为有限个离散的变量的预测问题

      c、标注问题;输入变量与输出变量均为变量序列的预测问题

二、联合概率分布

   假设:监督学习假设输入与输出空间的随机变量X与Y遵循联合概率分布(X ,Y),

               P(X,Y)表示分布函数,或者分布密度函数;

   注意:1、在学习过程中,假设这一联合概率分布的存在,但是对学习系统来说,联合概率分布的                    具体定义是未知的。 

               2、训练数据与预测数据被看作依赖联合分布P(X,Y)独立同分布的。

               3、统计学习假设数据存在一定的统计规律。X与Y具有联合概率分布的假设就是监督学                         习关于数据的基本假设

 以上,简言之,给了我们一对数据时,我们并不知道这些数据是否含有统计规律。但是我们假设    这些数据(X,Y)具有联合概率分布。假设了这些数据具有统计规律后,我们并不知道这些数据该使用什么算法。这就是做算法的人需要锻炼的地方。可以将数据可视化,然后,查看数据规律,然后使用相应的模型。

三、假设空间

1、(监督)学习的目的:学习一个由输入到输出的映射,这一映射由模型来表示。

2、假设空间;模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis      space).假设空间的确定意味着学习范围的确定。



                                               问题的形式化


1、监督学习分为学习和预测两个过程。

2、训练数据通过训练得到一个模型。模型表现为条件概率分布或者决策函数,即描述输入和输出随机变量之间的映射关系。

3、 一个好的模型。具体的时候:。。。。对训练集有一个很好的预测,同时对未知的测试数据集的预测也有尽可能好的推广.[泛化能力强]


你可能感兴趣的:(基本概念--05.18)