笔记摘自李航《统计学习方法》
监督学习是指从标注数据中学习预测模型的的机器学习问题,标注数据通常表示输入输出的对应关系,预测模型对给定的输入产生相应的输出,监督学习的本质是输入到输出的映射的统计规律。
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间和输出空间,输入与输出空间可以是有限元素的集合,也可以是整个欧式空间。输入空间和输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小于输入空间
每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征,有时假设输入空间与特征空间为相同的空间,对他们不予以区分,有时候假设输入空间与特征空间事不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
在监督学习中,将输入和输出看作是定义在输入(特征)空间与输出空间的随机变量的取值。输入输出变量用小写字母表示,习惯上将输入变量写作 X X X,输出变量写作 Y Y Y。变量可以是标量或者是向量,都用相同类型的字母表示。
一般将输入实例 x x x的特征向量记作:
x = ( x ( 1 ) , x ( 2 ) , x ( 1 = 3 ) , … x ( n ) ) x = \Big( x^{(1)}, x^{(2)}, x^{(1=3)}, \dots x^{(n)}\Big) x=(x(1),x(2),x(1=3),…x(n))
x ( i ) x^{(i)} x(i)表示 x x x的第 i i i个特征。注意 x ( i ) x^{(i)} x(i)和 x i x_i xi不同,后者通常用于表示多个输入变量中的第 i i i个变量。
监督学习从训练数据集中学习模型,对测试数据进行预测,训练数据通常由输入(或特征向量)与输出对组成,训练集一般表示为:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } T = \{(x_1, y_1), (x_2, y_2), \dots ,(x_n, y_n)\} T={(x1,y1),(x2,y2),…,(xn,yn)}
测试数据也由输入输出对构成,又称为样本点。
输入变量 X X X输出变量 Y Y Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入输出变量的不同的类型,对预测任务给予不同的名称:
监督学习假设输入与输出的随机变量 X X X和 Y Y Y遵循联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)。 P ( X , Y ) P(X,Y) P(X,Y)表示分布函数,或分布密度函数。注意在学习过程中,假定这一联合概率分布存在,但对于学习系统而言,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律, X X X和 Y Y Y具有联合概率分布就是监督学习关于数据的基本假设。
监督学习在于学习一个由输入到输出的映射,这一映射由模型来表示。换而言之,学习的目的就在于找到最好的这样的模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间意味着学习的范围的确定。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P ( X ∣ Y ) P(X|Y) P(X∣Y)或决策模型 Y = f ( X ) Y = f(X) Y=f(X)表示,随具体的学习方法而定。对具体的输入进行相应的输出预测的时候,写作 P ( y ∣ x ) P(y|x) P(y∣x)或 y = f ( x ) y = f(x) y=f(x)。
监督学习利用训练数据学习一个模型,再用模型对测试样本集进行预测。由于在这个过程中需要标注的训练数据集,而标注的训练数据集往往是人工给出的,所以称为监督学习。监督学习分为监督和学习两个过程,由学习系统和监督系统完成。