统计学习是概率论、统计论、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,其基本假设是同类数据具有一定的统计规律性,这是统计学习的前提,其在计算机科学中所处位置如下:
计算机科学由三维组成,即系统、计算和信息,统计学习属于信息这一维,向下又可以分为统计学习方法,统计学习理论和统计学习应用;统计学习方法由模型、策略和算法这三要素构成。
在机器学习模型中涉及的空间包括输入空间、特征空间、输出空间、参数空间。将输入所有可能取值的集合称为输入空间,将输出所有可能取值的集合称为输出空间,每一个输入实例由特征向量表示,所有特征向量所在空间是特征空间,有时假设输入空间与特征空间为相同空间,对他们不予区分(我本人到目前为止不区分这两个空间);有时假设输入空间与特征空间为不同空间,将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上的。
在监督学习过程中,将输入与输出定义在输入空间与输出空间上的随机变量(大写)的取值,即输入变量X,输出变量Y,变量的具体取值称为实例(小写),输入实例 x x x,输出实例 y y y,第i个实例 x i = ( x i ( 1 ) , x i ( 2 ) , x i ( 3 ) … x i ( n ) ) T x_{i}=(x_{i}^{(1)},x_{i}^{(2)},x_{i}^{(3)} \dots x_{i}^{(n)})^{T} xi=(xi(1),xi(2),xi(3)…xi(n))T,其中 x i ( 3 ) x_{i}^{(3)} xi(3)表示第 i i i个实例的第3个特征,其输出实例为 y i y_{i} yi,定义 ( x i , y i ) (x_{i},y_{i}) (xi,yi)为样本点,这样我们就可以表示数据集为 T = { ( x 1 , y 1 ) , ( x 1 , y 1 ) , ( x 1 , y 1 ) … ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{1},y_{1}),(x_{1},y_{1}) \dots (x_{N},y_{N})\} T={(x1,y1),(x1,y1),(x1,y1)…(xN,yN)},参数空间即参数向量 θ \theta θ的所有可能取值构成的空间。
一般我们所说的机器学习,主要是指统计机器学习,机器学习算法可以分为监督学习、非监督学习、半监督学习和强化学习。监督学习简单理解为有类标签,非监督学习理解为没有类标签,《统计学习方法》以监督学习为主,同时监督学习的模型也是统计学习中内容最丰富、应用最广泛的部分,监督学习的基本假设是输入变量X与输出变量Y具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),上面提到的数据集 T = { ( x 1 , y 1 ) , ( x 1 , y 1 ) , ( x 1 , y 1 ) … ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{1},y_{1}),(x_{1},y_{1}) \dots (x_{N},y_{N})\} T={(x1,y1),(x1,y1),(x1,y1)…(xN,yN)}就可以理解为从联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。;非监督学习主要指聚类问题。
{这里留空将来总结半监督学习和强化学习}
监督学习问题可以分为回归问题、分类问题、标注问题,输入变量和输出变量均是连续变量的预测问题称为回归问题,回归问题的学习等价于函数拟合;输入变量可以是离散也可以是连续的但输出变量为有限个离散变量的预测问题称为分类问题,许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、logistic回归、SVM、提升方法、贝叶斯网络、神经网络、Winnow等;输入变量与输出变量均为变量序列的预测问题称为标注问题,标注问题是分类问题的推广,也是更复杂结构预测的简单形式,分类问题输出一个类标签,而标记问题输出多个标签(和输入变量长度n一样),对第i个输入 x i = ( x i ( 1 ) , x i ( 2 ) , x i ( 3 ) … x i ( n ) ) T x_{i}=(x_{i}^{(1)},x_{i}^{(2)},x_{i}^{(3)} \dots x_{i}^{(n)})^{T} xi=(xi(1),xi(2),xi(3)…xi(n))T,第i个预测输出为 y i = ( y i ( 1 ) , y i ( 2 ) , y i ( 3 ) … y i ( n ) ) T y_{i}=(y_{i}^{(1)},y_{i}^{(2)},y_{i}^{(3)} \dots y_{i}^{(n)})^{T} yi=(yi(1),yi(2),yi(3)…yi(n))T,假设输出空间包含m个标记,则所有可能的输出结果 y i y_{i} yi有 n m n^{m} nm个,标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
模型可以分为参数模型和非参数模型,参数模型的参数个数已知,非参数模型的参数个数未知。
监督学习生成模型可以分为概率模型与非概率模型,其中概率模型学习的是条件概率分布 P ( X ∣ Y ) P(X|Y) P(X∣Y),例如朴素贝叶斯分类器,非概率模型学习的是一个决策函数 Y = f ( X ) Y=f(X) Y=f(X),以SVM为例为 y = s i g n ( w T φ ( x i ) + b ) y=sign(w^{T}\varphi(x_{i})+b) y=sign(wTφ(xi)+b)。
监督学习生成的模型还可以分为生成模型和判别模型,生成模型学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),得到模型 P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y),例如朴素贝叶斯法和隐马尔可夫模型;而判别模型直接学习决策函数 Y = f ( X ) Y=f(X) Y=f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X),如k近邻法、感知机、决策树、logistic回归、最大熵模型、SVM、提升方法和条件随机场等。生成模型学习收敛速度快,可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),当存在隐变量时仍可使用;判别模型准确率更高,但在隐变量情况不能使用。
统计学习方法=模型+策略+算法,构建一种统计学习方法就是确定具体的统计学习三要素,统计学习方法之间的不同,就是三要素的不同。对于监督学习,如果用一个词概括这模型、策略、算法具体在干嘛,就是分别确定决策函数/条件概率函数、损失函数、优化方法。
当模型的复杂度增大时,训练误差会逐渐减小并趋向与0,;而测试误差会先减小,后增大。一旦测试误差开始增大,往往意味着进入过拟合。
我们可以通过正则化与交叉验证方法应对过拟合。
验证集和测试集的区别之前一直不太懂,下面的blog说的不错 https://blog.csdn.net/jmh1996/article/details/79838917 ,这里简单总结一下,我们知道训练模型需要得到模型参数和超参数的值,而训练集就是训练模型的模型参数,而验证集就是确定模型的最优超参数,测试集用于估计模型对样本的泛化误差。以多项式回归为例,我们想要确定这样的回归函数 f M ( x , ω ) = ω 0 + ω 1 x + ω 1 x + ω 2 x 2 + ⋯ + ω M x M f_{M}(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{1}x+\omega_{2}x^{2}+ \dots +\omega_{M}x^{M} fM(x,ω)=ω0+ω1x+ω1x+ω2x2+⋯+ωMxM,我们就需要知道模型参数向量 ω \omega ω和模型超参数 M M M,在执行机器学习算法之前,我们有很多超参数不同的多项式模型,例如 M = 5 , 10 , 15 , 20 , 25 M=5,10,15,20,25 M=5,10,15,20,25,经过训练集,我们知道了在不同的 M M M时,模型参数向量 ω \omega ω的最优解,经过验证集,我们发现 M = 10 M=10 M=10时候多项式模型最好,在测试集,我们就可以评估最优 ω \omega ω和最优 M M M的多项式模型的泛化能力。
右上角带*表示最优,最左边5个模型其超参数和模型参数都没确定,经过训练集,我们知道了每个 M M M下 θ \theta θ的最优解,经过验证集,我们知道了 M M M和 θ \theta θ都最优的解,经过测试集我们得到了最优的 M M M和 θ \theta θ的模型的泛化能力评估指标。很多人会把验证集和测试集混淆,其实验证集和测试集功能完全不一样,真要说的话,验证集和训练集功能有一点相似,验证集用于确定最优超参数,训练集用于确定最优模型参数。
在深度学习中,验证集还有一个作用,对训练集得到的模型进行一个粗略的评价,一般可以用在early stop,例如模型进入过拟合状态,我们通过训练集看,误差其实还是在不断下降,但是测试集误差已经上升,在这种情况下,我们可以利用验证集做一个粗劣的评价,我们通过观察模型在验证集的表现是可以看出来模型是否已经进入过拟合,从而实现early stop,或者当我们观察模型在训练集表现已经达到我们的一个预期值,也可以进行early stop。值得注意的是,验证集和训练集不能混,训练集会反向传播更新参数,验证集不会,验证集仅做前向传播计算误差,其作用可以说是介于训练集和测试集之间。
总的来说,验证集有两个作用,确定模型超参数,或者防止模型过拟合。
主要参考书籍:《统计学习方法》