指模型对未知数据的预测能力。从理论上对泛化能力进行分析。
如果学到的模型是 f ^ \hat{f} f^ ,那么用这个模型对未知数据测得的误差即为泛化误差(generalization error):
R e x p = E P [ L ( Y , f ^ ( X ) ) ] = ∫ x ⋅ y L ( y , f ^ ( x ) ) P ( x , y ) d x d y R_{exp}= E_{P}[L(Y,\hat{f}(X))]=\int_{x·y}L(y,\hat{f}\left ( x \right ))P(x,y)dxdy Rexp=EP[L(Y,f^(X))]=∫x⋅yL(y,f^(x))P(x,y)dxdy
泛化误差也就是所学习到模型的期望风险。
定理(泛化误差上界):对二分类问题,当假设空间是有限个函数的集合 F = f 1 , f 2 , . . . , f d F={f_1,f_2,...,f_d} F=f1,f2,...,fd时,对任意一个函数 f ϵ F f\epsilon F fϵF,至少依概率 1 − σ , 0 < σ < 1 1-\sigma,0<\sigma<1 1−σ,0<σ<1,以下不等式成立:
R ( f ) ⩽ R ( f ) ^ + ε ( d , N , δ ) R(f)\leqslant \hat{R(f)}+\varepsilon (d,N,\delta ) R(f)⩽R(f)^+ε(d,N,δ)
其中,
ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon (d,N,\delta )=\sqrt{\frac{1}{2N}(logd + log\frac{1}{\delta })} ε(d,N,δ)=2N1(logd+logδ1)
右边第一项是训练误差,训练误差越小,泛化误差也越小。第二项是N的单调递减函数,当N趋于无穷时趋于零。同时也是 l o g d \sqrt{logd} logd阶的函数,假设空间包含的函数越多,其值越大。
模型的一般形式决策函数: Y = f ( X ) Y=f(X) Y=f(X)
或者条件概率分布: P ( Y ∣ X ) P(Y|X) P(Y∣X)
监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型称为生成模型和判别模型。
生成方法:由数据联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测的模型,即生成模型:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
生成方法的特点:1、可以还原出联合概率分布。2、收敛速度更快,即样本容量增加时,更快的收敛于真实模型。3.存在隐变量时,仍可以用生成学习方法,判别方法不能用。
判别方法:由数据学习条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 f ( X ) f(X) f(X)。判别方法关心的是给定输入X,应该预测什么样的输出Y。
典型的判别模型有:k邻近法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
特点:1、直接面对预测,学习的准确率会更高。2、因为直接学习条件概率或决策函数,可以对数据进行各种程度上的抽象、定义特征并使用特征,可以简化学习问题。
三个方面:分类问题、标注问题和回归问题。
输出变量Y取有限离散值时,预测问题便成为了分类问题。输入X可以是连续的也可以是离散的。
评价分类器的一般指标是准确率(accuracy)。对于二分类问题常用的评价指标是精确率(precition)与召回率(recall)。
精确率:
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率:
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1值:精确率和召回率的调和均值
2 F 1 = 1 P + 1 R \frac{2}{F_1}=\frac{1}{P}+\frac{1}{R} F12=P1+R1
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的只在于学习一个模型,使它能够对观测序列给出标记序列作为预测。自然语言处理的策行标注是一个典型的标注问题。
评价指标和分类问题一样。
标注问题常用的方法:隐马尔可夫模型,条件随机场。
回归用于预测输入变量和输出变量之间的关系。学习映射函数。
按输入变量分:一元回归、多元回归。按模型类型:线性回归、非线性回归。
常用损失函数是平方损失函数,这样,回归问题可以由最小二乘法求解。