机器学习的目的在于找到复杂数据中的关联性,数据的独立性越强,则有效数据越多,数据中包含着部分的真理,数据科学家的目的在于找出关联性,即联合分布函数或者映射。
联合概率分布的基本定义不再赘述,在机器学习中关于 X , Y X,Y X,Y的分布并非独立,而是服从 f ( X 1 , ⋯   , X n ) = Y 1 , ⋯   , Y m f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m f(X1,⋯,Xn)=Y1,⋯,Ym,由于 f f f未知,实际分布未知。
计算概率分布的基本意图为预测,通过数据集来计算概率分布从而达到预测的功能,即
f ( Y / X ) = ∬ f ( X 1 , ⋯   , X n ) d x d y ( 1 ) \ f(Y/X) = \iint_{}^{} f(X_1, \cdots,X_n){dx}{dy} \qquad(1) f(Y/X)=∬f(X1,⋯,Xn)dxdy(1)
f ( X 1 , ⋯   , X n ) = Y 1 , ⋯   , Y m ( 2 ) f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m \qquad(2) f(X1,⋯,Xn)=Y1,⋯,Ym(2)
上述公式都是用来预测y,达到的效果一致。实际上统计方法在决策树,贝叶斯应用广阔通过寻找 y N + 1 = a r g m a x P ^ ( y N + 1 ∣ x N + 1 ) y_{N+1} = argmax\hat{P}(y_{N+1}|x_{N+1}) yN+1=argmaxP^(yN+1∣xN+1)。即在 x N + 1 x_{N+1} xN+1使结果最大的概率,这个结果对应的结果为 y N + 1 y_{N+1} yN+1。常见于贝叶斯,决策树等模型《李航统计学习方法》p(5)
经验风险由损失函数决定。损失函数通常为人为定义比如:
平方损失函数 L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y,f(x)) = (Y - f(x))^2 L(Y,f(x))=(Y−f(x))2
绝对值损失函数 L ( Y , f ( x ) ) = ∣ Y − f ( x ) ∣ L(Y,f(x)) = |Y - f(x)| L(Y,f(x))=∣Y−f(x)∣
对数损失函数 L ( Y , f ( x ) ) = l o g ( Y − f ( x ) ) L(Y,f(x)) = log(Y - f(x)) L(Y,f(x))=log(Y−f(x))
实际损失函数期望为 R e x p = ∫ X × Y L ( Y , f ( x ) ) P ( X , Y ) d x d y R_{exp} = \int_{X×Y}^{}L(Y,f(x))P(X,Y){dx}{dy} Rexp=∫X×YL(Y,f(x))P(X,Y)dxdy
由于P的未知性,通常用经验期望 R e m p = 1 N ∑ i = 1 N L ( Y , f ( x ) ) R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x)) Remp=N1∑i=1NL(Y,f(x))来代替 R e x p R_{exp} Rexp,在数据样本够多的情况下 R e m p → R e x p R_{emp} \rightarrow R_{exp} Remp→Rexp
结构风险通常防止过拟合,选取结构复杂度与 f f f相同的函数,使得 J ( f ) J(f) J(f)随着复杂度的增加而增加,通过参数λ调节两种风险的重要性,最后得到决策函数 R e m p + λ J ( f ) R_{emp}+\lambda J(f) Remp+λJ(f),这样就变成了求解决策函数最优的 f ( x ) f(x) f(x), J ( f ) J(f) J(f)通常为范数,这个符合奥卡姆剃刀原则。
对于任意的 f f f属于假设空间,至少有1- δ \delta δ的概率,使得以下不等式成立
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f) \leq\hat{R}(f)+\varepsilon(d,N,\delta) R(f)≤R^(f)+ε(d,N,δ)
ε ( d , N , δ ) \varepsilon(d,N,\delta) ε(d,N,δ)中N为样本数目,N越大,则泛化误差上界越小,d为样本空间,d越大,泛化误差上界越大。其中
ε ( d , N , δ ) = 1 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta) = \sqrt{\frac{1}{N}(logd+log\frac{1}{\delta})} ε(d,N,δ)=N1(logd+logδ1)
习题1.1
伯努利模型的极大似然估计可得
∂ L ( θ ) θ = k ⋅ θ + − 1 1 − θ ⋅ ( n − 1 ) \frac{\partial L(\theta)}{\theta} = k·\theta+\dfrac{-1}{1-\theta}·(n-1) θ∂L(θ)=k⋅θ+1−θ−1⋅(n−1)令其等于0可以得到
θ = k n = arg max θ L ( θ ) {\theta} = \dfrac{k}{n} = \mathop{\arg\max} \limits_{\theta}L(\theta) θ=nk=θargmaxL(θ)
独立的数据结果是前提于关键,
习题1.2
经验风险函数,以及似然函数如下
R e m p = 1 N ∑ i = 1 N L ( Y , f ( x ) ) = − 1 N l o g ∏ P ( y i ∣ f ( x i ) ) = s z ∏ P ( y i , f ( x i ) ) R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x))=-\frac{1}{N}log\prod P(y_i|f(x_i))=sz\prod P(y_i,f(x_i)) Remp=N1i=1∑NL(Y,f(x))=−N1log∏P(yi∣f(xi))=sz∏P(yi,f(xi))
L ( θ ) = L ( x 1 , ⋯   , x n , θ ) = ∏ P ( y i , f ( x i ) ) L(\theta)=L(x_1,\cdots,x_n,\theta)=\prod P(y_i,f(x_i)) L(θ)=L(x1,⋯,xn,θ)=∏P(yi,f(xi))
sz认为定义的算子,两个函数有相同的主体部分,所以说两者等效。