【李航统计学习笔记】第一章:统计学习及监督学习概论

1.1 导论

统计学习

监督学习的实现步骤:

  1. 得到一个有限的训练数据集合

  2. 确定模型的假设空间,也就是所有的备选模型

  3. 确定模型选择的准则,即学习的策略

  4. 实现求解最优模型的算法

  5. 通过学习方法选择最优模型

  6. 利用学习的最优模型对新数据进行预测或分析

监督学习

训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),,(xN,yN)}

实例 x x x的特征向量: x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(n))T

模型:

  1. 决策函数: Y = f ( X ) Y=f(X) Y=f(X). 预测形式: y = f ( x ) y=f(x) y=f(x).
  2. 条件概率分布: P ( Y ∣ X ) P(Y | X) P(YX). 预测形式: argmax y ( y ∣ x ) \underset{y}{\text{argmax}} (y | x) yargmax(yx)

统计学习三要素

要素一:模型(假设空间)

决策函数: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\left\{f | Y=f_{\theta}(X), \theta \in R^{n}\right\} F={fY=fθ(X),θRn}

条件概率分布: F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\left\{P\left|P_{\theta}(Y | X), \theta \in R^{n}\right\}\right. F={PPθ(YX),θRn}

要素二:策略:

损失函数

  1. 0-1损失函数

L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{l} 1, Y \neq f(X) \\ 0, Y=f(X) \end{array}\right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)

  1. 平方损失函数

L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2

  1. 绝对损失函数

L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

  1. 对数损失函数

L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)

经验风险最小化:
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
结构风险最小化
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)

要素三:算法

挑选一个最合适的算法,使得可以求解最优模型

模型评估与模型选择

训练误差:
1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right) N1i=1NL(yi,f (xi))
测试误差:
1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) \frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right) N1i=1NL(yi,f (xi))

多项式拟合问题

正则化与交叉验证

最小化结构风险:
1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) N1i=1NL(yi,f(xi))+λJ(f)
交叉验证:数据集随机划分为以下三部分,训练集(模型的训练),验证集(模型的选择),测试集(模型的评估)。

泛化能力

定理1.1 泛化误差上界

对于二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , ⋯   , f d } F=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd}时, 对任意一个函数 f ∈ F f\in F fF, 至少以概率 1 − δ 1-\delta 1δ,以下不等式成立:
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f) \leq \widehat{R}(f)+\varepsilon(d, N, \delta) R(f)R (f)+ε(d,N,δ)
其中:
ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)

生成模型与判别模型

生成方法: P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X)=\dfrac{P(X, Y)}{P(X)} P(YX)=P(X)P(X,Y) 。比如说,如何知道女孩子的姓名呢?生成方法就是:我要是把她爸妈建模出来,直接问她 爸妈不就行了吗?

判别方法: f ( x ) f(x) f(x) P ( Y ∣ X ) P(Y|X) P(YX). 沿用上面例子,判别方法就是:她叫小红的概率是多少?她叫小刘的概率时多少?。。。

分类问题

精确率:
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率:
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

F1值:
2 F 1 = 1 P + 1 R F 1 = 2 T P 2 T P + F P + F N \begin{aligned} \frac{2}{F_{1}} &=\frac{1}{P}+\frac{1}{R} \\ F_{1} &=\frac{2 T P}{2 T P+F P+F N} \end{aligned} F12F1=P1+R1=2TP+FP+FN2TP

1.2 极大似然估计

在掷硬币实验中估计出现正面向上的概率 θ \theta θ

极大似然估计:
x i = { 1 ,  正  0 ,  负  x i ∼ B ( 1 , θ ) x_{i}=\left\{\begin{array}{l} 1, \text { 正 } \\ 0, \text { 负 } \end{array} \quad x_{i} \sim \mathrm{B}(1, \theta)\right. xi={1,  0,  xiB(1,θ)
概率函数:
P ( X = x ) = θ x ( 1 − θ ) 1 − x P(X=x)=\theta^{x}(1-\theta)^{1-x} P(X=x)=θx(1θ)1x
似然函数:
L ( θ ) = P ( X 1 = x 1 ∣ θ ) ⋯ P ( X n = x n ∣ θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i \begin{aligned} \mathrm{L}(\theta) &=P\left(X_{1}=x_{1} \mid \theta\right) \cdots P\left(X_{n}=x_{n} \mid \theta\right) \\ &=\prod_{i=1}^{n} \theta^{x_{i}}(1-\theta)^{1-x_{i}} \end{aligned} L(θ)=P(X1=x1θ)P(Xn=xnθ)=i=1nθxi(1θ)1xi

max ⁡ ln ⁡ L ( θ ) = ∑ i = 1 n [ ln ⁡ θ x i + ln ⁡ ( 1 − θ ) 1 − x i ] = ∑ i = 1 n x i ln ⁡ θ + ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 − θ ) ∂ ln ⁡ L ( θ ) ∂ θ = ∑ i = 1 n x i θ − n − ∑ j = 1 n x i 1 − θ = 0 \begin{aligned} \max \ln \mathrm{L}(\theta) &=\sum_{i=1}^{n}\left[\ln \theta^{x_{i}}+\ln (1-\theta)^{1-x_{i}}\right] \\ &=\sum_{i=1}^{n} x_{i} \ln \theta+\left(n-\sum_{i=1}^{n} x_{i}\right) \ln (1-\theta) \\ \frac{\partial \ln L(\theta)}{\partial \theta}=& \frac{\sum_{i=1}^{n} x_{i}}{\theta}-\frac{n-\sum_{j=1}^{n} x_{i}}{1-\theta}=0 \end{aligned} maxlnL(θ)θlnL(θ)==i=1n[lnθxi+ln(1θ)1xi]=i=1nxilnθ+(ni=1nxi)ln(1θ)θi=1nxi1θnj=1nxi=0

估计值:
θ ^ = ∑ i = 1 n x i n \hat{\theta}=\frac{\sum_{\mathrm{i}=1}^{n} x_{i}}{n} θ^=ni=1nxi

1.3 梯度下降法

输入:目标函数 f ( x ) f(x) f(x), 梯度函数 g ( x ) = Δ f ( x ) g(x)=\Delta f(x) g(x)=Δf(x),计算精度 ϵ \epsilon ϵ, 步长 η \eta η

输出: f ( x ) f(x) f(x)的极小值点 x ∗ x^{*} x

步骤:

  1. 取初始值 x 0 ∈ R n x^{0} \in R^{n} x0Rn,置 k = 0 k=0 k=0
  2. 计算 f ( x k ) f\left(x^{k}\right) f(xk)
  3. 计算梯度 g k = g ( x ( k ) ) g_{k}=g\left(x^{(k)}\right) gk=g(x(k)),当 ∣ ∣ g k ∣ ∣ < ϵ || g_{k}||<\epsilon ∣∣gk∣∣<ϵ时,停止迭代。否则, x k + 1 = x k − η ∗ g k x^{k+1}=x^{k}-\eta * g_{k} xk+1=xkηgk,重新转至步骤2

你可能感兴趣的:(李航统计学习笔记,机器学习,人工智能,极大似然估计)