李航《统计学习方法》第一章习题和笔记

《统计学习方法》第一章习题和笔记

  • 关键概念
  • 个人习题解答
  • 遗留问题

关键概念

  1. 统计学习三要素
    一切统计学习方法可以由三要素描述:模型 + 策略 + 算法
    模型
    根据想要学习的目标,模型可以分为概率模型和非概率模型。概率模型是指从输入空间X到输出空间Y的映射是通过条件概率来描述的。非概率模型一般就是由决策函数来描述X到Y的映射。
    策略
    要学习一个模型,从直观上就是要让这个模型对映射的描述越来越准确。要度量这个准确性,就需要引入一些对于模型不准确程度的衡量标准,也就是损失函数。很显然,针对训练集,损失函数越小,模型就越准确,但是可能会带来过拟合的问题,导致在测试集上表现很差。所以一般有两种策略:经验风险最小化(只考虑训练集的表现)和结构风险最小化(加入正则化,抵抗过拟合)
    算法
    通过确定策略,已经确定了一个需要被优化的函数,优化函数的具体计算方法,称为算法。机器学习里算法之所以关键,主要是因为大多数优化问题都没有显式解,所以需要好的数值计算方法进行优化。
  2. 参数估计复习
    概率论中的参数估计,目前用到了两种,点估计和贝叶斯估计。
    点估计就是指决定某个分布的参数 θ \theta θ 被看做是一个确定的未知数,并且用一个数(而不是一个区间)来估计这个未知数。
    贝叶斯估计认为这个参数是符合某种分布的。当我们对这个分布没有进行过观察的时候,对这个分布仅仅有一个朴素的没有偏向的认识,称为先验分布。在进行了一次或多次观察之后,我们得到了一些新的信息,这个信息有助于我们去修改之前对这个分布的估计,修改完的分布称为后验分布

个人习题解答

  1. 伯努利模型的点估计和贝叶斯估计
    1.1 点估计
    模型:伯努利模型描述了一个取值为0或1的离散型随机变量 X X X进行一次实验的结果。
    策略:极大似然估计的思路是[1],对于分布 f ( x ; θ 1 , . . . , θ k ) f(x;\theta_1,... ,\theta_k) f(x;θ1,...,θk)有独立同分布的观察样本 X 1 , . . . , X n X_1, ...,X_n X1,...,Xn。将 θ \theta θ视为未知的参数,则得到这一系列观察样本 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn的联合概率为 L ( X 1 , . . . , X n ; θ 1 , . . . , θ k ) L(X_1, ..., X_n;\theta_1, ..., \theta_k) L(X1,...,Xn;θ1,...,θk)。联合概率 L L L的大小取决于 θ i \theta_i θi的不同取值。
    那么,使用目前的观察进行估计,哪个 θ i \theta_i θi的取值是最可能的呢?极大似然估计认为,使联合概率分布取最大值的 θ i \theta_i θi是最可能的。数学描述为:
    L ( X 1 , ⋯   , X n ; θ 1 ∗ , ⋯   , θ k ∗ ) = max ⁡ θ 1 , ⋯   , θ k L ( X 1 , ⋯   , X n ; θ 1 , ⋯   , θ k ) L(X_1,\cdots, X_n;\theta_1^*,\cdots, \theta_k^*) = \max \limits_{\theta_1, \cdots, \theta_k}L(X_1, \cdots, X_n;\theta_1, \cdots, \theta_k) L(X1,,Xn;θ1,,θk)=θ1,,θkmaxL(X1,,Xn;θ1,,θk)
    其中 ( θ 1 ∗ , ⋯   , θ k ∗ ) (\theta_1^*,\cdots, \theta_k^*) (θ1,,θk)称为对 ( θ 1 , ⋯   , θ k ) (\theta_1, \cdots, \theta_k) (θ1,,θk)的极大似然估计。
    算法: 欲使 L L L达到最大,使 ln ⁡ L \ln L lnL达到最大即可。寻找极大值点的方法就是求对 θ i \theta_i θi的一阶导数零点。数学描述为:
    ∂ ln ⁡ L ∂ θ i = 0 ( i = 1 , ⋯   , k ) \frac{\partial\ln L}{\partial \theta_i}=0 (i = 1, \cdots, k) θilnL=0(i=1,,k)
    计算过程:为了与定义一致,将未知的参数 p p p记为 θ \theta θ
    L ( X 1 , ⋯   , X n ; θ ) = θ k ( 1 − θ ) n − k L(X_1, \cdots, X_n;\theta) =\theta^k(1-\theta)^{n-k} L(X1,,Xn;θ)=θk(1θ)nk
    ln ⁡ L = k ln ⁡ θ + ( n − k ) ln ⁡ ( 1 − θ ) \ln L = k\ln \theta +(n-k)\ln(1-\theta) lnL=klnθ+(nk)ln(1θ)
    ∂ ln ⁡ L ∂ θ = k θ − n − k 1 − θ \frac{\partial\ln L}{\partial \theta}=\frac{k}{\theta}-\frac{n-k}{1-\theta} θlnL=θk1θnk
    ∂ ln ⁡ L ∂ θ = 0 \frac{\partial\ln L}{\partial \theta}=0 θlnL=0,
    此方程的解即为 θ \theta θ的估计值, θ ∗ = k n \theta^*=\frac{k}{n} θ=nk
    1.2 贝叶斯估计
    问题描述:设 X 1 , ⋯   , X n X_1, \cdots, X_n X1,,Xn为抽自伯努利分布的样本, k = ∑ i = 1 n X i k = \sum\limits_{i=1}^nX_i k=i=1nXi。分布中的参数 p p p有先验概率密度 h ( p ) h(p) h(p),估计p。
    估计过程:
    根据观察 X 1 , ⋯   , X n X_1, \cdots, X_n X1,,Xn得到后验概率密度,也就是基于这些观察的参数的条件概率密度(使用贝叶斯公式的连续变量形式):
    h ( p ∣ X 1 , ⋯   , X n ) = h ( p ) p k ( 1 − p ) n − k ∫ 0 1 h ( p ) p k ( 1 − p ) n − k d p h(p|X_1, \cdots, X_n) =\dfrac{h(p)p^k(1-p)^{n-k}}{\int_0^1h(p)p^k(1-p)^{n-k}dp} h(pX1,,Xn)=01h(p)pk(1p)nkdph(p)pk(1p)nk
    从后验概率估计参数的方式也有多种[2],常见的方法是取期望[1]。对上式取均值可以得到:
    p ~ = ∫ 0 1 p h ( p ∣ X 1 , ⋯   , X n ) d p = h ( p ) p k + 1 ( 1 − p ) n − k ∫ 0 1 h ( p ) p k ( 1 − p ) n − k d p \tilde{p} =\int_0^1ph(p|X_1, \cdots, X_n)dp=\dfrac{h(p)p^{k+1}(1-p)^{n-k}}{\int_0^1h(p)p^k(1-p)^{n-k}dp} p~=01ph(pX1,,Xn)dp=01h(p)pk(1p)nkdph(p)pk+1(1p)nk
    (注意合并因子之后分子里面的p的指数变化)
    根据[1],一般可将先验概率分布设为均匀分布,在此前提下,上式可化简为
    p ~ = B ( k + 2 , n − k + 1 ) B ( k + 1 , n − k + 1 ) \tilde{p} = \dfrac{B(k+2, n-k+1)}{B(k+1, n-k+1)} p~=B(k+1,nk+1)B(k+2,nk+1)
    由于 B ( x , y ) = Γ ( x ) Γ ( y ) Γ ( x + y ) B(x,y) = \dfrac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)} B(x,y)=Γ(x+y)Γ(x)Γ(y)以及 Γ ( k ) = ( k − 1 ) ! \Gamma(k)=(k-1)! Γ(k)=(k1)!
    上式可以继续化简为
    p ~ = k + 1 n + 2 \tilde{p}=\frac{k+1}{n+2} p~=n+2k+1
    这里对贝叶斯估计的结果进行观察,可以发现[1]当观察样本很少的时候,与经典方法差距较大。考虑极端情况,仅一个观察样本,经典方法对p的估计很极端,非0即1,然而贝叶斯可以先将其预先估计为1/2。若下一个观察是1,则往1偏移至2/3,若下一个观察是0,则往0偏移至1/3,相对没有那么极端。
  2. 极大似然估计与经验风险最小化
    求证: 当模型是条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),且采用对数损失函数,经验风险最小化等价于极大似然估计
    过程:
    极大似然估计要最大化的是: L = ∏ i = 1 N p ( y i ∣ x i ) L = \prod\limits_{i=1}^Np(y_i|x_i) L=i=1Np(yixi)
    经验风险最小化要最小化的是 : R e m p = 1 N ∑ i = 1 N − log ⁡ p ( y i ∣ x i ) R_{emp} =\frac{1}{N}\sum\limits_{i=1}^N-\log p(y_i|x_i) Remp=N1i=1Nlogp(yixi)
    将L取对数, log ⁡ L = ∑ i = 1 N log ⁡ p ( y i ∣ x i ) \log L = \sum\limits_{i=1}^N\log p(y_i|x_i) logL=i=1Nlogp(yixi)
    可见最小化 R e m p R_{emp} Remp和最大化 L L L是等价的。

遗留问题

  1. 如何理解贝叶斯原则中的“同等无知”?
  2. 贝叶斯估计为什么取后验概率分布的期望?
  3. 如何理解先验分布和样本信息的关系?

还在入门,有错误欢迎指正

参考资料:

  1. 陈希孺《概率论与数理统计》第四章:参数估计
  2. https://blog.csdn.net/jackxu8/article/details/70332331

你可能感兴趣的:(统计学习)