统计基础

统计基础

前言

机器学习需要深厚的数学基础,矩阵、统计、优化,这些都是基本功。勿在浮沙筑高台!所以在本文中将总结学习统计基础知识,夯实基础!

正态分布

正态分布在机器学习中有着重要的应用,在数学上有这样一个结论:根据中心极限定理,多个随机变量之和服从正态分布。根据这个结论,在误差分析时,
可以认为所产生的误差是多个独立同分布误差的叠加,因此最终的误差服从正态分布。

  1. 单变量正态分布
    N(x|μ,σ2)=1(2πσ2)12exp{12(xμ)2}

    其中, E(x)=μ , var(x)=σ2 .
  2. 多变量正态分布
    N(X|μ,Σ)=1(2π)D21|Σ|12exp{12(Xμ)TΣ1(Xμ)}

    其中, E(X)=μ var(X)=Σ Σ n 阶对称正定矩阵。 而 Σ 是对称矩阵,所以存在正交矩阵 T(T=T1) ,使得 TΣT=Λ , 其中 Λ 是对角阵,其对角线上的元素 λ1,λ2,...,λn Σ 的特征根。因为 Σ 是正定的,故 λ1,λ2,...,λn 都是正的。
  3. 高斯条件分布
    对于联合分布 N(X|μ,Σ) , Λ=Σ1 ,其中
    X=(xaxb),μ=(μaμb)
    Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb)
    则条件分布的概率为
    p(Xa|Xb)=N(X|μa|b,Λ1aa)

    μa|b=μaΛ1aaΛab(XbXa)

    边际分布的概率为
    p(Xa)=N(Xa|μa,Σaa)
  4. X 服从 N(μ,Σ) ,则 Y=AX+b 服从 N(Aμ+b,AΣA)
  5. 混合高斯分布
    高斯分布是一个单峰模型,其对于多峰模型的描述显然是不够的,所以引入了混合高斯分布,即多个高斯分布的凸组合
    p(x)=Σk=1KπkN(x|μk,Σk)

    其中, Σk=1Kπk=1 0πk1

Γ 分布

  • Γ 函数
    是阶乘在实数和复数上的扩展
    Γ(t)=0xt1exdx
    t 为正整数时
    Γ(t)=(t1)!
  • Γ 函数性质
    Γ(t+1)=tΓ(t)
    Γ(1)=1
    Γ(12)=π
  • Γ 分布密度函数
    f(x)=λαxα1Γ(α)eλx

    x 服从参数为 α,λ Γ 分布,记为 x Γ(α,λ)
  • Γ 分布性质
    Gamma分布中的参数 α 称为形状参数(shape parameter), λ 称为尺度参数(scale parameter)。在实验中,它模拟假设随机变量X为 等到第 α 件事发生所需之等候时间, α,λ 是两个分布调整参量。
    E(x)=αλ
    σ2(x)=αλ2

Beta分布

  • Beta函数
    B(p,q)=Γ(p)Γ(q)Γ(p+q)=10xp1(1x)q1dx
  • Beta分布密度函数
    Beta(μ|p,q)=Γ(p+q)Γ(p)Γ(q)μp1(1μ)q1=1B(p,q)μp1(1μ)q1

    其均值和方差如下所示:
    E(μ)=pp+q
    var(μ)=pq(p+q)2(p+q+1)

    Beta分布是区间 [0,1] 上的单峰分布,所以可以在某些情况下对数据进行很好的描述。比如,其可作为伯努利分布的贝叶斯参数估计时的先验分布。

Dirichlet分布

  • 定义
    Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αk)k=1Kμαk1k
    其中 α0=Σk=1Kαk
  • Beta分布与Dirichlet分布的关系
    • Beta分布对应二项分布,Dirichlet对应多项分布
    • Beta分布是Dirichlet分布的特例

指数族分布

  • 定义
    x 的概率密度可以表示为
    p(x|η)=h(x)g(η)exp{ηTu(x)}
    则称此分布为指数族分布。其中, η 称为自然参数, u(x) x 的函数, g(η) 可以看作是归一化概率密度的参数,即
    g(η)h(x)exp{ηTu(x)}=1
  • 实例
    二项分布、多项分布、指数分布、Gamma分布等

你可能感兴趣的:(统计基础)