GitModel-动手学数理统计_02(python)

1 动手学数理统计_02

github 上pdf版本及ipynb版本:https://github.com/cx-333/Math-Modeling

目录

  • 1 动手学数理统计_02
    • 1.6 参数估计之点估计的方法:极大似然估计
    • 1.7 估计量的评选标准:无偏性、有效性、相合性(一致性)
    • 1.8 参数估计之区间估计

1.6 参数估计之点估计的方法:极大似然估计

  • 最大似然估计法:

  对于离散型随机变量:设其分布律为 P { X = s } = p ( x ; θ ) , θ ∈ Θ P\{X=s\}=p(x;\theta), \theta \in \Theta P{X=s}=p(x;θ),θΘ的形式已知, θ \theta θ为待估计参数, Θ 是 θ \Theta 是 \theta Θθ可能取值的范围。设 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn是来自 X X X的样本,则 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn的联合分布律为
∏ i = 1 n p ( x i ; θ ) . \prod{i=1}^{n}p(x_{i};\theta). i=1np(xi;θ).
又设 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn是相应样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn的样本值。易知样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn取到观察值 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn的概率,即事件 { X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n } \{X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\} {X1=x1,X2=x2,,Xn=xn}发生的概率为
L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ . L(\theta) = L(x_{1}, x_{2}, \cdots, x_{n}; \theta) = \prod{i=1}^{n}p(x_{i};\theta), \theta \in \Theta. L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ),θΘ.
这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数, L ( θ ) L(\theta) L(θ)称为样本的似然函数(注意,这里 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn是已知的样本值,即常数)。

最大似然估计思想:固定样本观察值 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn,在 θ \theta θ取值的可能范围 Θ \Theta Θ内挑选使似然函数 L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_{1}, x_{2}, \cdots, x_{n}; \theta) L(x1,x2,,xn;θ)达到最大的参数 θ ^ \hat{\theta} θ^,作为参数 θ \theta θ的估计值。即取 θ ^ \hat{\theta} θ^使
L ( x 1 , x 2 , ⋯   , x n ; θ ^ ) = max ⁡ θ ∈ Θ L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_{1}, x_{2}, \cdots, x_{n}; \hat{\theta}) = \max_{\theta \in \Theta} L(x_{1}, x_{2}, \cdots, x_{n}; \theta) L(x1,x2,,xn;θ^)=θΘmaxL(x1,x2,,xn;θ)
这样得到的 θ ^ \hat{\theta} θ^与样本值 x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn有关,记为 θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}(x_{1}, x_{2}, \cdots, x_{n}) θ^(x1,x2,,xn),称为参数 θ \theta θ最大似然估计值,相应的统计量 θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}(X_{1}, X_{2}, \cdots, X_{n}) θ^(X1,X2,,Xn)称为参数 θ \theta θ最大似然估计量

  对于连续型随机变量:似然函数
L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta) = L(x_{1}, x_{2}, \cdots, x_{n}; \theta) = \prod{i=1}^{n}f(x_{i};\theta) L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)
f ( x i ; θ ) f(x_{i};\theta) f(xi;θ)为连续随机变量的概率密度函数。

最大似然函数方法的求解步骤

    1. 确定随机变量的分布律(概率密度)
    1. 确定似然函数
    1. d d θ L ( θ ) = 0 \frac{d}{d\theta}L(\theta) = 0 dθdL(θ)=0,求驻点,便可以找到使 L ( θ ) L(\theta) L(θ)取极值的估计参数 θ ^ \hat{\theta} θ^
    1. 对于 L ( θ ) L(\theta) L(θ)函数中存在大量连乘项或指数项时,可令 d d θ l n L ( θ ) = 0 \frac{d}{d\theta}ln L(\theta) = 0 dθdlnL(θ)=0,也可以求得 θ ^ \hat{\theta} θ^,因为 l n ⋅ ln\cdot ln函数是单调递增函数,对似然函数做 l n ⋅ ln\cdot ln变换不会改变原函数的特征。

例子一:设 X ∼ b ( 1 , p ) ( 二 项 分 布 ) . X 1 , X 2 , ⋯   , X n X\sim b(1, p)(二项分布). X_{1}, X_{2}, \cdots, X_{n} Xb(1,p).X1,X2,,Xn是来自 X X X的一个样本,求参数 p p p的最大似然估计。

解:

  1. 确定随机变量的分布律(概率密度)
    P { X = x } = p x ( 1 − p ) 1 − x , x = 0 , 1 P\{X=x\} = p^{x}(1-p)^{1 - x}, x=0, 1 P{X=x}=px(1p)1x,x=0,1
  2. 确定似然函数
    L ( p ) = ∏ i = 1 n P { X = x i } = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) ∑ i = 1 n ( 1 − x i ) L(p) = \prod_{i=1}^{n}P\{X=x_{i}\} = \prod_{i=1}^{n}p^{x_{i}}(1-p)^{1 - x_{i}} = p^{\sum_{i=1}^{n}x_{i}}(1-p)^{\sum_{i=1}^{n}(1-x_{i})} L(p)=i=1nP{X=xi}=i=1npxi(1p)1xi=pi=1nxi(1p)i=1n(1xi)
    出现连乘,取对数
    l n L ( p ) = l n [ p ∑ i = 1 n x i ( 1 − p ) ∑ i = 1 n ( 1 − x i ) ] = l n [ p ∑ i = 1 n x i ] + l n [ ( 1 − p ) ∑ i = 1 n ( 1 − x i ) ] = ∑ i = 1 n x i l n p + ∑ i = 1 n ( 1 − x i ) l n ( 1 − p ) ln L(p) = ln[p^{\sum_{i=1}^{n}x_{i}}(1-p)^{\sum_{i=1}^{n}(1-x_{i})}] = ln[p^{\sum_{i=1}^{n}x_{i}}] + ln [(1-p)^{\sum_{i=1}^{n}(1-x_{i})}] = \sum_{i=1}^{n}x_{i}ln p + \sum_{i=1}^{n}(1-x_{i})ln(1-p) lnL(p)=ln[pi=1nxi(1p)i=1n(1xi)]=ln[pi=1nxi]+ln[(1p)i=1n(1xi)]=i=1nxilnp+i=1n(1xi)ln(1p)
  3. d d p l n L ( p ) = 0 \frac{d}{dp}ln L(p) = 0 dpdlnL(p)=0, 解得
    p ^ = 1 n ∑ i = 1 n x i = x ‾ \hat{p} = \frac{1}{n}\sum_{i=1}{n}x_{i} = \overline{x} p^=n1i=1nxi=x

python代码(求解上题)

from sympy import *
from sympy.abc import p
from scipy.stats import bernoulli

p_real = 0.4

x = bernoulli.rvs(p_real, size=1000)

Lp = p ** sum(x) * (1-p)**sum(1-x)

dLp = diff(Lp, p, 1)
p_estimate = solve(dLp)
# 寻找符合要求的p值
for i in p_estimate:
    if i > 0 and i < 1:
        p_e = i
print("p的真实值:{}".format(p_real))
print("p的最大似然估计值:{}".format(p_e))
p的真实值:0.4
p的最大似然估计值:211/500

例子二:设 X ∼ N ( μ , σ 2 ) , μ , σ 2 X\sim N(\mu, \sigma^{2}), \mu, \sigma^{2} XN(μ,σ2),μ,σ2为未知参数, x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn是来自 X X X的一个样本值,求 μ , σ 2 \mu, \sigma^{2} μ,σ2的最大似然估计量。

解:

  1. 确定随机变量的概率密度函数
    f ( x ; μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x;\mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi }\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x;μ,σ2)=2π σ1e2σ2(xμ)2
  2. 确定似然函数
    L ( μ , σ ) = ∏ i = 1 n f ( x i ; μ , σ 2 ) = ∏ i = 1 n ( 1 2 π σ e − ( x i − μ ) 2 2 σ 2 ) = ( 1 2 π σ ) n e − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 L(\mu, \sigma) = \prod_{i=1}^{n} f(x_{i};\mu, \sigma^{2}) = \prod_{i=1}^{n}(\frac{1}{\sqrt{2\pi }\sigma}e^{-\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}}) = (\frac{1}{\sqrt{2\pi }\sigma})^{n}e^{-\sum_{i=1}^{n}\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}} L(μ,σ)=i=1nf(xi;μ,σ2)=i=1n(2π σ1e2σ2(xiμ)2)=(2π σ1)nei=1n2σ2(xiμ)2
    出现指数求和项,整理成对数似然函数
    l n L ( μ , σ ) = l n [ ( 1 2 π σ ) n e − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 ] = − n l n 2 π σ − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 ln L(\mu, \sigma) = ln [(\frac{1}{\sqrt{2\pi }\sigma})^{n}e^{-\sum_{i=1}^{n}\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}}] = -n ln\sqrt{2\pi }\sigma - \sum_{i=1}^{n}\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}} lnL(μ,σ)=ln[(2π σ1)nei=1n2σ2(xiμ)2]=nln2π σi=1n2σ2(xiμ)2
  3. ∂ ∂ μ l n L ( μ , σ ) = 0 , ∂ ∂ σ l n L ( μ , σ ) = 0 \frac{\partial }{\partial \mu}ln L(\mu, \sigma) = 0, \frac{\partial }{\partial \sigma}ln L(\mu, \sigma) = 0 μlnL(μ,σ)=0,σlnL(μ,σ)=0,建立似然方程组
    { ∂ ∂ μ l n L ( μ , σ ) = − 2 ∑ i = 1 n ( x i − μ ) 2 σ 2 = 0 ∂ ∂ σ l n L ( μ , σ ) = − n σ + ∑ i = 1 n ( x i − μ ) 2 σ 3 = 0 \left \{ \begin{aligned} &\frac{\partial }{\partial \mu}ln L(\mu, \sigma) = -2 \sum_{i=1}^{n}\frac{(x_{i}-\mu)}{2\sigma^{2}} = 0 \\ &\frac{\partial }{\partial \sigma}ln L(\mu, \sigma) = - \frac{n}{\sigma} + \sum_{i=1}^{n}\frac{(x_{i}-\mu)^{2}}{\sigma^{3}} = 0 \end{aligned} \right. μlnL(μ,σ)=2i=1n2σ2(xiμ)=0σlnL(μ,σ)=σn+i=1nσ3(xiμ)2=0
  4. 解得
    { μ = 1 n ∑ i = 1 n x i σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \left \{ \begin{aligned} &\mu = \frac{1}{n}\sum_{i=1}^{n}x_{i} \\ &\sigma^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^{2} \end{aligned} \right. μ=n1i=1nxiσ2=n1i=1n(xiμ)2

python代码(验证上题结果)

from sympy import *
from sympy.abc import mu, sigma 
from scipy.stats import norm

mu_real = 2
sigma_real = 3
n = 1000

x = norm.rvs(loc=mu_real, scale=sigma_real, size=n)

mu_estimate = sum(x) / n 
sigma2_estimate = sum((x - mu_estimate)**2) / n

print("随机变量的原均值为:{}, 方差为:{}".format(mu_real, sigma_real**2))
print("最大似然估计的均值为:{:.2f}, 方差为:{:.2f}".format(mu_estimate,sigma2_estimate))
随机变量的原均值为:2, 方差为:9
最大似然估计的均值为:2.20, 方差为:8.69

最大似然估计性质:设 θ \theta θ的函数 u = u ( θ ) , θ ∈ Θ u=u(\theta), \theta \in \Theta u=u(θ),θΘ具有单值反函数 θ = θ ( u ) , u ∈ ϑ \theta=\theta(u), u\in \vartheta θ=θ(u),uϑ.又假设 θ ^ \hat{\theta} θ^ X X X的概率分布中参数 θ \theta θ的最大似然估计,则 u ^ = u ^ ( θ ) \hat{u}=\hat{u}(\theta) u^=u^(θ) u ( θ ) u(\theta) u(θ)的最大似然估计,这一性质称为最大似然估计的不变性

1.7 估计量的评选标准:无偏性、有效性、相合性(一致性)

X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn是总体 X X X的一个样本, θ ∈ Θ \theta \in \Theta θΘ是包含在总体 X X X的分布中的待估计参数, Θ 是 θ \Theta 是\theta Θθ的取值范围。

  • 无偏性:若估计量 θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta} = \hat{\theta}(X_{1}, X_{2}, \cdots, X_{n}) θ^=θ^(X1,X2,,Xn)的数学期望 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,且对于任意的 θ ∈ Θ \theta \in \Theta θΘ
    E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ
    则称 θ ^ \hat{\theta} θ^ θ \theta θ无偏估计量。即估计值的期望等于待估计参数的真实值。

估计量的无偏性是说,对于总体的样本值,由某个估计量得到的估计值与真值存在偏差,但反复将这估计量使用多次得到多个估计值,这多个估计值的期望(平均)与真值之间的偏差 E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)θ为零。在科学技术中 E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)θ称为以 E ( θ ^ ) E(\hat{\theta}) E(θ^)作为 θ \theta θ的估计的系统误差。无偏估计的实际意义就是无系统误差。

  • 有效性:假设要比较参数 θ \theta θ的两个无偏估计量 θ 1 ^ 和 θ 2 ^ \hat{\theta_{1}}{和}\hat{\theta_{2}} θ1^θ2^,如果在样本容量 n n n相同的情况下, θ 1 ^ \hat{\theta_{1}} θ1^的观察值较 θ 2 ^ \hat{\theta_{2}} θ2^更密集在真值 θ \theta θ的附近,则认为 θ 1 ^ 比 θ 2 ^ \hat{\theta_{1}}{比}\hat{\theta_{2}} θ1^θ2^更为理想。又由于方差是随机变量取值与其数学期望(此时数学期望 E ( θ 1 ^ ) = E ( θ 2 ^ ) = θ E(\hat{\theta_{1}})=E(\hat{\theta_{2}}) = \theta E(θ1^)=E(θ2^)=θ)的偏离程度的度量。所以无偏估计以方差小者为好。设 θ 1 ^ = θ 1 ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta_{1}} = \hat{\theta_{1}}(X_{1}, X_{2}, \cdots, X_{n}) θ1^=θ1^(X1,X2,,Xn) θ 2 ^ = θ 2 ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta_{2}} = \hat{\theta_{2}}(X_{1}, X_{2}, \cdots, X_{n}) θ2^=θ2^(X1,X2,,Xn)都是 θ \theta θ的无偏估计量,若对于任意 θ ∈ Θ \theta \in \Theta θΘ,有
    D ( θ 1 ^ ) ≤ D ( θ 2 ^ ) D(\hat{\theta_{1}}) \le D(\hat{\theta_{2}}) D(θ1^)D(θ2^)
    且至少对于某一个 θ ∈ Θ \theta \in \Theta θΘ上式中的不等号成立,则称 θ 1 ^ \hat{\theta_{1}} θ1^ θ 2 ^ \hat{\theta_{2}} θ2^有效

  • 相合性(一致性):设 θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta} = \hat{\theta}(X_{1}, X_{2}, \cdots, X_{n}) θ^=θ^(X1,X2,,Xn)为参数 θ \theta θ的估计量,若对于任意 θ ∈ Θ \theta \in \Theta θΘ,当 n → ∞ n \rightarrow \infty n θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta} = \hat{\theta}(X_{1}, X_{2}, \cdots, X_{n}) θ^=θ^(X1,X2,,Xn)依概率收敛于 θ \theta θ,则称 θ ^ \hat{\theta} θ^ θ \theta θ相合估计量。即对于任意 ε > 0 \varepsilon > 0 ε>0,有
    lim ⁡ n → ∞ P { ∣ θ ^ − θ ∣ < ε } = 1 \lim_{n\rightarrow \infty}P\{| \hat{\theta} - \theta| < \varepsilon\} = 1 nlimP{θ^θ<ε}=1

1.8 参数估计之区间估计

  • 背景:对于一个未知量或未知参数的估计,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度(也就是所求真值的所在范围)。类似地,对于未知参数 θ \theta θ,除了求出它的点估计 θ ^ \hat{\theta} θ^外,还希望估计出一个范围,并希望知道这个范围包含参数 θ \theta θ真值的可信程度。这样的范围通常以区间的形式给出,同时还给出此区间包含参数 θ \theta θ真值的可信程度,这种形式的估计称为区间估计。这样的区间即所谓置信区间

  • 置信区间:设总体 X X X的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ)含有一个未知参数 θ , θ ∈ Θ ( Θ 是 θ 可 能 取 值 的 范 围 ) \theta, \theta \in \Theta(\Theta{是}\theta 可能取值的范围) θ,θΘΘθ,对于给定值 α ( 0 < α < 1 ) \alpha(0 < \alpha < 1) α0<α<1,若来自 X X X的样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn确定的两个统计量 θ ‾ = θ ‾ ( X 1 , X 2 , ⋯   , X n ) 和 θ ‾ = θ ‾ ( X 1 , X 2 , ⋯   , X n ) , ( ( ‾ θ ) < θ ‾ ) \underline{\theta} = \underline{\theta}(X_{1}, X_{2}, \cdots, X_{n}) {和}\overline{\theta} = \overline{\theta}(X_{1}, X_{2}, \cdots, X_{n}), (\underline(\theta)<\overline{\theta}) θ=θ(X1,X2,,Xn)θ=θ(X1,X2,,Xn),((θ)<θ),对于任意 θ ∈ Θ \theta \in \Theta θΘ满足
    P { θ ‾ ( X 1 , X 2 , ⋯   , X n ) < θ < θ ‾ ( X 1 , X 2 , ⋯   , X n ) } ≥ 1 − α P\{\underline{\theta}(X_{1}, X_{2}, \cdots, X_{n}) <\theta <\overline{\theta}(X_{1}, X_{2}, \cdots, X_{n})\} \ge 1 -\alpha P{θ(X1,X2,,Xn)<θ<θ(X1,X2,,Xn)}1α
    则称随机区间 ( θ ‾ , θ ‾ ) (\underline{\theta}, \overline{\theta}) (θ,θ) θ \theta θ置信水平为 1 − α 1 -\alpha 1α置信区间 θ ‾ 和 θ ‾ \underline{\theta} {和} \overline{\theta} θθ分别称为置信水平为 1 − α 1 -\alpha 1α的双侧置信区间的置信下限和置信上限 1 − α 1 -\alpha 1α称为置信水平。

  上式的含义为:对总体进行多次重复抽样(每次抽样的样本容量相同,均为 n n n),每一次抽样都确定待估计参数的一个区间 ( θ ‾ , θ ‾ ) (\underline{\theta}, \overline{\theta}) (θ,θ),每个这样的区间有两种可能,即要么包含待估计的真值 θ \theta θ,要么不包含待估计的真值 θ \theta θ。根据大数定理,包含真值 θ \theta θ的区间数量约占 100 ( 1 − α ) % 100(1-\alpha)\% 100(1α)%,不包含真值 θ \theta θ的区间数量约占 100 α % 100\alpha \% 100α%。例如,若 α = 0.01 \alpha=0.01 α=0.01,反复抽样 1000 1000 1000次,则得到的 1000 1000 1000个区间中不包含 θ \theta θ真值的约为 10 10 10个。

例子:设总体 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^{2}) XN(μ,σ2) σ 2 \sigma^{2} σ2为已知, μ \mu μ为未知,设 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn是来自 X X X的样本,求 μ \mu μ的置信水平为 1 − α 1-\alpha 1α的置信区间。

解:

由于 X ‾ 是 X \overline{X}{是}X XX的无偏估计,且
X ‾ − μ σ / n ∼ N ( 0 , 1 ) \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) σ/n XμN(0,1)
X ‾ − μ σ / n \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} σ/n Xμ所服从的分布 N ( 0 , 1 ) N(0, 1) N(0,1)不依赖于任何未知参数,按标准正态分布的上 α \alpha α分位点定义,有
P { ∣ X ‾ − μ σ / n ∣ < z α / 2 } = 1 − α P\left\{\left|\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right| < z_{\alpha/2}\right\} = 1-\alpha P{σ/n Xμ<zα/2}=1α

P { X ‾ − σ n z α / 2 < μ < X ‾ + σ n z α / 2 } = 1 − α P\left\{ \overline{X} - \frac{\sigma}{\sqrt{n}}z_{\alpha/2}< \mu < \overline{X} + \frac{\sigma}{\sqrt{n}}z_{\alpha/2}\right\} = 1-\alpha P{Xn σzα/2<μ<X+n σzα/2}=1α
由定义知, μ \mu μ的一个置信水平为 1 − α 1-\alpha 1α的置信区间为:

( X ‾ − σ n z α / 2 , X ‾ + σ n z α / 2 ) (\overline{X} - \frac{\sigma}{\sqrt{n}}z_{\alpha/2}, \overline{X} + \frac{\sigma}{\sqrt{n}}z_{\alpha/2}) (Xn σzα/2,X+n σzα/2)
或写为
( X ‾ ± σ n z α / 2 ) (\overline{X} \pm \frac{\sigma}{\sqrt{n}}z_{\alpha/2}) (X±n σzα/2)

python代码(通过例题理解置信区间)

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 
plt.rcParams['font.sans-serif']=['SimHei','Songti SC','STFangsong']
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
from scipy.stats import norm 

# 令上题中 mu = 0.1 sigma = 1, alpha = 0.05,然后估计 参数 mu 的置信区间

def get_confident_interval(mu, sigma, n, interval_num, alpha):
    confident_intervals = []
    for i in range(interval_num):
        x = norm.rvs(loc=mu, scale=sigma, size=n)
        # 置信区间上限计算 因为alpha/2 的分位点z_alpha/2 是从负无穷到-z_alpha/2 进行积分,因此得到的分位点需要加一个负号
        right = np.sum(x)/n - (sigma/np.sqrt(n))*norm.ppf(loc=mu, scale=sigma, q=alpha/2)
        # 置信区间下限计算
        left = np.sum(x)/n + (sigma/np.sqrt(n))*norm.ppf(loc=mu, scale=sigma, q=alpha/2)
        confident_intervals.append((left, right))
    return confident_intervals

mu, sigma = 0.1, 1
n, alpha = 1000, 0.05
interval_num = 100
confident_intervals = get_confident_interval(mu, sigma, n, interval_num, alpha)
count = 0
plt.figure(figsize=(10, 8))
for idx, temp in enumerate(confident_intervals):
    plt.vlines(x=idx+1, ymin=temp[0], ymax=temp[1])
    plt.scatter(x=np.array([idx+1]*2),y=np.array([temp[0], temp[1]]), c='r')
    if mu >= temp[0] and mu <= temp[1]:
        count += 1


print("在{}个置信区间里,有{}个置信区间包含未知参数mu".format(interval_num, count))
print("包含未知参数mu的置信区间数{}>={}[区间数x(1-alpha)]".format(count, interval_num*(1-alpha)))
plt.axhline(y=0.1, ls='--', c='r')
plt.show()


在100个置信区间里,有95个置信区间包含未知参数mu
包含未知参数mu的置信区间数95>=95.0[区间数x(1-alpha)]

GitModel-动手学数理统计_02(python)_第1张图片

寻求未知参数 θ \theta θ的置信区间的具体步骤:

    1. 寻求一个枢轴量 W W W,枢轴量的分布不依赖于参数 θ \theta θ以及其它未知参数。枢轴量是关于样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn和未知参数 θ \theta θ的函数,即 W = W ( X 1 , X 2 , ⋯   , X n ; θ ) W =W(X_{1}, X_{2}, \cdots, X_{n};\theta) W=W(X1,X2,,Xn;θ),其中 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn为已知。
    1. 对于给定的置信水平 1 − α 1-\alpha 1α,定出两个常数 a , b a, b a,b,使 P { a < W ( X 1 , X 2 , ⋯   , X n ; θ ) < b } = 1 − α P\left\{ a P{a<W(X1,X2,,Xn;θ)<b}=1α ( a , b ) (a, b) (a,b)既是未知参数 θ \theta θ的一个置信水平为 1 − α 1-\alpha 1α置信区间。

表1.8:正态总体均值、方差的置信区间与单侧置信限(置信水平为 1 − α 1-\alpha 1α

待估计参数 其他参数 枢轴量的分布 置信区间 单侧置信限
一个正态总体 μ \mu μ σ 2 已 知 \sigma^{2}已知 σ2 Z = X ˉ − μ σ / n ∼ N ( 0 , 1 ) Z=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1) Z=σ/n XˉμN(0,1) ( X ˉ ± σ n z a / 2 ) \left(\bar{X} \pm \frac{\sigma}{\sqrt{n}} z_{a / 2}\right) (Xˉ±n σza/2) μ ˉ = X ˉ + σ n z α μ ‾ = X ˉ − σ n x α \bar{\mu}=\bar{X}+\frac{\sigma}{\sqrt{n}} z_{\alpha} \quad \underline{\mu}=\bar{X}-\frac{\sigma}{\sqrt{n}} x_{\alpha} μˉ=Xˉ+n σzαμ=Xˉn σxα
一个正态总体 μ \mu μ σ 2 未 知 \sigma^{2}未知 σ2 t = X ˉ − μ S / n ∼ t ( n − 1 ) t=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1) t=S/n Xˉμt(n1) ( X ˉ ± S n t α / 2 ( n − 1 ) ) \left(\bar{X} \pm \frac{S}{\sqrt{n}} t_{\alpha / 2}(n-1)\right) (Xˉ±n Stα/2(n1)) μ ˉ = X ˉ + S n t α ( n − 1 ) μ ‾ = X ˉ − S n t α ( n − 1 ) \bar{\mu}=\bar{X}+\frac{S}{\sqrt{n}} t_{\alpha}(n-1) \quad \underline{\mu}=\bar{X}-\frac{S}{\sqrt{n}} t_{\alpha}(n-1) μˉ=Xˉ+n Stα(n1)μ=Xˉn Stα(n1)
一个正态总体 σ 2 \sigma^{2} σ2 μ 未 知 \mu未知 μ χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^{2} =\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) χ2=σ2(n1)S2χ2(n1) ( X ˉ ± S n t α / 2 ( n − 1 ) ) \left(\bar{X} \pm \frac{S}{\sqrt{n}} t_{\alpha / 2}(n-1)\right) (Xˉ±n Stα/2(n1)) σ 2 ‾ = ( n − 1 ) S 2 χ 1 − α 2 ( n − 1 ) σ 2 ‾ = ( n − 1 ) S 2 χ α 2 ( n − 1 ) \overline{\sigma^{2}}=\frac{(n-1) S^{2}}{\chi_{1-\alpha}^{2}(n-1)} \quad \underline{ \sigma^{2}}=\frac{(n-1) S^{2}}{\chi_{\alpha}^{2}(n-1)} σ2=χ1α2(n1)(n1)S2σ2=χα2(n1)(n1)S2
两个正态总体 μ 1 − μ 2 \mu_{1}-\mu_{2} μ1μ2 σ 1 2 , σ 2 2 已 知 \sigma{1}^{2}, \sigma{2}^{2}已知 σ12,σ22 Z = X ˉ − Y ˉ − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \begin{aligned}Z &=\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \\& \sim N(0,1)\end{aligned} Z=n1σ12+n2σ22 XˉYˉ(μ1μ2)N(0,1) ( X ˉ − Y ˉ ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 ) \left(\bar{X}-\bar{Y} \pm z_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right) (XˉYˉ±zα/2n1σ12+n2σ22 ) l μ 1 − μ 2 ‾ = X ˉ − Y ˉ + z α σ 1 2 n 1 + σ 2 2 n 2 μ 1 − μ 2 ‾ = X ˉ = Y ˉ − z α σ 1 2 n 1 + σ 2 2 n 2 \begin{aligned}{l}\overline{\mu_{1}-\mu_{2}}=\bar{X}-\bar{Y}+z_{\alpha} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\\\underline{\mu_{1}-\mu_{2}}=\bar{X}=\bar{Y}-z_{\alpha} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\end{aligned} lμ1μ2=XˉYˉ+zαn1σ12+n2σ22 μ1μ2=Xˉ=Yˉzαn1σ12+n2σ22
两个正态总体 μ 1 − μ 2 \mu_{1}-\mu_{2} μ1μ2 σ 1 2 = σ 2 2 = σ 2 未 知 \sigma{1}^{2}=\sigma{2}^{2}=\sigma^{2}未知 σ12=σ22=σ2 t = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 \begin{array}{c}t=\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \\\sim t\left(n_{1}+n_{2}-2\right) \\S_{w}^{2}=\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{n_{1}+n_{2}-2}\end{array} t=Swn11+n21 (XˉYˉ)(μ1μ2)t(n1+n22)Sw2=n1+n22(n11)S12+(n21)S22 ( X ˉ − Y ˉ ± t α / 2 ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 ) \left(\bar{X}-\bar{Y} \pm t_{\alpha / 2}\left(n_{1}+n_{2}-\right.\right.2) \left.S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\right) (XˉYˉ±tα/2(n1+n22)Swn11+n21 ) μ 1 − μ 2 ‾ = X ˉ − Y ˉ + t α ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 μ 1 − μ 2 ‾ = X ˉ − Y ˉ − t α ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 \begin{array}{l}\overline{\mu_{1}-\mu_{2}}=\bar{X}-\bar{Y} \\\quad+t_{\alpha}\left(n_{1}+n_{2}-2\right) S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \\\underline{\mu_{1}-\mu_{2}}=\bar{X}-\bar{Y} \\\quad-t_{\alpha}\left(n_{1}+n_{2}-2\right) S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\end{array} μ1μ2=XˉYˉ+tα(n1+n22)Swn11+n21 μ1μ2=XˉYˉtα(n1+n22)Swn11+n21
两个正态总体 σ 1 2 σ 2 2 \frac{\sigma{1}^{2}}{\sigma{2}^{2}} σ22σ12 μ 1 , μ 2 未 知 \mu_{1}, \mu_{2}未知 μ1,μ2 F = S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \begin{aligned}F &=\frac{S_{1}^{2} / S_{2}^{2}}{\sigma_{1}^{2} / \sigma_{2}^{2}} \\& \sim F\left(n_{1}-1, n_{2}-1\right)\end{aligned} F=σ12/σ22S12/S22F(n11,n21) ( S 1 2 S 2 2 1 F a / 2 ( n 1 − 1 , n 2 − 1 ) , S 1 2 S 2 2 1 F 1 − α / 2 ( n 1 − 1 , n 2 − 1 ) ) \begin{array}{c}\left(\frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F_{a / 2}\left(n_{1}-1, n_{2}-1\right)}\right. ,\\\left.\frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F_{1-\alpha / 2}\left(n_{1}-1, n_{2}-1\right)}\right)\end{array} (S22S12Fa/2(n11,n21)1,S22S12F1α/2(n11,n21)1) σ 1 2 ‾ σ 2 2 = S 1 2 S 2 2 1 F 1 − α / 2 ( n 1 − 1 , n 2 − 1 ) σ 1 2 σ 2 2 ‾ = S 1 2 S 2 2 1 F a / 2 ( n 1 − 1 , n 2 − 1 ) \begin{aligned}&\frac{\overline{\sigma_{1}^{2}}}{\sigma_{2}^{2}}= \frac{S_{1}^{2}}{S_{2}^{2}}\frac{1}{F_{1-\alpha / 2}\left(n_{1}-1, n_{2}-1\right)} \\ &\frac{\sigma_{1}^{2}}{\underline{\sigma_{2}^{2}}} = \frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F_{a / 2}\left(n_{1}-1, n_{2}-1\right)} \end{aligned} σ22σ12=S22S12F1α/2(n11,n21)1σ22σ12=S22S12Fa/2(n11,n21)1

你可能感兴趣的:(数学建模,python,概率论,机器学习)