数理统计期末复习笔记(一)

数理统计期末复习笔记

主要内容:
数据压缩,点估计,假设检验,区间检验

Reference: Statistical Inference, Casella&Berger

Chapter 6 Data Reduction(数据压缩)

随机样本
  • 无限样本: X 1 , . . . , X n ∼ i i d f ( x ∣ θ ) , f ( x ⃗ ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) X_1,...,X_n\stackrel{iid}\sim f(x|\theta), f(\vec{x}|\theta)=\prod_{i=1}^n f(x_i|\theta) X1,...,Xniidf(xθ),f(x θ)=i=1nf(xiθ)

  • 有限样本:有放回:仍为独立同分布;无放回:边缘分布相同

统计量
  • 关于样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn的函数 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn):用来重定向参数 θ \theta θ的若干性质
  • eg:样本均值: X ‾ = X 1 + . . . . + X n n \overline{X}=\frac{X_1+....+X_n}{n} X=nX1+....+Xn,样本方差: S 2 = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S^2=\frac{\sum_{i=1}^n (X_i-\overline{X})^2}{n-1} S2=n1i=1n(XiX)2,分母为n-1是因为此时是 σ 2 \sigma^2 σ2的无偏估计
充分统计量
  • 统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是充分统计量当且仅当 P ( x 1 , . . . , x n ∣ T ( x 1 , . . . , x n ) = t , θ ) = P ( x 1 , . . . , x n ∣ T ( x 1 , . . . , x n ) = t ) P(x_1,...,x_n|T(x_1,...,x_n)=t,\theta)=P(x_1,...,x_n|T(x_1,...,x_n)=t) P(x1,...,xnT(x1,...,xn)=t,θ)=P(x1,...,xnT(x1,...,xn)=t)

  • 本质:将 ( X 1 , . . . , X n ) (X_1,...,X_n) (X1,...,Xn)的空间根据 T T T的值作划分

  • 判定: T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是充分统计量当且仅当存在函数 g , h : p ( x 1 , . . . , x n ∣ θ ) = h ( x 1 , . . . , x n ) g ( T ( x 1 , . . . , x n ) ∣ θ ) g,h: p(x_1,...,x_n|\theta)=h(x_1,...,x_n)g(T(x_1,...,x_n)|\theta) g,h:p(x1,...,xnθ)=h(x1,...,xn)g(T(x1,...,xn)θ)(密度函数分离)

最小充分统计量
  • 统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是最小充分统计量当且仅当其为充分统计量,且任意充分统计量 U U U T = g ( U ) T=g(U) T=g(U)

  • 本质: T T T的值决定空间的最大可能分划

  • 判定: T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是最小充分统计量当且仅当仅当 R ( x , y ∣ θ ) = p ( y 1 , . . . , y n ∣ θ ) p ( x 1 , . . . , x n ∣ θ ) R(x,y|\theta)=\frac{p(y_1,...,y_n|\theta)}{p(x_1,...,x_n|\theta)} R(x,yθ)=p(x1,...,xnθ)p(y1,...,ynθ)当且仅当 T ( x ) = T ( y ) T(x)=T(y) T(x)=T(y)时与 θ \theta θ独立

完全统计量
  • 对于分布族 p ( x 1 , . . . , x n ∣ θ ) , θ ∈ Θ p(x_1,...,x_n|\theta),\theta\in \Theta p(x1,...,xnθ),θΘ,统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是完全统计量当且仅当对任意 g g g,若 E θ ( g ( T ) ) = 0 , ∀ θ E_\theta(g(T))=0,\forall \theta Eθ(g(T))=0,θ,则 g = 0 a . e . g=0 \quad a.e. g=0a.e. 注:$E_\theta f(x,\theta)=\int f(x,\theta) p(x|\theta)dx $

  • 判定:

    • 是:证明 ∫ g ( T ( x 1 , . . . , x n ) ) p ( x 1 , . . . , x n ∣ θ ) = 0 ⇒ g = 0 a . e . \int g(T(x_1,...,x_n))p(x_1,...,x_n|\theta)=0\Rightarrow g=0 \quad a.e. g(T(x1,...,xn))p(x1,...,xnθ)=0g=0a.e.
    • 否:构造函数 g ≠ 0 g\neq0 g=0,但是 E θ g ( T ) = 0 , ∀ θ E_\theta g(T)=0,\forall \theta Eθg(T)=0,θ;一般来说定义域与 θ \theta θ相关的函数没有完全充分统计量
  • 性质:完全统计量必定是充分统计量;完全统计量和最小充分统计量无关;但是在指数组分布中,完全统计量必定是最小充分统计量

辅助统计量:
  • 统计量 S ( x 1 , . . . , x n ) S(x_1,...,x_n) S(x1,...,xn)是辅助统计量当且仅当 S S S θ \theta θ独立
  • 性质:Basu定理:任何完全统计量和辅助统计量独立

Chapter 7 Point Estimation(点估计)

估计:给定采样 X 1 , . . . , X n X_1,...,X_n X1,...,Xn,利用其估计参数 θ \theta θ

矩估计

θ = ( θ 1 , . . . , θ k ) \theta=(\theta_1,...,\theta_k) θ=(θ1,...,θk),求解方程组:
{ μ 1 ( θ ) = E ( X ) = X 1 + . . . + X n n μ 2 ( θ ) = E ( X 2 ) = X 1 2 + . . . + X n 2 n . . . μ k ( θ ) = E ( X k ) = X 1 k + . . . + X n k n \left\{\begin{aligned} &\mu_1(\theta)=E(X)=\frac{X_1+...+X_n}{n} \\ &\mu_2(\theta)=E(X^2)=\frac{X_1^2+...+X_n^2}{n} \\ &...\\ &\mu_k(\theta)=E(X^k)=\frac{X_1^k+...+X_n^k}{n} \\ \end{aligned}\right. μ1(θ)=E(X)=nX1+...+Xnμ2(θ)=E(X2)=nX12+...+Xn2...μk(θ)=E(Xk)=nX1k+...+Xnk
得到对 ( θ 1 , . . . , θ k ) (\theta_1,...,\theta_k) (θ1,...,θk)的矩估计 ( θ ^ 1 , . . . , θ ^ k ) (\hat{\theta}_1,...,\hat{\theta}_k) (θ^1,...,θ^k).

优点:计算方便

缺点:渐近性质不好,结果可能在定义域 Θ k \Theta_k Θk以外

极大似然估计

基本概念:
  • 似然函数: L ( θ ∣ x ) = p ( x 1 , . . . , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta|x)=p(x_1,...,x_n|\theta)=\prod_{i=1}^n p(x_i|\theta) L(θx)=p(x1,...,xnθ)=i=1np(xiθ);对数似然函数: I ( θ ∣ x ) = log ⁡ p ( x 1 , . . . , x n ∣ θ ) = ∑ i = 1 n log ⁡ p ( x i ∣ θ ) I(\theta|x)=\log p(x_1,...,x_n|\theta)=\sum_{i=1}^n\log p(x_i|\theta) I(θx)=logp(x1,...,xnθ)=i=1nlogp(xiθ)

  • 定义: θ ^ = argmax ⁡ θ ∈ Θ L ( θ ∣ x ) \hat{\theta}=\operatorname{argmax}_{\theta\in \Theta} L(\theta|x) θ^=argmaxθΘL(θx)

验证:
  • 必要条件: ∂ L ∂ θ = 0 , ∂ L ∂ θ 2 ⪯ 0 \frac{\partial L}{\partial \theta} =0, \frac{\partial L}{\partial \theta^2}\preceq 0 θL=0,θ2L0 semi negative definite并且小于等于函数的边界值
  • 证明: c ≥ I ( θ ∣ x ) c\geq I(\theta|x) cI(θx)并且取等当且仅当 θ = θ ^ \theta=\hat{\theta} θ=θ^
  • 在离散参数中间中,可以计算相邻比值 L ( k + 1 ∣ x ) / L ( k ∣ x ) L(k+1|x)/L(k|x) L(k+1∣x)/L(kx)判断大小
性质:
  • 不变性:如果 θ \theta θ的最大似然估计是 θ ^ \hat{\theta} θ^,那么 μ = g ( θ ) \mu=g(\theta) μ=g(θ)的最大似然估计就是 μ ^ = g ( θ ^ ) \hat{\mu}=g(\hat{\theta}) μ^=g(θ^)

  • 对于 θ \theta θ的任意估计 W ( x 1 , . . . , x n ) W(x_1,...,x_n) W(x1,...,xn),如果 ∂ ∂ θ E θ W ( x ) = ∫ W ( x ) ∂ ∂ θ f ( x ∣ θ ) d x \frac{\partial}{\partial \theta}E_\theta W(x)=\int W(x)\frac{\partial}{\partial \theta} f(x|\theta) dx θEθW(x)=W(x)θf(xθ)dx

    • V a r ( W ( x ) ) ≥ ( ∂ ∂ θ E θ W ( x ) ) 2 E θ ( ( ∂ ∂ θ log ⁡ f ( x ∣ θ ) ) 2 ) Var(W(x))\geq \frac{(\frac{\partial}{\partial \theta} E_\theta W(x))^2}{E_\theta ((\frac{\partial}{\partial \theta}\log f(x|\theta))^2)} Var(W(x))Eθ((θlogf(xθ))2)(θEθW(x))2

      分母 = n E θ ( ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) ) 2 ) =nE_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2) =nEθ((θlogp(xθ))2)=Fisher Information

      • Fisher Information Matrix I n ( θ ) \mathcal{I}_n(\theta) In(θ):描述 X X X为刻画 θ \theta θ带来的信息量大小的矩阵;当 θ \theta θ为k维时是 k × k k\times k k×k的矩阵,这里的分母是1维的情况:

      [ I n ( θ ) ] i , j = E θ [ ( ∂ ∂ θ i log ⁡ f ( X ; θ ) ) ( ∂ ∂ θ j log ⁡ f ( X ; θ ) ) ] [\mathcal{I}_n(\theta)]_{i, j}=\mathrm{E}_{\theta}\left[\left(\frac{\partial}{\partial \theta_i} \log f(X ; \theta)\right)\left(\frac{\partial}{\partial \theta_j} \log f(X ; \theta)\right) \right] [In(θ)]i,j=Eθ[(θilogf(X;θ))(θjlogf(X;θ))]

      • 特别的,如果 W W W无偏,则 V a r ( W ) ≥ 1 n E θ ( ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) ) 2 ) Var(W)\geq \frac{1}{nE_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2)} Var(W)nEθ((θlogp(xθ))2)1为定值

      • 对于指数组分布,有 ∂ ∂ θ E θ ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) = ∫ ∂ ∂ θ ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) p ( x ∣ θ ) ) d x \frac{\partial}{\partial \theta} E_\theta (\frac{\partial}{\partial \theta} \log p(x|\theta)=\int \frac{\partial}{\partial\theta}(\frac{\partial}{\partial \theta} \log p(x|\theta) p(x|\theta))dx θEθ(θlogp(xθ)=θ(θlogp(xθ)p(xθ))dx,从而
        E θ ( ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) ) 2 = − E θ ( ∂ 2 ∂ θ 2 log ⁡ p ( x ∣ θ ) ) E_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2=-E_\theta (\frac{\partial^2}{\partial \theta^2}\log p(x|\theta)) Eθ((θlogp(xθ))2=Eθ(θ22logp(xθ))
        ,以及: I n ( θ ) = − E ( ∂ 2 I ( θ ) ∂ θ r ∂ θ s ) \mathcal{I}_n(\theta)=-E(\frac{\partial^2 I(\theta)}{\partial \theta_r\partial \theta_s}) In(θ)=E(θrθs2I(θ))

      • M S E = E θ ( θ ^ − θ ) 2 = B 2 + V MSE=E_\theta(\hat{\theta}-\theta)^2=B^2+V MSE=Eθ(θ^θ)2=B2+V: V = V a r θ ( θ ^ ) , B = E θ ( θ ^ ) − θ V=Var_\theta(\hat{\theta}), B=E_\theta(\hat{\theta})-\theta V=Varθ(θ^),B=Eθ(θ^)θ

        因此,在偏差 B B B和方差 V V V之间必然有tradeoff

渐近性:
  • 正规化条件:

    • 分布 P θ P_\theta Pθ有共同的支集
    • 参数空间 Θ \Theta Θ包含一个 R k \mathbb{R}^k Rk中的开集
    • θ ^ \hat{\theta} θ^是唯一使得 ∂ ∂ θ I ( θ ∣ x ) = 0 \frac{\partial}{\partial\theta}I(\theta|x)=0 θI(θx)=0 θ \theta θ
  • 一致性: θ → p θ 0 \theta\stackrel{p}\rightarrow \theta_0 θpθ0

  • 渐近正态性: n ( θ ^ − θ 0 ) → d N ( 0 , 1 I ( θ ) ) \sqrt{n}(\hat{\theta}-\theta_0)\stackrel{d}\rightarrow N(0,\frac{1}{I(\theta)}) n (θ^θ0)dN(0,I(θ)1) I ( θ ) I(\theta) I(θ)就是 I n ( θ ) n \frac{\mathcal{I}_n(\theta)}{n} nIn(θ),即 E θ ( ( ∂ ∂ θ log ⁡ p ( x ∣ θ ) ) 2 ) E_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2) Eθ((θlogp(xθ))2),所以也可以写成 ( θ ^ − θ 0 ) → d N ( 0 , 1 I n ( θ ) ) (\hat{\theta}-\theta_0)\stackrel{d}\rightarrow N(0,\frac{1}{I_n(\theta)}) (θ^θ0)dN(0,In(θ)1)

    推论:(Delta Method) n ( γ ( θ ^ ) − γ ( θ 0 ) ) → d N ( 0 , γ ′ ( θ ) 2 I ( θ ) ) \sqrt{n}(\gamma(\hat{\theta})-\gamma(\theta_0))\stackrel{d}\rightarrow N(0,\frac{\gamma'(\theta)^2}{I(\theta)}) n (γ(θ^)γ(θ0))dN(0,I(θ)γ(θ)2)

  • 渐近有效性:样本数量充分大时, θ ^ \hat{\theta} θ^是无偏估计中方差最小的

Best Unbiased Estimator最佳无偏估计

对于 t ( θ ) t(\theta) t(θ)的估计 W W W,如果 ∀ θ , E θ W = t ( θ ) \forall \theta, E_\theta W=t(\theta) θ,EθW=t(θ),则称其无偏;如果 W W W无偏,且对任意其它无偏估计 W ′ W' W V a r θ ( W ′ ) ≥ V a r θ ( W ) , ∀ θ Var_\theta(W')\geq Var_\theta(W),\forall \theta Varθ(W)Varθ(W),θ,则称 W W W为最佳无偏估计量

性质:

最佳无偏估计量不一定存在,但是若存在则唯一

判定:
  • W W W是最佳无偏估计当且仅当其与任意其它无偏估计不相关: c o r ( W , W ′ ) = 0 cor(W,W')=0 cor(W,W)=0

  • 证明 W W W不是最佳无偏估计:给出一个和 W W W相关的无偏估计

  • 给出一个无偏估计:取 X X X的一个完全统计量 T T T,则:

    • T T T的任意一个函数 ϕ ( T ) \phi(T) ϕ(T)都是 E θ ϕ ( T ) E_\theta\phi(T) Eθϕ(T)的无偏估计
    • 任意 h ( x 1 , . . . , x n ) h(x_1,...,x_n) h(x1,...,xn)若为 t ( θ ) t(\theta) t(θ)的一个无偏估计,则 ϕ ( T ) = E ( h ( x 1 , . . . , x n ) ∣ T ) \phi(T)=E(h(x_1,...,x_n)|T) ϕ(T)=E(h(x1,...,xn)T) t ( θ ) t(\theta) t(θ)的无偏估计

Chapter 7 假设检验

基本定义

  • 通过样本反推参数 θ \theta θ是否满足属于某个集合 Θ 0 \Theta_0 Θ0

    零假设 H 0 H_0 H0 θ ∈ θ 0 \theta\in \theta_0 θθ0;否则: H 1 H_1 H1: θ ∈ Θ 1 = Θ / Θ 0 \theta\in \Theta_1=\Theta/\Theta_0 θΘ1=Θ/Θ0. 设定一个判定规则:输入 X X X,输出接收/拒绝

    如果样本X是由 θ ∈ Θ 0 \theta\in \Theta_0 θΘ0生成的,则本应接收。如果拒绝了,则造成第一类错误(假阳性)

    如果样本X是由 θ ∈ Θ 1 \theta\in \Theta_1 θΘ1生成的,则本应拒绝。如果接收了,则造成第二类错误(假阴性)

  • 假设判定规则定义了拒绝区域 R R R,拒绝 H 0 H_0 H0当且仅当 T ( X ) ∈ R T(X)\in R T(X)R,则:

    权函数 β ( θ ) = P θ ( T ( X ) ∈ R ) \beta(\theta)=P_\theta(T(X)\in R) β(θ)=Pθ(T(X)R),当 θ ∈ Θ 0 \theta\in \Theta_0 θΘ0时, β ( θ ) = P θ ( 第一类错误率 ) \beta(\theta)=P_\theta(第一类错误率) β(θ)=Pθ(第一类错误率);否则= 1 − P θ ( 第二类错误率 ) 1-P_\theta(第二类错误率) 1Pθ(第二类错误率)

    • 目标:尽可能减少这两类错误的概率,即在 Θ 0 \Theta_0 Θ0 β \beta β尽可能, Θ 1 \Theta_1 Θ1 β \beta β尽可能大

    • 但是一般来说根据连续性两个目标不太可能同时达到,所以改为定义检验水平(固定一端):

      如果 sup ⁡ θ ∈ Θ 0 β ( θ ) = α \sup_{\theta\in \Theta_0}\beta(\theta)=\alpha supθΘ0β(θ)=α,则称为size为 α \alpha α的检验;如果 ≤ α \leq \alpha α,则称为level为 α \alpha α的检验

      如果 sup ⁡ θ ∈ Θ 0 β ( θ ) ≤ inf ⁡ θ ∈ Θ 1 β ( θ ) \sup_{\theta\in \Theta_0}\beta(\theta)\leq \inf_{\theta\in\Theta_1}\beta(\theta) supθΘ0β(θ)infθΘ1β(θ),则称为无偏的检验

常见的检验构造方法

似然比方法
  • 定义 λ ( x ) = sup ⁡ θ ∈ Θ 0 L ( θ ∣ x ) sup ⁡ θ ∈ Θ L ( θ ∣ x ) = L ( θ 0 ^ ∣ x ) L ( θ ^ ∣ x ) \lambda(x)=\frac{\sup_{\theta\in\Theta_0}L(\theta|x) }{\sup_{\theta\in\Theta}L(\theta|x)}=\frac{L(\hat{\theta_0}|x)}{L(\hat{\theta}|x)} λ(x)=supθΘL(θx)supθΘ0L(θx)=L(θ^x)L(θ0^x),当 λ ( x ) ≤ c \lambda(x)\leq c λ(x)c时拒绝

    注: λ \lambda λ也可考虑直接取关于充分统计量 T T T的函数

    优势:最普适的构造方法;可以用来消去讨厌参数(nuisance parameter,即不需要检验但是与分布有关的参数)

  • 渐近性:

    假设 x 1 , . . . , x n ∼ i i d f ( x ∣ θ ) x_1,...,x_n\stackrel{iid}\sim f(x|\theta) x1,...,xniidf(xθ),则在零假设下, − 2 log ⁡ λ ( x ) → d χ k 2 , k = dim ⁡ ( Θ ) − dim ⁡ ( Θ 0 ) -2\log \lambda(x)\stackrel{d}\rightarrow \chi_k^2, k=\dim(\Theta)-\dim(\Theta_0) 2logλ(x)dχk2,k=dim(Θ)dim(Θ0)

    从而,如果建立一个检验,在 − 2 log ⁡ λ ( x ) ≥ χ k , α 2 -2\log \lambda(x)\geq \chi_{k,\alpha}^2 2logλ(x)χk,α2时拒绝,则得到一个渐近level为 α \alpha α的检验

一致最大功效检验(UMP)
  • 假设 C α C_\alpha Cα是所有level为 α \alpha α的检验的集合,则对任意 β ( ) ∈ C α \beta()\in C_\alpha β()Cα β \beta β是UMP当且仅当任意其它 β ′ ∈ C α \beta'\in C_\alpha βCα β ′ ( θ ) ≤ β ( θ ) , ∀ θ ∈ Θ 0 c \beta'(\theta)\leq \beta(\theta),\forall \theta \in \Theta_0^c β(θ)β(θ),θΘ0c

  • 判定:

    • 如果 Θ 0 = { θ 0 } , Θ 1 = { θ 1 } \Theta_0=\{\theta_0\},\Theta_1=\{\theta_1\} Θ0={θ0},Θ1={θ1},那么一个具有拒绝区域 R = { x ∣ f ( x ∣ θ 1 ) > k f ( x ∣ θ 0 ) } R=\{x|f(x|\theta_1)>kf(x|\theta_0)\} R={xf(xθ1)>kf(xθ0)},并且 P θ 0 ( x ∈ R ) = α P_{\theta_0}(x\in R)=\alpha Pθ0(xR)=α的测试必定是一个UMP检验

    • 如果 Θ 0 = { θ ≤ θ 0 } , Θ 1 = { θ > θ 0 } \Theta_0=\{\theta\leq \theta_0\},\Theta_1=\{\theta>\theta_0\} Θ0={θθ0},Θ1={θ>θ0},并且分布族 P θ P_\theta Pθ是单调的: ∀ θ 1 < θ 2 \forall \theta_1<\theta_2 θ1<θ2 f θ 2 ( x ) f θ 1 ( x ) \frac{f_{\theta_2}(x)}{f_{\theta_1}(x)} fθ1(x)fθ2(x)在区域 { x ∣ f θ 2 ( x ) > 0 或 f θ 1 ( x ) > 0 } \{x|f_{\theta_2}(x)>0 或f_{\theta_1}(x)>0\} {xfθ2(x)>0fθ1(x)>0}上单调不减,那么一个当且仅当 T ( x ) > t 0 T(x)>t_0 T(x)>t0时拒绝的检测是level为 α = P θ 0 ( T > t 0 ) \alpha=P_{\theta_0}(T>t_0) α=Pθ0(T>t0)的UMP检验

  • 注意:

    对于离散的分布,UMP可能是离散的

    UMP检测不一定存在

Wald检验和Score检验
  • 这两个检验方法是渐近性的
  • 如果 Θ 0 = { θ 0 } \Theta_0=\{\theta_0\} Θ0={θ0},则在零假设下,有 I ( θ ) ( θ ^ − θ ) → a s y N ( 0 , 1 ) \sqrt{\mathcal{I}(\theta)} (\hat{\theta}-\theta)\stackrel{asy}\rightarrow N(0,1) I(θ) (θ^θ)asyN(0,1) θ ^ \hat{\theta} θ^为MLE),并且在一般情况下 I ( θ ) → V a r ( θ ) \mathcal{I}(\theta)\rightarrow Var(\theta) I(θ)Var(θ),因此,得到两个自然的渐近检验:
    • Wald: ∣ θ ^ − θ V a r ( θ ^ ) ∣ ≥ Z α / 2 \left|\frac{\hat{\theta}-\theta}{\sqrt{Var(\hat{\theta})}}\right|\geq Z_{\alpha/2} Var(θ^) θ^θ Zα/2,其中 V a r ( θ ^ ) Var(\hat{\theta}) Var(θ^)可以通过分布求出
    • Score: ∣ θ ^ − θ V a r ( θ ) ∣ ≥ Z α / 2 \left|\frac{\hat{\theta}-\theta}{\sqrt{Var({\theta})}}\right|\geq Z_{\alpha/2} Var(θ) θ^θ Zα/2,其中 V a r ( θ ) Var({\theta}) Var(θ)可以通过分布求出
Union Intersection和Intersection Union检验:
  • 这两个检验是为了解决假设是某些简单集合的并集的情况。这里前一个项是指拒绝域的形式,后一个项是指零假设的形式
  • 因此: Θ 0 = ∩ γ ∈ Γ Θ γ \Theta_0=\cap_{\gamma\in\Gamma}\Theta_\gamma Θ0=γΓΘγ,则为Union Intersection检验。将其分解为若干检验 H γ H_\gamma Hγ H γ 0 = Θ γ H_{\gamma0}=\Theta_\gamma Hγ0=Θγ,假设每个检验的拒绝域为 R γ R_\gamma Rγ,则最终得到的检验的拒绝域 R = ∪ γ ∈ Γ R r R=\cup_{\gamma\in \Gamma} R_r R=γΓRr,因为接受域小,所以拒绝域相对的就大
  • 反之, Θ 0 = ∪ γ ∈ Γ Θ γ \Theta_0=\cup_{\gamma\in\Gamma}\Theta_\gamma Θ0=γΓΘγ,则为Intersection Union检验。将其分解为若干检验 H γ H_\gamma Hγ H γ 0 = Θ γ H_{\gamma0}=\Theta_\gamma Hγ0=Θγ,假设每个检验的拒绝域为 R γ R_\gamma Rγ,则最终得到的检验的拒绝域 R = ∩ γ ∈ Γ R r R=\cap_{\gamma\in \Gamma} R_r R=γΓRr
p值
  • p值是一个关于样本的函数 p ( x ) p(x) p(x),表征的是 H 0 H_0 H0为真时观测到至少与当前样本 x x x相同极端的样本的概率。也就是说,如果一个样本的p值为 t t t,则可以断言同类型样本的出现概率为t

  • 一般使用p值都是反过来用,即把要验证的假设当做 H 1 H_1 H1,然后说明样本具有足够小的p值(一般取0.05),从而说明如果 H 0 H_0 H0成立,那么样本会是非常特殊的,从而反过来证明 H 1 H_1 H1很可能成立

  • 依据上面的性质,可以抽象出一个定义:

    0 ≤ p ( x ) ≤ 1 , ∀ x 0\leq p(x)\leq1,\forall x 0p(x)1,x. 一个p值是有效的,当且仅当对任意 θ ∈ Θ 0 , ∀ α \theta\in \Theta_0,\forall \alpha θΘ0,α P θ ( x : p ( x ) ≤ α ) ≤ α P_\theta(x:p(x)\leq \alpha)\leq \alpha Pθ(x:p(x)α)α,也就是说,在 Θ 0 \Theta_0 Θ0中,小的p值一定意味着小的出现概率,进一步意味着 H 1 H_1 H1为真。

  • 构造:考虑构造函数 W ( x ) W(x) W(x):较大的 W W W值意味着 H 1 H_1 H1更可能为真

    对任意 x x x,定义 P ( x ) = sup ⁡ θ ∈ Θ 0 P θ ( W ( X ) ≥ W ( x ) ) P(x)=\sup_{\theta\in\Theta_0} P_\theta (W(X)\geq W(x)) P(x)=supθΘ0Pθ(W(X)W(x))即为所求p值

置换检验

X 1 , . . . , X n ∼ F , Y 1 , . . . , Y m ∼ G X_1,...,X_n\sim F, Y_1,...,Y_m\sim G X1,...,XnF,Y1,...,YmG,现在希望检验 H 0 : F = G , H 1 : F ≠ G H_0:F=G,H_1:F\neq G H0:F=G,H1:F=G

定义 T = ∣ X ‾ n − Y ‾ m ∣ T=|\overline{X}_n-\overline{Y}_m| T=XnYm,对 X 1 , . . . , Y m X_1,...,Y_m X1,...,Ym做置换,得到 T T T T i , i = 1 ∼ N ! T_i,i=1\sim N! Ti,i=1N!;并且原本的 T T T值为 T o b s T_{obs} Tobs,那么对于观测X的p值就是 P 0 ( T > T o b s ) = ∑ i 1 ( T i > o b s ) N ! P_0(T>T_{obs})=\frac{\sum_{i} 1({T_i>obs})}{N!} P0(T>Tobs)=N!i1(Ti>obs),因为理论上如果两个的分布相同那么p值应该会比较高。

Chapter 8 区间检验

置信区间:对于样本 x x x,和区间 [ L ( x ) , U ( x ) ] [L(x),U(x)] [L(x),U(x)],其置信度为 1 − α = inf ⁡ θ P θ ( θ ∈ [ L ( x ) , U ( x ) ] ) 1-\alpha=\inf_{\theta}P_\theta(\theta\in[L(x),U(x)]) 1α=infθPθ(θ[L(x),U(x)]),也就是说, θ \theta θ至多只有 α \alpha α的概率不在该区间中

构造:
  • 概率不等式:

    Hoeffding’s不等式: X i ∈ [ a i , b i ] X_i\in [a_i,b_i] Xi[ai,bi] 独立,则 P ( ∣ X ‾ − E X ∣ ≥ t ) ≤ 2 exp ⁡ { − 2 n 2 t 2 ∑ i ( b i − a i ) 2 } P(|\overline{X}-EX|\geq t)\leq 2\exp \{-\frac{2n^2t^2}{\sum_i(b_i-a_i)^2}\} P(XEXt)2exp{i(biai)22n2t2}

  • 测试取逆

    假设可以建立一个level为 α \alpha α的测试,并且定义 C ( x ) = { θ 0 : x ∈ A ( θ 0 ) } C(x)=\{\theta_0:x\in A(\theta_0)\} C(x)={θ0:xA(θ0)},则 C ( x ) C(x) C(x)为一个 1 − α 1-\alpha 1α的置信集合

  • 枢轴方法

    Q ( X 1 , . . . , X n , θ ) Q(X_1,...,X_n,\theta) Q(X1,...,Xn,θ)称为一个枢轴,若 Q Q Q θ \theta θ独立;则 P θ ( a ≤ Q ( x , θ ) ≤ b ) = 1 − α P_\theta(a\leq Q(x,\theta)\leq b)=1-\alpha Pθ(aQ(x,θ)b)=1α(a,b为Q的分布的1-alpha区间端点)

  • Delta方法(近似)

    θ ^ \hat{\theta} θ^为MLE,则由于 n ( γ ( θ ^ ) − γ ( θ 0 ) ) → d N ( 0 , γ ′ ( θ ) 2 I ( θ ) ) \sqrt{n}(\gamma(\hat{\theta})-\gamma(\theta_0))\stackrel{d}\rightarrow N(0,\frac{\gamma'(\theta)^2}{I(\theta)}) n (γ(θ^)γ(θ0))dN(0,I(θ)γ(θ)2),我们知道 γ ( θ 0 ) ± Z 1 − α / 2 ∣ π ′ ( θ ) ∣ / I n ( θ ) \gamma(\theta_0)\pm Z_{1-\alpha/2}|\pi'(\theta)|/\sqrt{I_n(\theta)} γ(θ0)±Z1α/2π(θ)∣/In(θ) (仔细推一下这个形式)

    高维情况: n ( Y n − θ ) → d N p ( 0 , Σ ) \sqrt{n}\left(Y_n-\theta\right) \stackrel{d}{\rightarrow} N_p(0, \Sigma) n (Ynθ)dNp(0,Σ) n ( g ( Y n ) − g ( θ ) ) → d N ( 0 , ( ∂ g ( θ ) ∂ θ ) ′ Σ ( ∂ g ( θ ) ∂ θ ) ) \sqrt{n}\left(g\left(Y_n\right)-g(\theta)\right) \stackrel{d}{\rightarrow} N\left(0,\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{\prime} \Sigma\left(\frac{\partial g(\theta)}{\partial \theta}\right)\right) n (g(Yn)g(θ))dN(0,(θg(θ))Σ(θg(θ)))

    Σ \Sigma Σ:协方差矩阵

  • Score方法(近似)

    Q ( X ∣ θ ) = ∂ ∂ θ log ⁡ L ( θ ∣ X ) − E θ ( ∂ 2 ∂ θ 2 I ( θ ∣ X ) ) → N ( 0 , 1 ) Q(X \mid \theta)=\frac{\frac{\partial}{\partial \theta} \log L(\theta \mid X)}{\sqrt{-E_\theta\left(\frac{\partial^2}{\partial \theta^2} I(\theta \mid X)\right)}}\rightarrow N(0,1) Q(Xθ)=Eθ(θ22I(θX)) θlogL(θX)N(0,1),因此集合 { θ : ∣ Q ( x ∣ θ ) ∣ ≤ z α / 2 } \left\{\theta:|Q(x \mid \theta)| \leq z_{\alpha / 2}\right\} {θ:Q(xθ)zα/2}置信区间为 1 − α 1-\alpha 1α

  • LRT方法(近似)

    同理,当 Θ 0 = θ 0 \Theta_0=\theta_0 Θ0=θ0时,LRT的渐进性也可以用来构造置信区间: C n = { θ : L ( θ ) L ( θ ^ ) > e − χ k , 1 − α 2 / 2 } C_n=\left\{\theta: \frac{L(\theta)}{L(\widehat{\theta})}>e^{-\chi_{k, 1-\alpha}^2 / 2}\right\} Cn={θ:L(θ )L(θ)>eχk,1α2/2}

  • 最优长度:在所有 1 − α 1-\alpha 1α的置信区间中,存在某个长度最短的置信区间。这要求 ∫ a b f ( z ) d z = 1 − α \int_a^b f(z)dz=1-\alpha abf(z)dz=1α,当f单峰时把峰取在其中并且使得两端的函数值相等即可

你可能感兴趣的:(课程复习资料,图书阅读,统计,概率论)