主要内容:
数据压缩,点估计,假设检验,区间检验
Reference: Statistical Inference, Casella&Berger
无限样本: X 1 , . . . , X n ∼ i i d f ( x ∣ θ ) , f ( x ⃗ ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) X_1,...,X_n\stackrel{iid}\sim f(x|\theta), f(\vec{x}|\theta)=\prod_{i=1}^n f(x_i|\theta) X1,...,Xn∼iidf(x∣θ),f(x∣θ)=∏i=1nf(xi∣θ)
有限样本:有放回:仍为独立同分布;无放回:边缘分布相同
统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是充分统计量当且仅当 P ( x 1 , . . . , x n ∣ T ( x 1 , . . . , x n ) = t , θ ) = P ( x 1 , . . . , x n ∣ T ( x 1 , . . . , x n ) = t ) P(x_1,...,x_n|T(x_1,...,x_n)=t,\theta)=P(x_1,...,x_n|T(x_1,...,x_n)=t) P(x1,...,xn∣T(x1,...,xn)=t,θ)=P(x1,...,xn∣T(x1,...,xn)=t)
本质:将 ( X 1 , . . . , X n ) (X_1,...,X_n) (X1,...,Xn)的空间根据 T T T的值作划分
判定: T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是充分统计量当且仅当存在函数 g , h : p ( x 1 , . . . , x n ∣ θ ) = h ( x 1 , . . . , x n ) g ( T ( x 1 , . . . , x n ) ∣ θ ) g,h: p(x_1,...,x_n|\theta)=h(x_1,...,x_n)g(T(x_1,...,x_n)|\theta) g,h:p(x1,...,xn∣θ)=h(x1,...,xn)g(T(x1,...,xn)∣θ)(密度函数分离)
统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是最小充分统计量当且仅当其为充分统计量,且任意充分统计量 U U U, T = g ( U ) T=g(U) T=g(U)
本质: T T T的值决定空间的最大可能分划
判定: T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是最小充分统计量当且仅当仅当 R ( x , y ∣ θ ) = p ( y 1 , . . . , y n ∣ θ ) p ( x 1 , . . . , x n ∣ θ ) R(x,y|\theta)=\frac{p(y_1,...,y_n|\theta)}{p(x_1,...,x_n|\theta)} R(x,y∣θ)=p(x1,...,xn∣θ)p(y1,...,yn∣θ)当且仅当 T ( x ) = T ( y ) T(x)=T(y) T(x)=T(y)时与 θ \theta θ独立
对于分布族 p ( x 1 , . . . , x n ∣ θ ) , θ ∈ Θ p(x_1,...,x_n|\theta),\theta\in \Theta p(x1,...,xn∣θ),θ∈Θ,统计量 T ( X 1 , . . . , X n ) T(X_1,...,X_n) T(X1,...,Xn)是完全统计量当且仅当对任意 g g g,若 E θ ( g ( T ) ) = 0 , ∀ θ E_\theta(g(T))=0,\forall \theta Eθ(g(T))=0,∀θ,则 g = 0 a . e . g=0 \quad a.e. g=0a.e. 注:$E_\theta f(x,\theta)=\int f(x,\theta) p(x|\theta)dx $
判定:
性质:完全统计量必定是充分统计量;完全统计量和最小充分统计量无关;但是在指数组分布中,完全统计量必定是最小充分统计量
估计:给定采样 X 1 , . . . , X n X_1,...,X_n X1,...,Xn,利用其估计参数 θ \theta θ
对 θ = ( θ 1 , . . . , θ k ) \theta=(\theta_1,...,\theta_k) θ=(θ1,...,θk),求解方程组:
{ μ 1 ( θ ) = E ( X ) = X 1 + . . . + X n n μ 2 ( θ ) = E ( X 2 ) = X 1 2 + . . . + X n 2 n . . . μ k ( θ ) = E ( X k ) = X 1 k + . . . + X n k n \left\{\begin{aligned} &\mu_1(\theta)=E(X)=\frac{X_1+...+X_n}{n} \\ &\mu_2(\theta)=E(X^2)=\frac{X_1^2+...+X_n^2}{n} \\ &...\\ &\mu_k(\theta)=E(X^k)=\frac{X_1^k+...+X_n^k}{n} \\ \end{aligned}\right. ⎩ ⎨ ⎧μ1(θ)=E(X)=nX1+...+Xnμ2(θ)=E(X2)=nX12+...+Xn2...μk(θ)=E(Xk)=nX1k+...+Xnk
得到对 ( θ 1 , . . . , θ k ) (\theta_1,...,\theta_k) (θ1,...,θk)的矩估计 ( θ ^ 1 , . . . , θ ^ k ) (\hat{\theta}_1,...,\hat{\theta}_k) (θ^1,...,θ^k).
优点:计算方便
缺点:渐近性质不好,结果可能在定义域 Θ k \Theta_k Θk以外
似然函数: L ( θ ∣ x ) = p ( x 1 , . . . , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta|x)=p(x_1,...,x_n|\theta)=\prod_{i=1}^n p(x_i|\theta) L(θ∣x)=p(x1,...,xn∣θ)=∏i=1np(xi∣θ);对数似然函数: I ( θ ∣ x ) = log p ( x 1 , . . . , x n ∣ θ ) = ∑ i = 1 n log p ( x i ∣ θ ) I(\theta|x)=\log p(x_1,...,x_n|\theta)=\sum_{i=1}^n\log p(x_i|\theta) I(θ∣x)=logp(x1,...,xn∣θ)=∑i=1nlogp(xi∣θ)
定义: θ ^ = argmax θ ∈ Θ L ( θ ∣ x ) \hat{\theta}=\operatorname{argmax}_{\theta\in \Theta} L(\theta|x) θ^=argmaxθ∈ΘL(θ∣x)
不变性:如果 θ \theta θ的最大似然估计是 θ ^ \hat{\theta} θ^,那么 μ = g ( θ ) \mu=g(\theta) μ=g(θ)的最大似然估计就是 μ ^ = g ( θ ^ ) \hat{\mu}=g(\hat{\theta}) μ^=g(θ^)
对于 θ \theta θ的任意估计 W ( x 1 , . . . , x n ) W(x_1,...,x_n) W(x1,...,xn),如果 ∂ ∂ θ E θ W ( x ) = ∫ W ( x ) ∂ ∂ θ f ( x ∣ θ ) d x \frac{\partial}{\partial \theta}E_\theta W(x)=\int W(x)\frac{\partial}{\partial \theta} f(x|\theta) dx ∂θ∂EθW(x)=∫W(x)∂θ∂f(x∣θ)dx
V a r ( W ( x ) ) ≥ ( ∂ ∂ θ E θ W ( x ) ) 2 E θ ( ( ∂ ∂ θ log f ( x ∣ θ ) ) 2 ) Var(W(x))\geq \frac{(\frac{\partial}{\partial \theta} E_\theta W(x))^2}{E_\theta ((\frac{\partial}{\partial \theta}\log f(x|\theta))^2)} Var(W(x))≥Eθ((∂θ∂logf(x∣θ))2)(∂θ∂EθW(x))2
分母 = n E θ ( ( ∂ ∂ θ log p ( x ∣ θ ) ) 2 ) =nE_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2) =nEθ((∂θ∂logp(x∣θ))2)=Fisher Information
[ I n ( θ ) ] i , j = E θ [ ( ∂ ∂ θ i log f ( X ; θ ) ) ( ∂ ∂ θ j log f ( X ; θ ) ) ] [\mathcal{I}_n(\theta)]_{i, j}=\mathrm{E}_{\theta}\left[\left(\frac{\partial}{\partial \theta_i} \log f(X ; \theta)\right)\left(\frac{\partial}{\partial \theta_j} \log f(X ; \theta)\right) \right] [In(θ)]i,j=Eθ[(∂θi∂logf(X;θ))(∂θj∂logf(X;θ))]
特别的,如果 W W W无偏,则 V a r ( W ) ≥ 1 n E θ ( ( ∂ ∂ θ log p ( x ∣ θ ) ) 2 ) Var(W)\geq \frac{1}{nE_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2)} Var(W)≥nEθ((∂θ∂logp(x∣θ))2)1为定值
对于指数组分布,有 ∂ ∂ θ E θ ( ∂ ∂ θ log p ( x ∣ θ ) = ∫ ∂ ∂ θ ( ∂ ∂ θ log p ( x ∣ θ ) p ( x ∣ θ ) ) d x \frac{\partial}{\partial \theta} E_\theta (\frac{\partial}{\partial \theta} \log p(x|\theta)=\int \frac{\partial}{\partial\theta}(\frac{\partial}{\partial \theta} \log p(x|\theta) p(x|\theta))dx ∂θ∂Eθ(∂θ∂logp(x∣θ)=∫∂θ∂(∂θ∂logp(x∣θ)p(x∣θ))dx,从而
E θ ( ( ∂ ∂ θ log p ( x ∣ θ ) ) 2 = − E θ ( ∂ 2 ∂ θ 2 log p ( x ∣ θ ) ) E_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2=-E_\theta (\frac{\partial^2}{\partial \theta^2}\log p(x|\theta)) Eθ((∂θ∂logp(x∣θ))2=−Eθ(∂θ2∂2logp(x∣θ))
,以及: I n ( θ ) = − E ( ∂ 2 I ( θ ) ∂ θ r ∂ θ s ) \mathcal{I}_n(\theta)=-E(\frac{\partial^2 I(\theta)}{\partial \theta_r\partial \theta_s}) In(θ)=−E(∂θr∂θs∂2I(θ))
M S E = E θ ( θ ^ − θ ) 2 = B 2 + V MSE=E_\theta(\hat{\theta}-\theta)^2=B^2+V MSE=Eθ(θ^−θ)2=B2+V: V = V a r θ ( θ ^ ) , B = E θ ( θ ^ ) − θ V=Var_\theta(\hat{\theta}), B=E_\theta(\hat{\theta})-\theta V=Varθ(θ^),B=Eθ(θ^)−θ
因此,在偏差 B B B和方差 V V V之间必然有tradeoff
正规化条件:
一致性: θ → p θ 0 \theta\stackrel{p}\rightarrow \theta_0 θ→pθ0
渐近正态性: n ( θ ^ − θ 0 ) → d N ( 0 , 1 I ( θ ) ) \sqrt{n}(\hat{\theta}-\theta_0)\stackrel{d}\rightarrow N(0,\frac{1}{I(\theta)}) n(θ^−θ0)→dN(0,I(θ)1), I ( θ ) I(\theta) I(θ)就是 I n ( θ ) n \frac{\mathcal{I}_n(\theta)}{n} nIn(θ),即 E θ ( ( ∂ ∂ θ log p ( x ∣ θ ) ) 2 ) E_\theta ((\frac{\partial}{\partial \theta}\log p(x|\theta))^2) Eθ((∂θ∂logp(x∣θ))2),所以也可以写成 ( θ ^ − θ 0 ) → d N ( 0 , 1 I n ( θ ) ) (\hat{\theta}-\theta_0)\stackrel{d}\rightarrow N(0,\frac{1}{I_n(\theta)}) (θ^−θ0)→dN(0,In(θ)1)
推论:(Delta Method) n ( γ ( θ ^ ) − γ ( θ 0 ) ) → d N ( 0 , γ ′ ( θ ) 2 I ( θ ) ) \sqrt{n}(\gamma(\hat{\theta})-\gamma(\theta_0))\stackrel{d}\rightarrow N(0,\frac{\gamma'(\theta)^2}{I(\theta)}) n(γ(θ^)−γ(θ0))→dN(0,I(θ)γ′(θ)2)
渐近有效性:样本数量充分大时, θ ^ \hat{\theta} θ^是无偏估计中方差最小的
对于 t ( θ ) t(\theta) t(θ)的估计 W W W,如果 ∀ θ , E θ W = t ( θ ) \forall \theta, E_\theta W=t(\theta) ∀θ,EθW=t(θ),则称其无偏;如果 W W W无偏,且对任意其它无偏估计 W ′ W' W′, V a r θ ( W ′ ) ≥ V a r θ ( W ) , ∀ θ Var_\theta(W')\geq Var_\theta(W),\forall \theta Varθ(W′)≥Varθ(W),∀θ,则称 W W W为最佳无偏估计量
最佳无偏估计量不一定存在,但是若存在则唯一
W W W是最佳无偏估计当且仅当其与任意其它无偏估计不相关: c o r ( W , W ′ ) = 0 cor(W,W')=0 cor(W,W′)=0
证明 W W W不是最佳无偏估计:给出一个和 W W W相关的无偏估计
给出一个无偏估计:取 X X X的一个完全统计量 T T T,则:
通过样本反推参数 θ \theta θ是否满足属于某个集合 Θ 0 \Theta_0 Θ0:
零假设 H 0 H_0 H0: θ ∈ θ 0 \theta\in \theta_0 θ∈θ0;否则: H 1 H_1 H1: θ ∈ Θ 1 = Θ / Θ 0 \theta\in \Theta_1=\Theta/\Theta_0 θ∈Θ1=Θ/Θ0. 设定一个判定规则:输入 X X X,输出接收/拒绝
如果样本X是由 θ ∈ Θ 0 \theta\in \Theta_0 θ∈Θ0生成的,则本应接收。如果拒绝了,则造成第一类错误(假阳性)
如果样本X是由 θ ∈ Θ 1 \theta\in \Theta_1 θ∈Θ1生成的,则本应拒绝。如果接收了,则造成第二类错误(假阴性)
假设判定规则定义了拒绝区域 R R R,拒绝 H 0 H_0 H0当且仅当 T ( X ) ∈ R T(X)\in R T(X)∈R,则:
权函数 β ( θ ) = P θ ( T ( X ) ∈ R ) \beta(\theta)=P_\theta(T(X)\in R) β(θ)=Pθ(T(X)∈R),当 θ ∈ Θ 0 \theta\in \Theta_0 θ∈Θ0时, β ( θ ) = P θ ( 第一类错误率 ) \beta(\theta)=P_\theta(第一类错误率) β(θ)=Pθ(第一类错误率);否则= 1 − P θ ( 第二类错误率 ) 1-P_\theta(第二类错误率) 1−Pθ(第二类错误率)
目标:尽可能减少这两类错误的概率,即在 Θ 0 \Theta_0 Θ0中 β \beta β尽可能, Θ 1 \Theta_1 Θ1中 β \beta β尽可能大
但是一般来说根据连续性两个目标不太可能同时达到,所以改为定义检验水平(固定一端):
如果 sup θ ∈ Θ 0 β ( θ ) = α \sup_{\theta\in \Theta_0}\beta(\theta)=\alpha supθ∈Θ0β(θ)=α,则称为size为 α \alpha α的检验;如果 ≤ α \leq \alpha ≤α,则称为level为 α \alpha α的检验
如果 sup θ ∈ Θ 0 β ( θ ) ≤ inf θ ∈ Θ 1 β ( θ ) \sup_{\theta\in \Theta_0}\beta(\theta)\leq \inf_{\theta\in\Theta_1}\beta(\theta) supθ∈Θ0β(θ)≤infθ∈Θ1β(θ),则称为无偏的检验
定义 λ ( x ) = sup θ ∈ Θ 0 L ( θ ∣ x ) sup θ ∈ Θ L ( θ ∣ x ) = L ( θ 0 ^ ∣ x ) L ( θ ^ ∣ x ) \lambda(x)=\frac{\sup_{\theta\in\Theta_0}L(\theta|x) }{\sup_{\theta\in\Theta}L(\theta|x)}=\frac{L(\hat{\theta_0}|x)}{L(\hat{\theta}|x)} λ(x)=supθ∈ΘL(θ∣x)supθ∈Θ0L(θ∣x)=L(θ^∣x)L(θ0^∣x),当 λ ( x ) ≤ c \lambda(x)\leq c λ(x)≤c时拒绝
注: λ \lambda λ也可考虑直接取关于充分统计量 T T T的函数
优势:最普适的构造方法;可以用来消去讨厌参数(nuisance parameter,即不需要检验但是与分布有关的参数)
渐近性:
假设 x 1 , . . . , x n ∼ i i d f ( x ∣ θ ) x_1,...,x_n\stackrel{iid}\sim f(x|\theta) x1,...,xn∼iidf(x∣θ),则在零假设下, − 2 log λ ( x ) → d χ k 2 , k = dim ( Θ ) − dim ( Θ 0 ) -2\log \lambda(x)\stackrel{d}\rightarrow \chi_k^2, k=\dim(\Theta)-\dim(\Theta_0) −2logλ(x)→dχk2,k=dim(Θ)−dim(Θ0)
从而,如果建立一个检验,在 − 2 log λ ( x ) ≥ χ k , α 2 -2\log \lambda(x)\geq \chi_{k,\alpha}^2 −2logλ(x)≥χk,α2时拒绝,则得到一个渐近level为 α \alpha α的检验
假设 C α C_\alpha Cα是所有level为 α \alpha α的检验的集合,则对任意 β ( ) ∈ C α \beta()\in C_\alpha β()∈Cα, β \beta β是UMP当且仅当任意其它 β ′ ∈ C α \beta'\in C_\alpha β′∈Cα, β ′ ( θ ) ≤ β ( θ ) , ∀ θ ∈ Θ 0 c \beta'(\theta)\leq \beta(\theta),\forall \theta \in \Theta_0^c β′(θ)≤β(θ),∀θ∈Θ0c
判定:
如果 Θ 0 = { θ 0 } , Θ 1 = { θ 1 } \Theta_0=\{\theta_0\},\Theta_1=\{\theta_1\} Θ0={θ0},Θ1={θ1},那么一个具有拒绝区域 R = { x ∣ f ( x ∣ θ 1 ) > k f ( x ∣ θ 0 ) } R=\{x|f(x|\theta_1)>kf(x|\theta_0)\} R={x∣f(x∣θ1)>kf(x∣θ0)},并且 P θ 0 ( x ∈ R ) = α P_{\theta_0}(x\in R)=\alpha Pθ0(x∈R)=α的测试必定是一个UMP检验
如果 Θ 0 = { θ ≤ θ 0 } , Θ 1 = { θ > θ 0 } \Theta_0=\{\theta\leq \theta_0\},\Theta_1=\{\theta>\theta_0\} Θ0={θ≤θ0},Θ1={θ>θ0},并且分布族 P θ P_\theta Pθ是单调的: ∀ θ 1 < θ 2 \forall \theta_1<\theta_2 ∀θ1<θ2, f θ 2 ( x ) f θ 1 ( x ) \frac{f_{\theta_2}(x)}{f_{\theta_1}(x)} fθ1(x)fθ2(x)在区域 { x ∣ f θ 2 ( x ) > 0 或 f θ 1 ( x ) > 0 } \{x|f_{\theta_2}(x)>0 或f_{\theta_1}(x)>0\} {x∣fθ2(x)>0或fθ1(x)>0}上单调不减,那么一个当且仅当 T ( x ) > t 0 T(x)>t_0 T(x)>t0时拒绝的检测是level为 α = P θ 0 ( T > t 0 ) \alpha=P_{\theta_0}(T>t_0) α=Pθ0(T>t0)的UMP检验
注意:
对于离散的分布,UMP可能是离散的
UMP检测不一定存在
p值是一个关于样本的函数 p ( x ) p(x) p(x),表征的是 H 0 H_0 H0为真时观测到至少与当前样本 x x x相同极端的样本的概率。也就是说,如果一个样本的p值为 t t t,则可以断言同类型样本的出现概率为t
一般使用p值都是反过来用,即把要验证的假设当做 H 1 H_1 H1,然后说明样本具有足够小的p值(一般取0.05),从而说明如果 H 0 H_0 H0成立,那么样本会是非常特殊的,从而反过来证明 H 1 H_1 H1很可能成立
依据上面的性质,可以抽象出一个定义:
0 ≤ p ( x ) ≤ 1 , ∀ x 0\leq p(x)\leq1,\forall x 0≤p(x)≤1,∀x. 一个p值是有效的,当且仅当对任意 θ ∈ Θ 0 , ∀ α \theta\in \Theta_0,\forall \alpha θ∈Θ0,∀α, P θ ( x : p ( x ) ≤ α ) ≤ α P_\theta(x:p(x)\leq \alpha)\leq \alpha Pθ(x:p(x)≤α)≤α,也就是说,在 Θ 0 \Theta_0 Θ0中,小的p值一定意味着小的出现概率,进一步意味着 H 1 H_1 H1为真。
构造:考虑构造函数 W ( x ) W(x) W(x):较大的 W W W值意味着 H 1 H_1 H1更可能为真
对任意 x x x,定义 P ( x ) = sup θ ∈ Θ 0 P θ ( W ( X ) ≥ W ( x ) ) P(x)=\sup_{\theta\in\Theta_0} P_\theta (W(X)\geq W(x)) P(x)=supθ∈Θ0Pθ(W(X)≥W(x))即为所求p值
X 1 , . . . , X n ∼ F , Y 1 , . . . , Y m ∼ G X_1,...,X_n\sim F, Y_1,...,Y_m\sim G X1,...,Xn∼F,Y1,...,Ym∼G,现在希望检验 H 0 : F = G , H 1 : F ≠ G H_0:F=G,H_1:F\neq G H0:F=G,H1:F=G
定义 T = ∣ X ‾ n − Y ‾ m ∣ T=|\overline{X}_n-\overline{Y}_m| T=∣Xn−Ym∣,对 X 1 , . . . , Y m X_1,...,Y_m X1,...,Ym做置换,得到 T T T值 T i , i = 1 ∼ N ! T_i,i=1\sim N! Ti,i=1∼N!;并且原本的 T T T值为 T o b s T_{obs} Tobs,那么对于观测X的p值就是 P 0 ( T > T o b s ) = ∑ i 1 ( T i > o b s ) N ! P_0(T>T_{obs})=\frac{\sum_{i} 1({T_i>obs})}{N!} P0(T>Tobs)=N!∑i1(Ti>obs),因为理论上如果两个的分布相同那么p值应该会比较高。
置信区间:对于样本 x x x,和区间 [ L ( x ) , U ( x ) ] [L(x),U(x)] [L(x),U(x)],其置信度为 1 − α = inf θ P θ ( θ ∈ [ L ( x ) , U ( x ) ] ) 1-\alpha=\inf_{\theta}P_\theta(\theta\in[L(x),U(x)]) 1−α=infθPθ(θ∈[L(x),U(x)]),也就是说, θ \theta θ至多只有 α \alpha α的概率不在该区间中
概率不等式:
Hoeffding’s不等式: X i ∈ [ a i , b i ] X_i\in [a_i,b_i] Xi∈[ai,bi] 独立,则 P ( ∣ X ‾ − E X ∣ ≥ t ) ≤ 2 exp { − 2 n 2 t 2 ∑ i ( b i − a i ) 2 } P(|\overline{X}-EX|\geq t)\leq 2\exp \{-\frac{2n^2t^2}{\sum_i(b_i-a_i)^2}\} P(∣X−EX∣≥t)≤2exp{−∑i(bi−ai)22n2t2}
测试取逆
假设可以建立一个level为 α \alpha α的测试,并且定义 C ( x ) = { θ 0 : x ∈ A ( θ 0 ) } C(x)=\{\theta_0:x\in A(\theta_0)\} C(x)={θ0:x∈A(θ0)},则 C ( x ) C(x) C(x)为一个 1 − α 1-\alpha 1−α的置信集合
枢轴方法
Q ( X 1 , . . . , X n , θ ) Q(X_1,...,X_n,\theta) Q(X1,...,Xn,θ)称为一个枢轴,若 Q Q Q与 θ \theta θ独立;则 P θ ( a ≤ Q ( x , θ ) ≤ b ) = 1 − α P_\theta(a\leq Q(x,\theta)\leq b)=1-\alpha Pθ(a≤Q(x,θ)≤b)=1−α(a,b为Q的分布的1-alpha区间端点)
Delta方法(近似)
θ ^ \hat{\theta} θ^为MLE,则由于 n ( γ ( θ ^ ) − γ ( θ 0 ) ) → d N ( 0 , γ ′ ( θ ) 2 I ( θ ) ) \sqrt{n}(\gamma(\hat{\theta})-\gamma(\theta_0))\stackrel{d}\rightarrow N(0,\frac{\gamma'(\theta)^2}{I(\theta)}) n(γ(θ^)−γ(θ0))→dN(0,I(θ)γ′(θ)2),我们知道 γ ( θ 0 ) ± Z 1 − α / 2 ∣ π ′ ( θ ) ∣ / I n ( θ ) \gamma(\theta_0)\pm Z_{1-\alpha/2}|\pi'(\theta)|/\sqrt{I_n(\theta)} γ(θ0)±Z1−α/2∣π′(θ)∣/In(θ)(仔细推一下这个形式)
高维情况: n ( Y n − θ ) → d N p ( 0 , Σ ) \sqrt{n}\left(Y_n-\theta\right) \stackrel{d}{\rightarrow} N_p(0, \Sigma) n(Yn−θ)→dNp(0,Σ); n ( g ( Y n ) − g ( θ ) ) → d N ( 0 , ( ∂ g ( θ ) ∂ θ ) ′ Σ ( ∂ g ( θ ) ∂ θ ) ) \sqrt{n}\left(g\left(Y_n\right)-g(\theta)\right) \stackrel{d}{\rightarrow} N\left(0,\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{\prime} \Sigma\left(\frac{\partial g(\theta)}{\partial \theta}\right)\right) n(g(Yn)−g(θ))→dN(0,(∂θ∂g(θ))′Σ(∂θ∂g(θ)))
Σ \Sigma Σ:协方差矩阵
Score方法(近似)
Q ( X ∣ θ ) = ∂ ∂ θ log L ( θ ∣ X ) − E θ ( ∂ 2 ∂ θ 2 I ( θ ∣ X ) ) → N ( 0 , 1 ) Q(X \mid \theta)=\frac{\frac{\partial}{\partial \theta} \log L(\theta \mid X)}{\sqrt{-E_\theta\left(\frac{\partial^2}{\partial \theta^2} I(\theta \mid X)\right)}}\rightarrow N(0,1) Q(X∣θ)=−Eθ(∂θ2∂2I(θ∣X))∂θ∂logL(θ∣X)→N(0,1),因此集合 { θ : ∣ Q ( x ∣ θ ) ∣ ≤ z α / 2 } \left\{\theta:|Q(x \mid \theta)| \leq z_{\alpha / 2}\right\} {θ:∣Q(x∣θ)∣≤zα/2}置信区间为 1 − α 1-\alpha 1−α
LRT方法(近似)
同理,当 Θ 0 = θ 0 \Theta_0=\theta_0 Θ0=θ0时,LRT的渐进性也可以用来构造置信区间: C n = { θ : L ( θ ) L ( θ ^ ) > e − χ k , 1 − α 2 / 2 } C_n=\left\{\theta: \frac{L(\theta)}{L(\widehat{\theta})}>e^{-\chi_{k, 1-\alpha}^2 / 2}\right\} Cn={θ:L(θ )L(θ)>e−χk,1−α2/2}
最优长度:在所有 1 − α 1-\alpha 1−α的置信区间中,存在某个长度最短的置信区间。这要求 ∫ a b f ( z ) d z = 1 − α \int_a^b f(z)dz=1-\alpha ∫abf(z)dz=1−α,当f单峰时把峰取在其中并且使得两端的函数值相等即可