总结一下数理统计中的基本概念,一些用python的实现在这里。不断持续更新。
1. 几个基本概念
1.1 次序统计量
1.2 样本偏度与样本峰度
1.3 经验分布函数
1.4 抽样分布
2. 统计中的常用分布
2.1 卡方分布
2.2 t 分布
2.3 F分布
3. 指数型分布族(和广义线性模型有关)
4. 点估计
4.1 极大似然估计
5. 区间估计
5.1 几个基本概念
6. 假设检验——显著性检验
6.1 几个基本概念
6.2 求取某假设的显著性检验的步骤
6.3 似然比检验
6.4 p值
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn为样本,把 X 1 , X 2 , … , X n X_1, X_2, …, X_n X1,X2,…,Xn由小到大排列成 X ( 1 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le\cdots\le X_{(n)} X(1)≤⋯≤X(n),则称 ( X ( 1 ) , ⋯ , X ( n ) ) (X_{(1)}, \cdots, X_{(n)}) (X(1),⋯,X(n))为次序统计量, X ( i ) X_{(i)} X(i)则成为第 i i i个次序统计量。
样本 p p p分位数:对于给定的 p ∈ ( 0 , 1 ) p \in (0, 1) p∈(0,1),我们称: m n , p = X ( [ n p ] ) + ( n + 1 ) ( p − [ n p ] n + 1 ) ( X ( [ n p ] + 1 ) − X ( [ n p ] ) ) (1) m_n,_p=X_{([np])}+(n+1)(p-\frac{[np]}{n+1})(X_{([np]+1)}-X_{([np])}) \tag1 mn,p=X([np])+(n+1)(p−n+1[np])(X([np]+1)−X([np]))(1)为此样本的 p p p分位数. 特别的,样本中位数定义为: X m e d = { X ( n + 1 2 ) n 为 奇 数 X ( n 2 ) + X ( n 2 + 1 ) 2 n 为 偶 数 (2) X_{med} =\begin{cases}X_{(\frac{n+1}{2})}&n为奇数\\\\\frac{X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}}{2}&n为偶数\end{cases}\tag2 Xmed=⎩⎪⎨⎪⎧X(2n+1)2X(2n)+X(2n+1)n为奇数n为偶数(2)
极值统计量:称 X ( 1 ) X_{(1)} X(1)和 X ( n ) X_{(n)} X(n)为极小值和极大值统计量.
极差: R = X ( n ) − X ( 1 ) R=X_{(n)}-X_{(1)} R=X(n)−X(1)
设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为取自总体的分布函数为 F ( x ) F(x) F(x)的样本, X ( 1 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le\cdots\le X_{(n)} X(1)≤⋯≤X(n)为其次序统计量,则称: F n ( x ) = 1 n ∑ i = 1 n I { X i < x } = { 0 x ≤ X ( 1 ) k n X ( k ) < x ≤ X ( k + 1 ) , k = 1 , ⋯ , n − 1 1 x > X ( n ) (3) F_n(x)=\frac{1}{n}\sum\limits_{i=1}^nI_{\{X_i\lt x\}}=\begin{cases}0 &x\le X_{(1)}\\\frac{k}{n} &X_{(k)}\lt x\le X_{(k+1)}, k=1, \cdots , n-1\\1 &x\gt X_{(n)}\end{cases}\tag3 Fn(x)=n1i=1∑nI{Xi<x}=⎩⎪⎨⎪⎧0nk1x≤X(1)X(k)<x≤X(k+1),k=1,⋯,n−1x>X(n)(3)为样本 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn的经验分布函数。
统计量是作为随机变量的样本的函数,故它也有概率分布,于是我们称统计量的概率分布为该统计量的抽样分布。
设 X 1 , ⋯ , X n ∼ N ( 0 , 1 ) X_1, \cdots, X_n\sim N(0, 1) X1,⋯,Xn∼N(0,1)且是独立同分布的,则称随机变量 ξ = ∑ i = 1 n X i 2 (4) \xi =\sum\limits_{i=1}^nX_i^2\tag4 ξ=i=1∑nXi2(4)所服从的分布为自由度为 n n n的 χ 2 \chi^2 χ2分布,也称 ξ \xi ξ为自由度为 n n n的 χ 2 \chi^2 χ2随机变量,并记为 ξ ∼ χ 2 ( n ) \xi\sim\chi^2(n) ξ∼χ2(n).
1.随着 n n n的增大,它的对称性越来越好,峰度越来越小
2.随着 n n n的增大,其图形越来越像正态分布的概率密度函数
3.随着 n n n的增大,它的图形越来越向右移动,且尾部越来越大
证明:
令 A \bm A A为如下的正交矩阵: [ 1 n 1 n 1 n 1 n ⋯ 1 n 1 n 1 2 − 1 2 0 0 ⋯ 0 0 1 2 × 3 1 2 × 3 − 2 2 × 3 0 ⋯ 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1 ( n − 1 ) × n 1 ( n − 1 ) × n 1 ( n − 1 ) × n 1 ( n − 1 ) × n ⋯ 1 ( n − 1 ) × n − n − 1 ( n − 1 ) × n ] \begin{bmatrix} \frac{1}{\sqrt n} & \frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\cdots &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} &0 & 0 & \cdots & 0 & 0\\ \frac{1}{\sqrt {2\times3}} & \frac{1}{\sqrt {2\times3}} &-\frac{2}{\sqrt {2\times3}} & 0 & \cdots & 0 & 0\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ \frac{1}{\sqrt {(n-1)\times n}} & \frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} & \cdots & \frac{1}{\sqrt {(n-1)\times n}} & -\frac{n-1}{\sqrt {(n-1)\times n}}\\ \end{bmatrix} ⎣⎢⎢⎢⎢⎢⎢⎡n1212×31⋮(n−1)×n1n1−212×31⋮(n−1)×n1n10−2×32⋮(n−1)×n1n100⋮(n−1)×n1⋯⋯⋯⋮⋯n100⋮(n−1)×n1n100⋮−(n−1)×nn−1⎦⎥⎥⎥⎥⎥⎥⎤
做如下的正交变换: [ Y 1 ⋮ Y n ] = A [ X 1 ⋮ X n ] \begin{bmatrix} Y_1\\ \vdots\\ Y_n \end{bmatrix}=A\begin{bmatrix} X_1\\ \vdots\\ X_n \end{bmatrix} ⎣⎢⎡Y1⋮Yn⎦⎥⎤=A⎣⎢⎡X1⋮Xn⎦⎥⎤
则有: Y 1 = 1 n ∑ i = 1 n X i = n X ˉ Y_1=\frac{1}{\sqrt n}\sum_{i=1}^nX_i=\sqrt n\bar X Y1=n1i=1∑nXi=nXˉ
∑ i = 1 n Y i 2 = ∑ i = 1 n X i 2 = ∑ i = 1 n ( X i − X ˉ ) 2 + n X ˉ 2 \sum_{i=1}^nY_i^2=\sum_{i=1}^nX_i^2=\sum_{i=1}^n(X_i-\bar X)^2+n\bar X^2 i=1∑nYi2=i=1∑nXi2=i=1∑n(Xi−Xˉ)2+nXˉ2
所以 ( n − 1 ) S n 2 = ∑ i = 1 n ( X i − X ˉ ) 2 = ∑ i = 1 n Y i 2 − n X ˉ 2 = ∑ i = 2 n Y i 2 (n-1)S_n^2=\sum_{i=1}^n(X_i-\bar X)^2=\sum_{i=1}^nY_i^2-n\bar X^2=\sum_{i=2}^nY_i^2 (n−1)Sn2=i=1∑n(Xi−Xˉ)2=i=1∑nYi2−nXˉ2=i=2∑nYi2
而 Y i Y_i Yi是相互独立的正态随机变量,且 E Y 1 = n μ , E Y k = 0 ( k ≥ 2 ) , V a r Y k = σ 2 ( k = 1 ⋯ n ) EY_1=\sqrt n\mu, EY_k=0(k\ge2), Var Y_k=\sigma^2(k=1\cdots n) EY1=nμ,EYk=0(k≥2),VarYk=σ2(k=1⋯n)
所以 Y 1 Y_1 Y1与 ( n − 1 ) S n 2 (n-1)S_n^2 (n−1)Sn2独立,即 X ˉ \bar X Xˉ与 ( n − 1 ) S n 2 (n-1)S_n^2 (n−1)Sn2独立,且 X ˉ ∼ N ( μ , σ 2 n ) , ( n − 1 ) S n 2 / σ 2 ∼ χ 2 ( n − 1 ) \bar{X}\sim N(\mu, \frac{\sigma^2}{n}), (n-1)S_n^2/\sigma^2\sim\chi^2(n-1) Xˉ∼N(μ,nσ2),(n−1)Sn2/σ2∼χ2(n−1)
设 ξ ∼ N ( 0 , 1 ) , η ∼ χ 2 ( n ) \xi\sim N(0 ,1), \eta\sim\chi^2(n) ξ∼N(0,1),η∼χ2(n),且 ξ , η \xi, \eta ξ,η相互独立,则称随机变量 T = ξ η / n (9) T=\frac{\xi}{\sqrt{\eta/n}}\tag9 T=η/nξ(9)所服从的分布为 t t t分布, n n n为其自由度,且记为 T ∼ t ( n ) T\sim t(n) T∼t(n).
1. t ( n ) t(n) t(n)的PDF关于 y y y轴对称,且 lim ∣ x ∣ → ∞ f ( x ) = 0 \lim\limits_{|x|\to\infty}f(x)=0 ∣x∣→∞limf(x)=0
2.随着 n n n的增大,其峰度越来越高,尾部越来越小
3.当 n n n很大时, t t t分布的PDF接近于标准正态分布的PDF
4.当 n = 1 n=1 n=1时,它是Cauchy分布,故此时期望不存在
设 ξ , μ \xi, \mu ξ,μ是自由度分别为 m , n m, n m,n的独立的 χ 2 \chi^2 χ2随机变量,则称随机变量 F = ξ / m η / n (12) F=\frac{\xi/m}{\eta/n}\tag{12} F=η/nξ/m(12)所服从的分布为 F F F分布,其自由度为 ( m , n ) (m, n) (m,n),且记为 F ∼ F ( m , n ) F\sim F(m, n) F∼F(m,n).
1.设 ξ ∼ χ 2 ( m ) , η ∼ χ 2 ( n ) \xi\sim\chi^2(m), \eta\sim\chi^2(n) ξ∼χ2(m),η∼χ2(n),且 ξ \xi ξ与 η \eta η相互独立,则 Y = ξ + η Y=\xi+\eta Y=ξ+η与 Z = ξ / η Z=\xi/\eta Z=ξ/η相互独立
2.设随机变量 X ∼ F ( m , n ) X\sim F(m, n) X∼F(m,n),则 1 X ∼ F ( n , m ) \frac{1}{X}\sim F(n, m) X1∼F(n,m)
P D F PDF PDF: f ( x ; m , n ) = { 0 , x < 0 Γ ( ( m + n ) / 2 ) Γ ( m / 2 ) Γ ( n / 2 ) ( m n ) ( m x n ) m / 2 − 1 ( 1 + m x n ) − ( m + n ) / 2 , x > 0 (13) f(x;m, n)=\begin{cases}0, &x\lt0 \\ \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)}(\frac{m}{n})(\frac{mx}{n})^{m/2-1}(1+\frac{mx}{n})^{-(m+n)/2}, &x\gt0\end{cases}\tag{13} f(x;m,n)={0,Γ(m/2)Γ(n/2)Γ((m+n)/2)(nm)(nmx)m/2−1(1+nmx)−(m+n)/2,x<0x>0(13)
期望: E ξ = n n − 2 , n > 2 E\xi=\frac{n}{n-2}, n\gt2 Eξ=n−2n,n>2
方差: V a r ξ = n 2 ( 2 m + 2 n − 4 ) m ( n − 2 ) 2 ( n − 4 ) , n > 4 Var\xi=\frac{n^2(2m+2n-4)}{m(n-2)^2(n-4)}, n\gt4 Varξ=m(n−2)2(n−4)n2(2m+2n−4),n>4
★★ 很重要的一个定理:设 X 1 , ⋯ , X m ∼ N ( μ 1 , σ 1 2 ) X_1, \cdots, X_m\sim N(\mu_1, \sigma_1^2) X1,⋯,Xm∼N(μ1,σ12)且独立同分布, Y 1 , ⋯ , Y n ∼ N ( μ 2 , σ 2 2 ) Y_1, \cdots, Y_n\sim N(\mu_2, \sigma_2^2) Y1,⋯,Yn∼N(μ2,σ22)且独立同分布,且两组样本独立,则 F = S 1 m 2 / σ 1 2 S 2 n 2 / σ 2 2 ∼ F ( m − 1 , n − 1 ) (14) F=\frac{S_{1m}^2/\sigma_1^2}{S_{2n}^2/\sigma_2^2}\sim F(m-1, n-1)\tag{14} F=S2n2/σ22S1m2/σ12∼F(m−1,n−1)(14)其中, S 1 m 2 = 1 m − 1 ∑ i = 1 m ( X i − X ˉ ) 2 S_{1m}^2=\frac{1}{m-1}\sum\limits_{i=1}^{m}(X_i-\bar{X})^2 S1m2=m−11i=1∑m(Xi−Xˉ)2, S 2 n 2 = 1 n − 1 ∑ i = 1 n ( Y i − Y ˉ ) 2 S_{2n}^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2 S2n2=n−11i=1∑n(Yi−Yˉ)2,特别的,如果 σ 1 = σ 2 \sigma_1=\sigma_2 σ1=σ2,则 F = S 1 m 2 S 2 n 2 ∼ F ( m − 1 , n − 1 ) F=\frac{S_{1m}^2}{S_{2n}^2}\sim F(m-1, n-1) F=S2n2S1m2∼F(m−1,n−1).
综合 2.2 2.2 2.2和 2.3 2.3 2.3,可有如下定理:
设 X 1 , ⋯ , X m ∼ N ( μ 1 , σ 2 ) X_1, \cdots, X_m\sim N(\mu_1, \sigma^2) X1,⋯,Xm∼N(μ1,σ2)且独立同分布, Y 1 , ⋯ , Y n ∼ N ( μ 2 , σ 2 ) Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2) Y1,⋯,Yn∼N(μ2,σ2)且独立同分布,且全样本独立,则 T = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) ( m − 1 ) S 1 m 2 + ( n − 1 ) S 2 n 2 m n ( m + n − 2 ) m + n ∼ t ( m + n − 2 ) T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{(m-1)S^2_{1m}+(n-1)S^2_{2n}}}\sqrt{\frac{mn(m+n-2)}{m+n}}\sim t(m+n-2) T=(m−1)S1m2+(n−1)S2n2(Xˉ−Yˉ)−(μ1−μ2)m+nmn(m+n−2)∼t(m+n−2)
证明:
由 X 1 , ⋯ , X m ∼ N ( μ 1 , σ 2 ) X_1, \cdots, X_m\sim N(\mu_1, \sigma^2) X1,⋯,Xm∼N(μ1,σ2)且独立同分布, Y 1 , ⋯ , Y n ∼ N ( μ 2 , σ 2 ) Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2) Y1,⋯,Yn∼N(μ2,σ2)且独立同分布,且全样本独立可知, ( m − 1 ) S 1 m 2 + ( n − 1 ) S 2 n 2 σ 2 ∼ χ 2 ( m + n − 2 ) (*) \frac{(m-1)S_{1m}^2+(n-1)S_{2n}^2}{\sigma^2}\sim \chi^2(m+n-2)\tag{*} σ2(m−1)S1m2+(n−1)S2n2∼χ2(m+n−2)(*)
而 X ˉ ∼ N ( μ 1 , 1 m σ 2 ) \bar X\sim N(\mu_1, \frac{1}{m}\sigma^2) Xˉ∼N(μ1,m1σ2), Y ˉ ∼ N ( μ 2 , 1 n σ 2 ) \bar Y\sim N(\mu_2, \frac{1}{n}\sigma^2) Yˉ∼N(μ2,n1σ2),所以 X ˉ − μ 1 ∼ N ( 0 , 1 m σ 2 ) \bar X-\mu_1\sim N(0, \frac{1}{m}\sigma^2) Xˉ−μ1∼N(0,m1σ2) Y ˉ − μ 2 ∼ N ( 0 , 1 n σ 2 ) \bar Y-\mu_2\sim N(0, \frac{1}{n}\sigma^2) Yˉ−μ2∼N(0,n1σ2)
所以 ( X ˉ − μ 1 ) − ( Y ˉ − μ 2 ) = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) ∼ N ( 0 , 1 m σ 2 + 1 n σ 2 ) (\bar X-\mu_1)-(\bar Y-\mu_2)=(\bar X-\bar Y)-(\mu_1-\mu_2)\sim N(0,\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2) (Xˉ−μ1)−(Yˉ−μ2)=(Xˉ−Yˉ)−(μ1−μ2)∼N(0,m1σ2+n1σ2)
所以 ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) 1 m σ 2 + 1 n σ 2 ∼ N ( 0 , 1 ) (**) \frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2}}\sim N(0, 1)\tag{**} m1σ2+n1σ2(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)(**)
结合 ∗ * ∗式和 ∗ ∗ ** ∗∗式即可证明
设 F = { f ( x , θ ) : θ ∈ Θ } \mathcal{F}=\{f(x,\theta):\theta \in \Theta\} F={f(x,θ):θ∈Θ}是某参数分布族,如果 f ( x , θ ) f(x,\theta) f(x,θ)可以表示成 f ( x , θ ) = c ( θ ) e x p ( ∑ i = 1 k c i ( θ ) T i ( x ) ) h ( x ) (15) f(x,\theta)=c(\theta)exp(\sum\limits_{i=1}^{k}{c_i(\theta)T_{i}(x)})h(x)\tag{15} f(x,θ)=c(θ)exp(i=1∑kci(θ)Ti(x))h(x)(15)则称此分布族为指数型分布族,其中 k k k为正整数, c ( θ ) > 0 , h ( x ) > 0 c(\theta)\gt0, h(x)\gt0 c(θ)>0,h(x)>0.
详见贝叶斯可信区间与置信区间
详见:假设检验中p值的理解
参考:《数理统计教程》,王兆军,邹长亮 编著