数理统计知识点备注

【参考资料】
【1】《概率论和梳理统计》

备注: 近期发现参数估计、假设检验相关点还是记不清,抽一点时间根据课本复习一下。

1 总体与样本

定义: 若随机变量 X 1 , X 2 , … , X 3 X_1, X_2, \dots , X_3 X1,X2,,X3相互独立,且每一个 X i X_i Xi与X具有相同的分布,则n维随机变量 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)为来自X的样本。它的观测值 ( x 1 , x 2 , … , x n ) (x_1, x_2, \dots, x_n) (x1,x2,,xn)样本观测值, n为样本容量 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)能取值的全部集合称为样本空间,其观测值为空间中的一个点。

若总体X是连续随机变量,其概率密度函数为f(X),那么 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)的联合概率密度为:
f ∗ ( x 1 , x 2 , … , x n ) = ∏ i = 1 n f ( x i ) f^*(x_1, x_2, \dots , x_n) = \prod\limits_{i=1}^{n}f(x_i) f(x1,x2,,xn)=i=1nf(xi)

备注:这里就是把n次样本的观察作为一组随机变量来考虑,等价于多维随机变量的联合概率分布。只是彼此完全无关,因此不需要由边缘概率密度相乘,而是直接概率密度相乘。

统计量

样本均值: x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \dfrac{1}{n}\sum\limits_{i=1}^{n}x_i xˉ=n1i=1nxi

样本方差: S n 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 S_n^2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^2 Sn2=n1i=1n(XiXˉ)2

k阶原点矩: A k = 1 n ∑ i = 1 n X i k A_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^k Ak=n1i=1nXik

k阶中心矩: B k = 1 n ∑ i = 1 n ( X i − X ˉ ) k B_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^k Bk=n1i=1n(XiXˉ)k

2 抽样分布
总体正态分布的线性函数

定理: 设总体符合正态分布 N ( u , σ 2 ) N(u, \sigma^2) N(u,σ2) ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)为来自此总体的样本,那么统计量 Y = ∑ i = 1 n a i X i Y=\sum\limits_{i=1}^{n}a_i X_i Y=i=1naiXi也符合正态分布,即 Y ∼ N ( u ∑ i = 1 n a i , σ 2 ∑ i = 1 n a i 2 ) Y \sim N(u \sum\limits_{i=1}^{n}a_i \quad , \quad \sigma^2 \sum\limits_{i=1}^{n}a_i^2) YN(ui=1nai,σ2i=1nai2)

卡方分布( χ 2 \chi^2 χ2分布)

定义: 设随机变量 X 1 , X 2 , … , X n X_1, X_2, \dots , X_n X1,X2,,Xn相互独立,且服从标准正态分布N(0,1),则称 χ 2 = ∑ i = 1 n X i 2 \chi^2 = \sum\limits_{i=1}^{n}X_i^2 χ2=i=1nXi2为服从自由度n的 χ \chi χ分布,记作 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2χ2(n)

性质1: E ( χ 2 ) = n E(\chi^2)=n E(χ2)=n 以及 D ( χ 2 ) = 2 n D(\chi^2)=2n D(χ2)=2n
性质2: 若 χ 1 2 ∼ χ 2 ( n ) \chi^2_1 \sim \chi^2(n) χ12χ2(n) χ 2 2 ∼ χ 2 ( m ) \chi^2_2 \sim \chi^2(m) χ22χ2(m),两者相互独立,有 χ 1 2 + χ 2 2 ∼ χ 2 ( n + m ) \chi_1^2 + \chi_2^2 \sim \chi^2(n+m) χ12+χ22χ2(n+m)

t分布

定义: 设随机变量 X ∼ N ( 0 , 1 ) X \sim N(0,1) XN(0,1) Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Yχ2(n)且X、Y相互独立,称随机变量 T = X Y / n T=\dfrac{X}{\sqrt{Y/n}} T=Y/n X为自由度为n的t分布,记作 T ∼ t ( n ) T \sim t(n) Tt(n)

性质1: E(T)=0,以及 D ( T ) = n n − 2 D(T)=\dfrac{n}{n-2} D(T)=n2n
性质2: 当 n → ∞ n \to \infty n时,其概率密度函数无限趋近与标准正态分布,即 ϕ ( x ) = 1 2 π e x 2 / 2 \phi(x) = \dfrac{1}{\sqrt{2 \pi}}e^{x^2/2} ϕ(x)=2π 1ex2/2

F分布

定义: 设 X ∼ χ 2 ( m ) X \sim \chi^2(m) Xχ2(m) Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Yχ2(n),X和Y相互独立,则称随机变量 F = X / m Y / n F=\dfrac{X/m}{Y/n} F=Y/nX/m为服从第一自由度为m、第二自由度为n的F分布,记作 F ∼ F ( m , n ) F \sim F(m,n) FF(m,n)

性质1: E ( F ) = n n − 2 E(F)=\dfrac{n}{n-2} E(F)=n2n,以及 D ( F ) = n 2 ( 2 m + 2 n − 4 ) m ( n − 2 ) 2 ( n − 4 ) D(F)=\dfrac{n^2(2m+2n-4)}{m(n-2)^2(n-4)} D(F)=m(n2)2(n4)n2(2m+2n4)
性质2: 若 F ∼ F ( m , n ) F \sim F(m,n) FF(m,n),则 1 F ∼ F ( n , m ) \dfrac{1}{F} \sim F(n, m) F1F(n,m)
性质3: 设 F ∼ F ( 1 , n ) F \sim F(1, n) FF(1,n), T ∼ t ( n ) T \sim t(n) Tt(n),则 F = T 2 F = T^2 F=T2

3 参数的点估计

实际问题中总体分布已经知道,但该分布的一些具体参数未知,解决这类问题我们称之为参数估计。其中利用已有样本的某种函数得到的数值来估计总体样本的参数,叫做“点估计”。

矩估计法

利用统计量的值求解未知参数,举例如下:

求解:总体符合[a, b]的均匀分布,有样本 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn),求解a、b两个未知参数。

第一步: 列出矩估计等式
{ u 1 = E ( X ) = a + b 2 v 2 = D ( X ) = ( b − a ) 2 12 \begin{cases} u_1 = E(X) = \dfrac{a+b}{2} \\ v_2 = D(X) = \dfrac{(b-a)^2}{12} \end{cases} u1=E(X)=2a+bv2=D(X)=12(ba)2
第二步: 求解方程组,得到
{ a = u 1 + 3 v 2 b = u 1 − 3 v 2 \begin{cases} a = u_1 + \sqrt{3 v_2} \\ b = u_1 - \sqrt{3 v_2} \end{cases} {a=u1+3v2 b=u13v2
第三步: 将 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)的矩估计值带入 u 1 v 2 u_1 \quad v_2 u1v2得到a和b的解

极大似然估计法

设存在未知参数 θ \theta θ的总体X概率分布密度为 f ( x ; θ ) f(x;\theta) f(x;θ),则样本的似然函数是 L ( θ ) = L ( x 1 , x 2 , … , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta) L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)

极大似然估计法的思路就是认为该参数能够得到似然函数的最大值,即有最大的概率存在。举例:

求解:总体的分布密度函数为

f ( x i ; k ) = { ( k + 2 ) x k + 1 0 < x < 1 0 o t h e r f(x_i;k)= \begin{cases} (k+2)x^{k+1} & 0 < x < 1 \\ 0 & other \end{cases} f(xi;k)={(k+2)xk+100<x<1other
有样本 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn) ,求未知参数k。

第一步: 构造似然函数
L ( k ) = ∏ i = 1 n ( k + 2 ) x i k + 1 L(k)=\prod\limits_{i=1}^{n}(k+2)x_i^{k+1} L(k)=i=1n(k+2)xik+1

第二步: 两边取ln,并通过对k的导数求极值
l n ( L ( k ) ) = n l n ( k + 2 ) + ( k + 1 ) ∑ i = 1 n l n x i ln(L(k))=n ln(k+2) + (k + 1) \sum\limits_{i=1}^{n}ln x_i ln(L(k))=nln(k+2)+(k+1)i=1nlnxi

∂ l n ( L ( k ) ) ∂ k = n k + 2 + ∑ i = 1 n l n x i = 0 \dfrac{\partial ln(L(k))}{\partial k} = \dfrac{n}{k+2} + \sum\limits_{i=1}^{n}ln x_i = 0 kln(L(k))=k+2n+i=1nlnxi=0
k = − 2 − n ∑ i = 1 n l n x i k = -2- \dfrac{n}{\sum\limits_{i=1}^{n}ln x_i} k=2i=1nlnxin

第三步: 由其二阶导数小于0,可以此时k是极大似然估计得到的参数。备注:这个值与矩估计得到的结果不一样!!

3 参数的区间估计

定义: 设 θ \theta θ是总体的未知参数, ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)是总体的样本,若给定常数a(0 < a < 1),可以确定两个统计量 θ ‾ = θ ‾ ( X 1 , X 2 , … , X n ) \underline{\theta}=\underline{\theta}(X_1, X_2, \dots , X_n) θ=θ(X1,X2,,Xn) θ ˉ = θ ˉ ( X 1 , X 2 , … , X n ) \bar{\theta}=\bar{\theta}(X_1, X_2, \dots , X_n) θˉ=θˉ(X1,X2,,Xn)使得 P ( θ ‾ < θ < θ ˉ ) < 1 − a P(\underline{\theta} < \theta < \bar{\theta}) < 1-a P(θ<θ<θˉ)<1a称随机区间 [ θ ‾ , θ ˉ ] [\underline{\theta}, \bar{\theta}] [θ,θˉ]为参数 θ \theta θ的1-a置信区间或区间估计。1-a为置信度

举例(重要):

++备注:此处为 σ 2 \sigma^2 σ2已知,求u的置信区间 的例子++

有总体分布 X ∼ N ( u , 4 ) X \sim N(u, 4) XN(u,4),均值u未知,已知X一组容量为n=25的样本均值 x ˉ = 7.50 \bar{x}=7.50 xˉ=7.50,求这个样本均值置信度为1-a = 0.95的置信区间。

第一步:构造一个新的样本函数,使得新的样本函数不依赖参数
U = X ˉ − u σ n ∼ N ( 0 , 1 ) U = \dfrac{\bar{X}-u}{\sigma}\sqrt{n} \sim N(0, 1) U=σXˉun N(0,1)

第二步: 依据标准正态分布的双侧分位数,得到
P ( ∣ X ˉ − u σ n ∣ < u a / 2 ) = 1 − a P(|\dfrac{\bar{X}-u}{\sigma}\sqrt{n}| < u_{a/2})=1-a P(σXˉun <ua/2)=1a

第三步:根据上式得到u的1-a置信区间为
( X ˉ − σ n u a / 2 , X ˉ + σ n u a / 2 ) (\bar{X} - \dfrac{\sigma}{\sqrt{n}}u_{a/2}, \bar{X} + \dfrac{\sigma}{\sqrt{n}}u_{a/2}) (Xˉn σua/2,Xˉ+n σua/2)

第四步:通过查表可以知道 u 0.025 = 1.96 u_{0.025}=1.96 u0.025=1.96,带入后即可得到区间值

单正态分布区间估计 – σ 2 \sigma^2 σ2已知,求u的置信区间

构造: U = X ˉ − u σ n ∼ N ( 0 , 1 ) U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1) U=σXˉun N(0,1)

单正态分布区间估计 – σ 2 \sigma^2 σ2未知,求u的置信区间

构造: T = X ˉ − u S n ∼ t ( n − 1 ) T=\dfrac{\bar{X} - u}{S}\sqrt{n} \sim t(n-1) T=SXˉun t(n1)
其中 S 2 S^2 S2 σ 2 \sigma^2 σ2的无偏估计值

单正态分布区间估计 – u已知,求 σ 2 \sigma^2 σ2的置信区间

构造: χ 2 = 1 σ 2 ∑ i = 1 n ( X i − u ) 2 ∼ χ 2 ( X ) \chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 \sim \chi^2(X) χ2=σ21i=1n(Xiu)2χ2(X)

单正态分布区间估计 – u未知,求 σ 2 \sigma^2 σ2的置信区间

构造: χ 2 = 1 σ 2 ∑ i = 1 n ( X i − u ) 2 = n S n 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 = \dfrac{nS_n^2}{\sigma^2} \sim \chi^2(n - 1) χ2=σ21i=1n(Xiu)2=σ2nSn2χ2(n1)

4 假设检验
总体均值u的假设检验 – σ 2 \sigma^2 σ2已知,求u的置信区间

( X 1 , X 2 , … , X n ) (X_1, X_2, \dots , X_n) (X1,X2,,Xn)为取自总体X的一个样本,样本均值为 X ˉ \bar{X} Xˉ, u 0 u_0 u0为已知常数。

第一步:确定假设
检验原假设 H 0 : u = u 0 H_0 : u = u_0 H0:u=u0,备择假设 H 1 : u ≠ u 0 H_1: u \ne u_0 H1:u=u0

第二步: 选择检验统计量
U = X ˉ − u σ n ∼ N ( 0 , 1 ) U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1) U=σXˉun N(0,1)

第三步:判断拒绝域
数理统计知识点备注_第1张图片

备注:上图印刷不清楚,中间应该是1-a,其中a是显著性水平,诸如0.05

P ( ∣ U ∣ ≥ u a / 2 ) = a P(|U| \ge u_{a/2} ) = a P(Uua/2)=a得到 ∣ u ∣ = ∣ x ˉ − u 0 σ / n ∣ ≥ u a / 2 |u| = |\dfrac{\bar{x} - u_0}{\sigma/\sqrt{n}}| \ge u_{a/2} u=σ/n xˉu0ua/2

备注:上面式子有口语表述即,若随机变量U大于或小于 u a / 2 u_{a/2} ua/2那么它的概率将小于a,即可以被拒绝。

第四步:通过查找标准正态分布表获取 u a / 2 u_{a/2} ua/2的值,并判断当前的样本均值带入U后是否符合拒绝域。

你可能感兴趣的:(数学)