概率论与数理统计复习总结,仅供笔者复习使用,参考教材:
概率论与数理统计实际上是两个互补的分支:概率论 在 已知随机变量及其概率分布 的基础上去描述随机现象的统计规律、挖掘随机变量的数字特征与数学性质、计算随机事件的发生概率;数理统计 则是通过随机现象来研究其统计规律性,即通过收集、整理和分析随机变量的观测数据,对随机变量的性质和特征做出合理的推断或预测。
本文主要内容为:数理统计1;
概率论 部分见 概率论与数理统计复习总结1;
数理统计1 部分见 概率论与数理统计复习总结2;
数理统计2 部分见 概率论与数理统计复习总结3;
数理统计通过研究如何有效地收集、整理和分析随机变量的观测数据,以对随机变量的性质h额特征做出合理的推断或预测。
在总体所构成的取值集合中,不同数据出现的可能性不同。因此总体本质上是一个概率分布,其数量属性就是服从此概率分布的随机变量。
连续型随机变量的联合密度函数为
f ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n f X i ( x i ) = ∏ i = 1 n f ( x i ) f(x_1, x_2, \cdots , x_n) = \prod_{i=1}^n f_{X_i}(x_i) = \prod_{i=1}^n f(x_i) f(x1,x2,⋯,xn)=i=1∏nfXi(xi)=i=1∏nf(xi)
离散型随机变量的联合分布律为
P { X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n } = ∏ i = 1 n P ( X i = x i ) = ∏ i = 1 n P ( X = x i ) P\{ X_1 = x_1, X_2 = x_2, \cdots,X_n = x_n\} = \prod_{i=1}^n P(X_i = x_i) = \prod_{i=1}^n P(X = x_i) P{X1=x1,X2=x2,⋯,Xn=xn}=i=1∏nP(Xi=xi)=i=1∏nP(X=xi)
经验分布函数在 x ( k ) ⩽ x < x ( k + 1 ) x_{(k)} \leqslant x
x(k)⩽x<x(k+1) 时取 k n \frac{k}{n} nk 看似是均匀分布,但是 x ( k ) x_{(k)} x(k) 和 x ( k + 1 ) x_{(k+1)} x(k+1) 之间并不等距,因此 X X X 并不是均匀分布的。显然 F n ( x ) F_n(x) Fn(x) 是 x x x 的单调不减函数,且满足:
(1) 0 ⩽ F n ( x ) ⩽ 1 , x ∈ R 0 \leqslant F_n(x) \leqslant 1, x \in \mathbf{R} 0⩽Fn(x)⩽1,x∈R;
(2) F n ( + ∞ ) = 1 , F n ( − ∞ ) = 0 F_n(+\infty)=1, F_n(-\infty)=0 Fn(+∞)=1,Fn(−∞)=0;
(3) F n ( x + 0 ) = F n ( x ) , x ∈ R F_n(x+0)=F_n(x), x \in \mathbf{R} Fn(x+0)=Fn(x),x∈R;
其实经验分布函数就是一个用样本观测值构造的、用于估计理论分布 F ( x ) F(x) F(x) 的分布函数,它是一个不含未知参数的只关于当前样本的函数。
样本来自总体,样本值中包含了总体各方面的信息。但这些信息较为分散,甚至杂乱无章。为了将这些分散在样本中的有关总体的信息挖掘出来用于对总体进行推断,需要对样本信息进行加工处理。最常见的加工方法是针对不同的问题,构造不同的样本的函数来反映总体不同的特征,样本的函数通常被称为统计量。
统计量:设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 是来自总体 X X X 的样本,若关于样本的函数 T ( x 1 , x 2 , ⋯ , x n ) T(x_1, x_2, \cdots, x_n) T(x1,x2,⋯,xn) 中不含任何未知参数,则称 T T T 为统计量;
样本矩统计量:设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 是来自总体 X X X 的样本,常见的样本矩统计量如下;
显然,样本 k k k 阶原点矩和样本均值、样本 k k k 阶中心矩和样本方差也有以下等式关系:
M 1 = X ˉ , S 2 = n n − 1 M 2 ∗ , M 2 ∗ = 1 n ∑ i = 1 n X i 2 − X ˉ 2 M_1=\bar{X}, \quad S^2=\frac{n}{n-1} M_2^*, \quad M_2^*=\frac{1}{n} \sum_{i=1}^n X_i^2-\bar{X}^2 M1=Xˉ,S2=n−1nM2∗,M2∗=n1i=1∑nXi2−Xˉ2
样本矩统计量都是样本的函数,只与当前这一组样本 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 有关,与总体 X X X 无关。但当样本组合的数量不断增多趋于无穷,即取无数组样本 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 时,样本矩统计量会呈现出与总体 X X X 相关的统计规律:
E X ˉ = E X , D X ˉ = 1 n D X , E M 2 ∗ = n − 1 n D X , E S 2 = D X E\bar{X}=EX, \quad D\bar{X}=\frac{1}{n} DX, \quad EM_2^*=\frac{n-1}{n} DX, \quad ES^2=DX EXˉ=EX,DXˉ=n1DX,EM2∗=nn−1DX,ES2=DX
除此之外,还有以下性质:
(1) ∑ i = 1 n ( X i − X ˉ ) = 0 \sum_{i=1}^n(X_i-\bar{X})=0 ∑i=1n(Xi−Xˉ)=0;
(2)当 n → + ∞ n \rightarrow+\infty n→+∞ 时, X ˉ ⟶ P E X \bar{X} \stackrel{P}{\longrightarrow} EX Xˉ⟶PEX;
(3)对任意实数 x x x,有 ∑ i = 1 n ( X i − X ˉ ) 2 ⩽ ∑ i = 1 n ( X i − x ) 2 \sum_{i=1}^n(X_i-\bar{X})^2 \leqslant \sum_{i=1}^n(X_i-x)^2 ∑i=1n(Xi−Xˉ)2⩽∑i=1n(Xi−x)2;
顺序统计量:设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 是来自总体 X X X 的样本,对给定的一组样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,按从小到大的顺序排列。用 x ( k ) , k = 1 , 2 , ⋯ , n x_{(k)}, k = 1, 2, \cdots, n x(k),k=1,2,⋯,n 表示大小位置在第 k k k 位的数,这样就有 x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n ) x_{(1)} ≤ x_{(2)} ≤ \cdots ≤ x_{(n)} x(1)≤x(2)≤⋯≤x(n)。当样本 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 的观测值随机变化时, x ( k ) , k = 1 , 2 , ⋯ , n x_{(k)}, k = 1, 2, \cdots, n x(k),k=1,2,⋯,n 的取值也随之而变化,且具有随机性。这样, x ( k ) , k = 1 , 2 , ⋯ , n x_{(k)}, k = 1, 2, \cdots, n x(k),k=1,2,⋯,n 的全部取值就对应一个随机变量,记为 X ( k ) , k = 1 , 2 , ⋯ , n X_{(k)}, k = 1, 2, \cdots, n X(k),k=1,2,⋯,n 。它显然是一个统计量,我们称 X ( 1 ) , X ( 2 ) , ⋯ , X ( n ) X_{(1)}, X_{(2)}, \cdots, X_{(n)} X(1),X(2),⋯,X(n) 为样本 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots , X_n X1,X2,⋯,Xn 的顺序统计量。特别地,称 X ( 1 ) = m i n { X 1 , X 2 , ⋯ , X n } X_{(1)} = min \{X_1, X_2, \cdots, X_n\} X(1)=min{X1,X2,⋯,Xn} 为最小顺序统计量, X ( n ) = m a x { X 1 , X 2 , ⋯ , X n } X_{(n)} = max \{X_1, X_2, \cdots, X_n\} X(n)=max{X1,X2,⋯,Xn} 为最大顺序统计量;
通过样本构造函数可以得到统计量,但为了更精确地刻画总体,还想确定统计量的分布。统计量的分布称为抽样分布,本节介绍几种常见的抽样分布以及常见统计量的分布情况。
χ 2 \chi^2 χ2 分布:设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn 为 n n n 个相互独立且都服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1) 的随机变量,记 χ 2 = ∑ i = 1 n X i 2 \chi^2 = \sum_{i=1}^n X_i^2 χ2=∑i=1nXi2,则称统计量 χ 2 \chi^2 χ2 服从自由度为 n n n 的 χ 2 \chi^2 χ2 分布,记为 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2∼χ2(n)。可以证明, χ 2 \chi^2 χ2 分布的密度函数为:
f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − x 2 , x > 0 , 0 , x ⩽ 0 f(x)= \begin{cases}\frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} x^{\frac{n}{2}-1} \mathrm{e}^{-\frac{x}{2}}, & x>0, \\ 0, & x \leqslant 0\end{cases} f(x)={22nΓ(2n)1x2n−1e−2x,0,x>0,x⩽0
其中 Γ ( α ) = ∫ 0 + ∞ x α − 1 e − x d x \Gamma(\alpha)=\int_0^{+\infty} x^{\alpha-1} \mathrm{e}^{-x} \mathrm{~d} x Γ(α)=∫0+∞xα−1e−x dx。 f ( x ) f(x) f(x) 的曲线如图所示,它是一个只取非负值的偏态分布:
χ 2 \chi^2 χ2 分布具有如下两个重要性质:
(1)设 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2∼χ2(n),则 E χ 2 = n , D χ 2 = 2 n E \chi^2=n, D \chi^2=2 n Eχ2=n,Dχ2=2n;
(2)设 χ 1 2 ∼ χ 2 ( n 1 ) \chi_1^2 \sim \chi^2(n_1) χ12∼χ2(n1), χ 2 2 ∼ χ 2 ( n 2 ) \chi_2^2 \sim \chi^2(n_2) χ22∼χ2(n2),且 χ 1 2 \chi_1^2 χ12 和 χ 2 2 \chi_2^2 χ22 相互独立,则 χ 1 2 + χ 2 2 ∼ \chi_1^2+\chi_2^2 \sim χ12+χ22∼ χ 2 ( n 1 + n 2 ) \chi^2\left(n_1+n_2\right) χ2(n1+n2);
t t t 分布:设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1), Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Y∼χ2(n),且 X X X 与 Y Y Y 相互独立,记 T = X Y / n T=\frac{X}{\sqrt{Y / n}} T=Y/nX。则称 T T T 的分布为自由度为 n n n 的 t t t 分布,记为 T ∼ t ( n ) T \sim t(n) T∼t(n)。可以证明, T T T 的密度函数为:
f ( x ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + x 2 n ) − n + 1 2 , x ∈ R f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^2}{n}\right)^{- \frac{n+1}{2}}, x \in \mathbf{R} f(x)=nπΓ(2n)Γ(2n+1)(1+nx2)−2n+1,x∈R
f ( x ) f(x) f(x) 的曲线如图所示,易见 f ( x ) f(x) f(x) 是一个偶函数:
t t t 分布有如下性质:
(1) f ( x ) f(x) f(x) 的图形关于 y y y 轴对称,当 n > 1 n>1 n>1 时,ET = 0 =0 =0;
(2)当 n > 2 n>2 n>2 时, D T = n n − 2 D T=\frac{n}{n-2} DT=n−2n;
(3)当 n = 1 n=1 n=1 时, T T T 的密度函数为 f ( x ) = 1 π ⋅ 1 1 + x 2 , x ∈ R f(x)=\frac{1}{\pi} \cdot \frac{1}{1+x^2}, x \in \mathbf{R} f(x)=π1⋅1+x21,x∈R;
(4)当 n → + ∞ n \rightarrow+\infty n→+∞ 时, f ( x ) → 1 2 π e − x 2 2 , x ∈ R f(x) \rightarrow \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^2}{2}}, x \in \mathbf{R} f(x)→2π1e−2x2,x∈R。这说明当自由度 n n n 充分大时, T T T 近似服从标准正态分布;
F F F 分布:设 X ∼ χ 2 ( m ) X \sim \chi^2(m) X∼χ2(m), Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Y∼χ2(n),且 X X X 与 Y Y Y 独立。记 F = X / m Y / n F=\frac{X / m}{Y / n} F=Y/nX/m,则称 F F F 的分布为第一自由度是 m m m,第二自由度是 n n n 的 F F F 分布,记为 F ∼ F ( m , n ) F \sim F(m, n) F∼F(m,n)。可以证明, F F F 的密度函数为:
f ( x ) = { Γ ( m + n 2 ) Γ ( m 2 ) Γ ( n 2 ) ( m n ) m 2 x m 2 − 1 ( 1 + m x n ) − n + m 2 , x > 0 , 0 , x ⩽ 0 f(x)= \begin{cases}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}} x^{\frac{m}{2}-1}\left(1+\frac{m x}{n}\right)^{-\frac{n+m}{2}}, & x>0, \\ 0, & x \leqslant 0\end{cases} f(x)=⎩ ⎨ ⎧Γ(2m)Γ(2n)Γ(2m+n)(nm)2mx2m−1(1+nmx)−2n+m,0,x>0,x⩽0
f ( x ) f(x) f(x) 的曲线如图所示:
易证, F F F 分布具有如下性质:
(1)当 F ∼ F ( m , n ) F \sim F(m, n) F∼F(m,n) 时, 1 F ∼ F ( n , m ) \frac{1}{F} \sim F(n, m) F1∼F(n,m);
(2)当 T ∼ t ( n ) T \sim t(n) T∼t(n) 时, T 2 ∼ F ( 1 , n ) T^2 \sim F(1, n) T2∼F(1,n);
在概率论中,如果已知连续型随机变量 X X X 的密度函数 f ( x ) f(x) f(x),可以计算概率 P { X ⩽ x 0 } = ∫ − ∞ x 0 f ( x ) d x P\left\{X \leqslant x_0\right\}=\int_{-\infty}^{x_0} f(x) \mathrm{d} x P{X⩽x0}=∫−∞x0f(x)dx;而在统计推断中,遇到的问题常常是一个反问题,即已知概率 p 0 = P { X ⩽ x 0 } p_0=P\left\{X \leqslant x_0\right\} p0=P{X⩽x0} 求 x 0 x_0 x0,称 x 0 x_0 x0 为 p 0 p_0 p0 分位数。分位数又叫分位点或临界值,它在区间估计、假设检验等统计推断中起着重要的作用。
分位数:设 X X X 是连续型随机变量,分布函数为 F ( x ) F(x) F(x),密度函数为 f ( x ) f(x) f(x)。对给定的概率 p p p,如有实数 v p v_p vp,使得
F ( v p ) = P { X ⩽ v p } = ∫ − ∞ v p f ( x ) d x = p F\left(v_p\right)=P\left\{X \leqslant v_p\right\}=\int_{-\infty}^{v_p} f(x) \mathrm{d} x=p F(vp)=P{X⩽vp}=∫−∞vpf(x)dx=p
则称 v p v_p vp 为随机变量 X X X 的(下侧) p p p 分位数。如图显示了分位数 v p v_p vp 与密度函数的关系:
分位数的性质:将标准正态分布、 χ 2 \chi^2 χ2 分布、 t t t 分布、 F F F 分布的分位数分别记为 u p u_p up, t p ( n ) t_p(n) tp(n), χ p 2 ( n ) \chi_p^2(n) χp2(n), F p ( m , n ) F_p(m, n) Fp(m,n),它们有如下性质: −up=u1−p,0<p<1 −tp(n)=t1−p(n),0<p<1
(1)由标准正态分布的对称性,易得 u 0.5 = 0 u_{0.5}=0 u0.5=0, − u p = u 1 − p , 0 < p < 1 -u_p=u_{1-p}, 0
在进行手工计算时,可以通过查标准正态分布函数表以及利用相关性质来获得分位数的值,如: u 0.95 = 1.65 , u 0.975 = 1.96 , u 0.05 = − u 0.95 = − 1.65 u_{0.95}=1.65, u_{0.975}=1.96, u_{0.05}=-u_{0.95}=-1.65 u0.95=1.65,u0.975=1.96,u0.05=−u0.95=−1.65;
(2)由 t t t 分布的对称性易得 t 0.5 ( n ) = 0 t_{0.5}(n)=0 t0.5(n)=0, − t p ( n ) = t 1 − p ( n ) , 0 < p < 1 -t_p(n)=t_{1-p}(n), 0
(3)关于 χ 2 \chi^2 χ2 分布的分位数,当 n n n 充分大 ( n > 45 ) (n>45) (n>45) 时,有近似计算公式
χ p 2 ( n ) ≈ 1 2 ( u p + 2 n − 1 ) 2 \chi_p^2(n) \approx \frac{1}{2}\left(u_p+\sqrt{2 n-1}\right)^2 χp2(n)≈21(up+2n−1)2
当 n n n 不够大时,可直接查 χ 2 \chi^2 χ2 分布的分位数表,例: χ 0.95 2 ( 10 ) = 18.31 , χ 0.975 2 ( 12 ) = 23.34 \chi_{0.95}^2(10)=18.31, \chi_{0.975}^2(12)=23.34 χ0.952(10)=18.31,χ0.9752(12)=23.34;
前一章介绍了使用未知分布的样本构造统计量来近似描述总体的分布情况。然而,现实中更常见的是已知样本服从的分布但不知道分布的具体参数,可以通过多次试验进行采样得到样本,计算样本规律得到分布的参数,称之为参数估计。本章主要介绍点估计和区间估计,以及评价估计优劣的标准。
设总体 X X X 的分布形式已知, θ \theta θ 是其未知参数, X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn 是来自总体 X X X 的样本, x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 是样本值。点估计的任务是构造一个适当的统计量 θ ^ = T ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}= T(X_1, X_2, \cdots, X_n) θ^=T(X1,X2,⋯,Xn),使其样本值 T ( x 1 , x 2 , ⋯ , x n ) T(x_1, x_2, \cdots, x_n) T(x1,x2,⋯,xn) 有理由作为未知参数 θ \theta θ 的估计值。这时,称统计量 θ ^ = T ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}=T(X_1, X_2, \cdots, X_n) θ^=T(X1,X2,⋯,Xn) 为 θ \theta θ 的点估计量,它的观测值 T ( x 1 , x 2 , ⋯ , x n ) T(x_1, x_2, \cdots, x_n) T(x1,x2,⋯,xn) 称为 θ \theta θ 的点估计值,仍用 θ ^ \hat{\theta} θ^ 表示。点估计的常用方法有矩估计法、最大似然估计法、最小二乘估计法等。
矩估计法使用样本的矩估计模型参数,例题如下:
矩估计法直观、简便,且在总体矩存在的情况下求它们的矩估计量 不需要知道总体的分布,这些都是矩估计法的优点。但是矩估计法也存在明显的不足:首先,矩估计法要求总体矩存在,而有些总体的矩是不存在的,这时就不能使用矩估计法,如柯西分布不存在数学期望;其次,矩估计法 未能充分利用总体分布所提供的信息,个别情形可能出现以偏概全的情况,因此不能保证它有优良的性质。因此实际应用中更常使用最大似然估计法,最大似然估计法克服了矩估计法的上述两个不足,不要求矩的存在性,且可充分利用总体分布的信息。
对于总体的一个未知参数,使用点估计的不同方法可以得到不同的估计量,因此需要一些指标进行评价。
因为 E ( θ ^ n − θ ) = 0 E\left(\hat{\theta}_n-\theta\right)=0 E(θ^n−θ)=0 等价于 E θ ^ n = θ E \hat{\theta}_n=\theta Eθ^n=θ,所以 lim n → + ∞ E ( θ ^ n − θ ) = 0 \lim _{n \rightarrow+\infty} E\left(\hat{\theta}_n-\theta\right)=0 limn→+∞E(θ^n−θ)=0 等价于 lim n → + ∞ E θ ^ n = \lim _{n \rightarrow+\infty} E \hat{\theta}_n= limn→+∞Eθ^n= θ \theta θ。因此样本的 k k k 阶原点矩 M k = 1 n ∑ i = 1 n X i k M_k=\frac{1}{n} \sum_{i=1}^n X_i^k Mk=n1∑i=1nXik 是总体 k k k 阶原点矩 E X k E X^k EXk 的无偏估计,样本方差 S 2 S^2 S2 是总体方差 D X DX DX 的无偏估计,样本二阶中心矩 M 2 ∗ M_2^* M2∗ 是总体方差 D X DX DX 的渐近无偏估计。
均方误差具有很好的数学性质,可以证明
MSE ( θ ^ , θ ) = D θ ^ + ( E θ ^ − θ ) 2 \operatorname{MSE}(\hat{\theta}, \theta)=D \hat{\theta}+(E \hat{\theta}-\theta)^2 MSE(θ^,θ)=Dθ^+(Eθ^−θ)2
显然,如果 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计,则 MSE ( θ ^ , θ ) = D θ ^ \operatorname{MSE}(\hat{\theta}, \theta)=D \hat{\theta} MSE(θ^,θ)=Dθ^,即均方误差越小越好的标准等价于方差越小越好的标准,这时均方误差最小的评价标准和有效性标准是一致的。
无偏性与有效性都需要样本容量 n n n 固定为前提,如果想要随着样本容量 n n n 的增大, θ ^ \hat{\theta} θ^ 的估计值越来越接近真值 θ \theta θ,就需要引入相合性标准。
相合性的定义不方便判断一个估计量是否是相合估计,往往使用以下定理进行判断:
设 θ ^ n \hat{\theta}_n θ^n 是末知参数 θ \theta θ 的一个点估计量,如果 lim n → + ∞ E θ ^ n = θ \lim _{n \rightarrow+\infty} E \hat{\theta}_n=\theta limn→+∞Eθ^n=θ 且 lim n → + ∞ D θ ^ n = 0 \lim _{n \rightarrow+\infty} D \hat{\theta}_n=0 limn→+∞Dθ^n=0,则 θ ^ n \hat{\theta}_n θ^n 是 θ \theta θ 的相合估计。
点估计通过估计量的观测值来估计未知参数的真值,但这个估计值仅仅是未知参数真值的一个近似,与真值之间难免存在误差。因此,在一些实际应用中,需要知道估计值的误差,即真值所在的范围,于是引入了区间估计。区间估计以区间的形式给出了估计值的范围和可信程度,分别称为置信区间和置信度。
设总体 X X X 的分布形式已知, θ \theta θ 是其未知参数, X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn 是来自总体 X X X 的样本, x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn 是样本值。有界区间的估计需要构造两个适当的统计量 θ ^ 1 = T 1 ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}_1=T_1(X_1, X_2, \cdots, X_n) θ^1=T1(X1,X2,⋯,Xn) 与 θ ^ 2 = T 2 ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}_2=T_2(X_1, X_2, \cdots, X_n) θ^2=T2(X1,X2,⋯,Xn),它们构成一个随机区间 ( θ ^ 1 , θ ^ 2 ) (\hat{\theta}_1, \hat{\theta}_2) (θ^1,θ^2),并用它们的样本值 θ ^ 1 = T 1 ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}_1=T_1(x_1, x_2, \cdots, x_n) θ^1=T1(x1,x2,⋯,xn) 与 θ ^ 2 = T 2 ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}_2=T_2(x_1, x_2, \cdots, x_n) θ^2=T2(x1,x2,⋯,xn) 所构成的区间 ( θ ^ 1 , θ ^ 2 ) (\hat{\theta}_1, \hat{\theta}_2) (θ^1,θ^2) 来表示未知参数 θ \theta θ 的估计范围。随机区间 ( θ ^ 1 , θ ^ 2 ) (\hat{\theta}_1, \hat{\theta}_2) (θ^1,θ^2) 包含未知参数 θ \theta θ 的概率称为置信度 α \alpha α。区间估计要尽可能保证较大的置信度 α \alpha α 和较小的区间长度 ∣ θ ^ 2 − θ ^ 1 ∣ |\hat{\theta}_2-\hat{\theta}_1| ∣θ^2−θ^1∣。
从置信区间的定义可以看出,对总体的一个末知参数,可以得到很多不同的置信区间,当然我们希望得到最好的置信区间。评价置信区间好坏的标准主要有两个:一个是估计精度,可用置信区间 ( T 1 , T 2 ) \left(T_1, T_2\right) (T1,T2) 的区间长度 T 2 − T 1 T_2-T_1 T2−T1 来刻画,区间长度 T 2 − T 1 T_2-T_1 T2−T1 越小,估计精度越高,置信区间越好。由于 T 1 , T 2 T_1, T_2 T1,T2 是随机变量,所以 T 2 − T 1 T_2-T_1 T2−T1 也是随机变量,因此可用 E ( T 2 − T 1 ) E\left(T_2-T_1\right) E(T2−T1) 近似代替置信区间的估计精度;另一个是置信度,用概率 P { T 1 < θ < T 2 } = 1 − α P\left\{T_1<\theta
P{T1<θ<T2}=1−α 来表示, 1 − α 1-\alpha 1−α 越大,置信度越高。
不过,置信区间的估计精度和置信度是相互制约的:当样本容量 n n n 固定时,精度和置信度不能同时提高。20 世纪 30 年代,美国统计学家奈曼 (Neyman) 提出了现今广泛接受的原则:先保证对置信度的要求,在此条件下尽可能地提高精度,即先根据实际问题选定 α \alpha α 的值( α \alpha α 常取 0.1 , 0.05 , 0.01 0.1,0.05,0.01 0.1,0.05,0.01),然后再去确定置信下限 T 1 T_1 T1 和置信上限 T 2 T_2 T2。