假设给定线性空间 V V V 的一个基为 { v 1 , v 2 , ⋯ , v n } \{\mathbf{v}_1,\mathbf{v}_2, \cdots, \mathbf{v}_n\} {v1,v2,⋯,vn},要求一个向量 v \mathbf{v} v 在该基下的坐标。
由于 { v 1 , v 2 , ⋯ , v n } \{\mathbf{v}_1,\mathbf{v}_2, \cdots, \mathbf{v}_n\} {v1,v2,⋯,vn} 是 V V V 的基,因此 v \mathbf{v} v 可以由 { v 1 , v 2 , ⋯ , v n } \{\mathbf{v}_1,\mathbf{v}_2, \cdots, \mathbf{v}_n\} {v1,v2,⋯,vn} 线性组合得到,即:
v = a 1 v 1 + a 2 v 2 + ⋯ + a n v n \mathbf{v} = a_1 \mathbf{v}_1 + a_2 \mathbf{v}_2 + \cdots + a_n \mathbf{v}_n v=a1v1+a2v2+⋯+anvn
要求 v \mathbf{v} v 在该基下的坐标 ( b 1 , b 2 , ⋯ , b n ) (b_1,b_2,\cdots,b_n) (b1,b2,⋯,bn),需要满足以下等式:
{ v = b 1 v 1 + b 2 v 2 + ⋯ + b n v n \begin{cases} \mathbf{v}=b_1\mathbf{v}_1+b_2\mathbf{v}_2+\cdots+b_n\mathbf{v}_n \\ \end{cases} {v=b1v1+b2v2+⋯+bnvn
因此,我们可以将上述等式转化成一个线性方程组:
[ v 1 v 2 ⋯ v n ] [ b 1 b 2 ⋮ b n ] = v \begin{bmatrix} \mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_n \end{bmatrix} \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix} = \mathbf{v} [v1v2⋯vn]⎣⎢⎢⎢⎡b1b2⋮bn⎦⎥⎥⎥⎤=v
注意到上述方程组的系数矩阵是一个 n × n n \times n n×n 的矩阵,由于 { v 1 , v 2 , ⋯ , v n } \{\mathbf{v}_1,\mathbf{v}_2, \cdots, \mathbf{v}_n\} {v1,v2,⋯,vn} 是 V V V 的基,因此该系数矩阵可逆,从而可解得 ( b 1 , b 2 , ⋯ , b n ) (b_1,b_2,\cdots,b_n) (b1,b2,⋯,bn)。
可以将该向量在标准正交基上进行分解,然后计算它在每个基向量上的投影长度,最后将它们平方和再开方。具体地,设标准正交基为 { e ⃗ 1 , e ⃗ 2 , … , e ⃗ n } \{\vec{e}_1,\vec{e}_2,\dots,\vec{e}_n\} {e1,e2,…,en},给定向量为 v ⃗ \vec{v} v,则可以将向量 v ⃗ \vec{v} v 表示成:
v ⃗ = a 1 e ⃗ 1 + a 2 e ⃗ 2 + ⋯ + a n e ⃗ n \vec{v}=a_1\vec{e}_1+a_2\vec{e}_2+\dots+a_n\vec{e}_n v=a1e1+a2e2+⋯+anen
其中 a 1 , a 2 , … , a n a_1,a_2,\dots,a_n a1,a2,…,an 分别为 v ⃗ \vec{v} v 在每个基向量上的投影长度。根据勾股定理,向量 v ⃗ \vec{v} v 的长度为:
∥ v ⃗ ∥ = a 1 2 + a 2 2 + ⋯ + a n 2 \left\Vert\vec{v}\right\Vert=\sqrt{a_1^2+a_2^2+\dots+a_n^2} ∥v∥=a12+a22+⋯+an2
因此,我们只需求出向量 v ⃗ \vec{v} v 在每个基向量上的投影长度,然后将它们平方和再开方即可。具体地,向量 v ⃗ \vec{v} v 在第 i i i 个基向量上的投影长度为:
a i = v ⃗ ⋅ e ⃗ i ∥ e ⃗ i ∥ = v ⃗ ⋅ e ⃗ i a_i=\frac{\vec{v}\cdot\vec{e}_i}{\left\Vert\vec{e}_i\right\Vert}=\vec{v}\cdot\vec{e}_i ai=∥ei∥v⋅ei=v⋅ei
其中 ⋅ \cdot ⋅ 表示向量的内积。因为标准正交基中的每个向量都是单位向量,所以可以省略分母。最后,代入公式,即可求出向量 v ⃗ \vec{v} v 的长度。
对于一个 m × n m \times n m×n 的矩阵 A A A,其 2 2 2-范数、无穷范数和 1 1 1-范数分别为以下值:
∥ A ∥ 2 = ρ ( A T A ) = λ max ( A T A ) \| A \|_2 = \sqrt{\rho(A^T A)} = \sqrt{\lambda_{\max}(A^T A)} ∥A∥2=ρ(ATA)=λmax(ATA)
其中 ρ ( A T A ) \rho(A^T A) ρ(ATA) 表示 A T A A^T A ATA 的谱半径,即特征值的最大模; λ max ( A T A ) \lambda_{\max}(A^T A) λmax(ATA) 表示 A T A A^T A ATA 的最大特征值,也是其谱半径的平方根。
∥ A ∥ ∞ = max 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \| A \|_{\infty} = \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}| ∥A∥∞=1≤i≤mmaxj=1∑n∣aij∣
即取矩阵 A A A 的每一行的元素绝对值之和的最大值。
∥ A ∥ 1 = max 1 ≤ j ≤ n ∑ i = 1 m ∣ a i j ∣ \| A \|_1 = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}| ∥A∥1=1≤j≤nmaxi=1∑m∣aij∣
即取矩阵 A A A 的每一列的元素绝对值之和的最大值。
需要注意的是, 2 2 2-范数和无穷范数都是由矩阵的特征值或奇异值来计算的,因此都是一个非负的实数,而 1 1 1-范数不是一个实数,需要用最大值来表示,因此也有时叫做无穷范数。
设方阵 A A A 的幂级数为 ∑ k = 0 ∞ c k A k \sum_{k=0}^{\infty}c_kA^k ∑k=0∞ckAk,其中 c k c_k ck 是常数系数。当幂级数收敛时,有:
lim n → ∞ ∥ ∑ k = 0 n c k A k ∥ < ∞ \lim_{n\rightarrow\infty}\left\Vert\sum_{k=0}^{n}c_kA^k\right\Vert<\infty n→∞lim∥∥∥∥∥k=0∑nckAk∥∥∥∥∥<∞
根据幂级数的收敛性,我们可以得到以下条件:
注意,以上条件并非充要条件,即满足以上条件并不一定能保证幂级数收敛,但幂级数收敛时必然满足以上条件。因此,这些条件可以作为判断幂级数收敛的参考。
计算样本的平均数、众数、中位数的方法如下:
样本的平均数是指所有样本观测值的算术平均值。假设有 n n n 个样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,则它们的平均数为:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi
样本的众数是指在样本中出现次数最多的观测值。如果有多个观测值出现次数相同且都是样本中出现次数最多的,则这些观测值都是样本的众数。假设有 n n n 个样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,则可以用统计学软件或者通过手工记录的方法确定样本的众数。
样本的中位数是指把样本观测值按大小排列后,位于中间位置的数值。当样本的大小为偶数时,中位数是排序后中间两个数的平均值。假设有 n n n 个样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,则可以按照以下步骤计算样本的中位数:
如果样本来自一个正态总体,那么可以使用样本均值和样本方差来构造统计量,其中样本均值 x ˉ \bar{x} xˉ 和样本方差 s 2 s^2 s2 的计算公式分别为:
x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1i=1∑nxi
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
其中 x i x_i xi 表示第 i i i 个样本数据, n n n 表示样本数量。
对于样本均值和样本方差构造的统计量,可以使用 t t t分布和 χ 2 \chi^2 χ2分布来确定其分布以及常数。
需要注意的是,在实际应用中,样本的分布可能并非完全符合正态分布,因此需要使用中心极限定理或其他方法来进行近似或检验。同时,在进行假设检验或置信区间估计时,也需要根据具体问题和假设来选择和应用不同的统计分布和常数。
矩估计是一种参数估计方法,其基本思想是利用样本矩来估计总体矩,从而得到参数的估计值。
具体而言,对于一个未知参数 θ \theta θ,假设其对应的总体矩为 μ k \mu_k μk,则可以使用样本矩 μ ^ k \hat{\mu}_k μ^k 来估计 μ k \mu_k μk,并将其代入总体矩的公式中,得到下列方程组:
μ ^ 1 = 1 n ∑ i = 1 n x i \hat{\mu}_1=\frac{1}{n}\sum_{i=1}^{n}x_i μ^1=n1i=1∑nxi
μ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ^ 1 ) 2 \hat{\mu}_2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu}_1)^2 μ^2=n1i=1∑n(xi−μ^1)2
μ ^ 3 = 1 n ∑ i = 1 n ( x i − μ ^ 1 ) 3 \hat{\mu}_3=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu}_1)^3 μ^3=n1i=1∑n(xi−μ^1)3
μ ^ 4 = 1 n ∑ i = 1 n ( x i − μ ^ 1 ) 4 \hat{\mu}_4=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu}_1)^4 μ^4=n1i=1∑n(xi−μ^1)4
其中 x i x_i xi 表示第 i i i 个样本数据, n n n 表示样本数量。解方程组可以得到参数的矩估计值 θ ^ \hat{\theta} θ^。
需要注意的是,矩估计方法的优点是简单易行,但是在某些情况下可能会出现估计值不合理的情况,因此在实际应用中需要进行检验和比较,选择合适的估计方法。同时,矩估计方法也可以与其他估计方法相结合,进行更准确的估计。
求正态总体参数均值的置信区间可以使用样本均值和样本标准差来计算,下面是具体的步骤:
确定置信水平 α \alpha α,通常取 0.95 或 0.99。
计算样本均值 x ˉ \bar{x} xˉ 和样本标准差 s s s,计算公式为:
x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1i=1∑nxi
s = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2} s=n−11i=1∑n(xi−xˉ)2
其中 x i x_i xi 表示第 i i i 个样本数据, n n n 表示样本数量。
x ˉ − z α 2 s n < μ < x ˉ + z α 2 s n \bar{x}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}<\mu<\bar{x}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}} xˉ−z2αns<μ<xˉ+z2αns
其中 z α 2 z_{\frac{\alpha}{2}} z2α 表示标准正态分布的上下分位点,对于置信水平为 0.95, z α 2 z_{\frac{\alpha}{2}} z2α 约等于 1.96。
需要注意的是,求置信区间时需要假设样本来自一个正态总体,并且样本数据的数量应当足够大,通常要求 n ≥ 30 n\geq30 n≥30 才能使用正态分布进行近似计算。同时,在实际应用中,也可以使用其他的置信区间方法,例如基于 t t t分布的置信区间等。
给定一个线性变换 T T T,假设原像为向量 v \mathbf{v} v,则该原像的像可以通过以下公式计算:
T ( v ) = A v T(\mathbf{v})=A\mathbf{v} T(v)=Av
其中 A A A 为线性变换 T T T 的矩阵表示。
具体而言,如果 T T T 将 R n \mathbb{R}^n Rn 映射到 R m \mathbb{R}^m Rm,则 A A A 是一个 m × n m\times n m×n 的矩阵,且对于任意向量 v ∈ R n \mathbf{v}\in\mathbb{R}^n v∈Rn,都有:
T ( v ) = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] [ v 1 v 2 ⋮ v n ] = [ a 11 v 1 + a 12 v 2 + ⋯ + a 1 n v n a 21 v 1 + a 22 v 2 + ⋯ + a 2 n v n ⋮ a m 1 v 1 + a m 2 v 2 + ⋯ + a m n v n ] T(\mathbf{v})=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}\begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}=\begin{bmatrix} a_{11}v_1 + a_{12}v_2 + \cdots + a_{1n}v_n \\ a_{21}v_1 + a_{22}v_2 + \cdots + a_{2n}v_n \\ \vdots \\ a_{m1}v_1 + a_{m2}v_2 + \cdots + a_{mn}v_n \end{bmatrix} T(v)=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡v1v2⋮vn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡a11v1+a12v2+⋯+a1nvna21v1+a22v2+⋯+a2nvn⋮am1v1+am2v2+⋯+amnvn⎦⎥⎥⎥⎤
其中 v i v_i vi 表示向量 v \mathbf{v} v 的第 i i i 个分量, a i j a_{ij} aij 表示矩阵 A A A 的第 i i i 行第 j j j 列元素。
因此,如果已知线性变换 T T T 的矩阵表示,以及原像向量 v \mathbf{v} v,就可以通过矩阵向量乘法来计算该原像的像向量 T ( v ) T(\mathbf{v}) T(v)。
对于线性变换 T T T,如果已知其在基 B = { b 1 , b 2 , ⋯ , b n } \mathcal{B}=\{\mathbf{b}_1,\mathbf{b}_2,\cdots,\mathbf{b}_n\} B={b1,b2,⋯,bn} 下的矩阵表示 [ T ] B [T]_{\mathcal{B}} [T]B,则可以通过以下公式计算其在另一组基 B ′ = { b 1 ′ , b 2 ′ , ⋯ , b n ′ } \mathcal{B}'=\{\mathbf{b}'_1,\mathbf{b}'_2,\cdots,\mathbf{b}'_n\} B′={b1′,b2′,⋯,bn′} 下的矩阵表示 [ T ] B ′ [T]_{\mathcal{B}'} [T]B′:
[ T ] B ′ = P − 1 [ T ] B P [T]_{\mathcal{B}'}=P^{-1}[T]_{\mathcal{B}}P [T]B′=P−1[T]BP
其中 P P P 表示从基 B \mathcal{B} B 到基 B ′ \mathcal{B}' B′ 的过渡矩阵,即:
[ b 1 ′ b 2 ′ ⋯ b n ′ ] = [ b 1 b 2 ⋯ b n ] P \begin{bmatrix} \mathbf{b}'_1 & \mathbf{b}'_2 & \cdots & \mathbf{b}'_n \end{bmatrix}=\begin{bmatrix} \mathbf{b}_1 & \mathbf{b}_2 & \cdots & \mathbf{b}_n \end{bmatrix}P [b1′b2′⋯bn′]=[b1b2⋯bn]P
需要注意的是,在进行基变换时,应当保证两个基都是线性无关的,否则无法进行基变换。另外,在实际应用中,也可以通过对线性变换的作用对象进行坐标变换来实现线性变换在不同基下的表示。
给定一个线性变换 T : R n → R n T: \mathbb{R}^n \rightarrow \mathbb{R}^n T:Rn→Rn,我们可以先求出它的矩阵表示 A A A,然后根据 A A A 来求出 T T T 的零空间和值空间。
设 A A A 是线性变换 T T T 的矩阵表示, x x x 是 R n \mathbb{R}^n Rn 中的向量,则 T T T 的零空间为:
null ( T ) = { x ∈ R n : A x = 0 } \text{null}(T) = \{ x \in \mathbb{R}^n : Ax = \mathbf{0} \} null(T)={x∈Rn:Ax=0}
即求解方程组 A x = 0 Ax = \mathbf{0} Ax=0。
T T T 的值空间为:
range ( T ) = { y ∈ R n : y = A x , x ∈ R n } \text{range}(T) = \{ y \in \mathbb{R}^n : y = Ax, x \in \mathbb{R}^n \} range(T)={y∈Rn:y=Ax,x∈Rn}
即 A A A 所能达到的所有列向量的线性组合。
对于该线性变换 T T T,如果它可以相似对角化,则存在可逆矩阵 P P P 和对角矩阵 D D D,满足 A = P D P − 1 A = PDP^{-1} A=PDP−1。此时, T T T 与线性变换 D D D 相似,且 D D D 的对角线元素为 A A A 的特征值。如果 A A A 存在 n n n 个不同的特征值(不一定非得是 n n n 个不同的特征向量),则 A A A 可以相似对角化。如果 A A A 存在线性无关的特征向量的个数少于 n n n,则 T T T 不能相似对角化。
对于给定的方阵 A A A,求解其最小多项式和Jordan标准形的具体步骤如下:
p ( λ ) = det ( A − λ I ) p(\lambda)=\det(A-\lambda I) p(λ)=det(A−λI)
对于每个特征值 λ i \lambda_i λi,求解矩阵 A − λ i I A-\lambda_i I A−λiI 的秩为 r i r_i ri 的最大的幂次 k k k,使得 ( A − λ i I ) k (A-\lambda_i I)^k (A−λiI)k 的秩小于 r i r_i ri,即:
( A − λ i I ) k x = 0 , ( A − λ i I ) k − 1 x ≠ 0 (A-\lambda_i I)^k \mathbf{x}=\mathbf{0},(A-\lambda_i I)^{k-1}\mathbf{x}\neq \mathbf{0} (A−λiI)kx=0,(A−λiI)k−1x=0
其中 x \mathbf{x} x 是任意非零向量。则矩阵 A A A 的Jordan标准形可以表示为:
J = [ J 1 ⋱ J m ] J=\begin{bmatrix} J_1 & & \\ & \ddots & \\ & & J_m \end{bmatrix} J=⎣⎡J1⋱Jm⎦⎤
其中 J i J_i Ji 是形如:
J i = [ λ i 1 ⋱ ⋱ λ i 1 λ i ] J_i=\begin{bmatrix} \lambda_i & 1 & & \\ & \ddots & \ddots & \\ & & \lambda_i & 1 \\ & & & \lambda_i \end{bmatrix} Ji=⎣⎢⎢⎡λi1⋱⋱λi1λi⎦⎥⎥⎤
的Jordan块。
将矩阵 A A A 转化为Jordan标准形 J J J,对于每个Jordan块 J i J_i Ji,构造一个次数为 k k k 的多项式 φ i ( λ ) = ( λ − λ i ) k \varphi_i(\lambda)=(\lambda-\lambda_i)^k φi(λ)=(λ−λi)k。则最小多项式 q ( λ ) q(\lambda) q(λ) 可以表示为:
q ( λ ) = ∏ i = 1 m φ i ( λ ) q(\lambda)=\prod_{i=1}^m \varphi_i(\lambda) q(λ)=i=1∏mφi(λ)
4. 求解方阵函数 f ( A ) f(A) f(A) 。
将矩阵 A A A 转化为Jordan标准形 J J J,对于每个Jordan块 J i J_i Ji,根据Taylor展开式,有:
f ( J i ) = ∑ k = 0 ∞ f ( k ) ( λ i ) k ! ( J i − λ i I ) k f(J_i)=\sum_{k=0}^\infty \frac{f^{(k)}(\lambda_i)}{k!}(J_i-\lambda_i I)^k f(Ji)=k=0∑∞k!f(k)(λi)(Ji−λiI)k
其中 f ( k ) ( λ i ) f^{(k)}(\lambda_i) f(k)(λi) 表示 f ( λ ) f(\lambda) f(λ) 在 λ i \lambda_i λi 处的 k k k 阶导数。因此,方阵函数 f ( A ) f(A) f(A) 可以表示为:
f ( A ) = [ f ( J 1 ) ⋱ f ( J m ) ] f(A)=\begin{bmatrix} f(J_1) & & \\ & \ddots & \\ & & f(J_m) \end{bmatrix} f(A)=⎣⎡f(J1)⋱f(Jm)⎦⎤
其中 f ( J i ) f(J_i) f(Ji) 可以根据上式计算。
对于给定总体参数为 θ \theta θ 的样本 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X1,X2,…,Xn,设其概率密度函数为 f ( x ; θ ) f(x;\theta) f(x;θ),则其似然函数为:
L ( θ ) = ∏ i = 1 n f ( X i ; θ ) L(\theta)=\prod_{i=1}^n f(X_i;\theta) L(θ)=i=1∏nf(Xi;θ)
对数似然函数为:
ln L ( θ ) = ∑ i = 1 n ln f ( X i ; θ ) \ln L(\theta)=\sum_{i=1}^n \ln f(X_i;\theta) lnL(θ)=i=1∑nlnf(Xi;θ)
极大似然估计 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE 是使得似然函数 L ( θ ) L(\theta) L(θ) 取值最大的参数值,即:
θ ^ M L E = arg max θ L ( θ ) \hat{\theta}_{\mathrm{MLE}}=\arg\max_{\theta} L(\theta) θ^MLE=argθmaxL(θ)
为了求出该估计,需要将对数似然函数 ln L ( θ ) \ln L(\theta) lnL(θ) 对参数 θ \theta θ 求导,并令其为零,即:
d d θ ln L ( θ ) = ∑ i = 1 n ∂ ∂ θ ln f ( X i ; θ ) = 0 \frac{\mathrm{d}}{\mathrm{d}\theta} \ln L(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \ln f(X_i;\theta) = 0 dθdlnL(θ)=i=1∑n∂θ∂lnf(Xi;θ)=0
对于一类常见的分布,如正态分布、泊松分布等,可以通过求导得到极大似然估计。如果无法通过求导得到解析解,可以使用数值方法求解。
接下来使用 Fisher 信息证明 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE 是最小方差无偏估计(UMVUE)。设任意无偏估计 θ ~ \tilde{\theta} θ~ 的方差为 V a r ( θ ~ ) \mathrm{Var}(\tilde{\theta}) Var(θ~),则有:
V a r ( θ ~ ) ≥ 1 n I ( θ ) \mathrm{Var}(\tilde{\theta}) \ge \frac{1}{n\mathcal{I}(\theta)} Var(θ~)≥nI(θ)1
其中, I ( θ ) \mathcal{I}(\theta) I(θ) 是 Fisher 信息,定义为:
I ( θ ) = − E [ ∂ 2 ∂ θ 2 ln f ( X ; θ ) ] \mathcal{I}(\theta)=-\mathbb{E}\left[\frac{\partial^2}{\partial\theta^2}\ln f(X;\theta)\right] I(θ)=−E[∂θ2∂2lnf(X;θ)]
对于极大似然估计 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE,其 Fisher 信息量可以表示为:
I ( θ M L E ) = − E [ ∂ 2 ∂ θ 2 ln L ( θ M L E ) ] \mathcal{I}(\theta_{\mathrm{MLE}})=-\mathbb{E}\left[\frac{\partial^2}{\partial\theta^2}\ln L(\theta_{\mathrm{MLE}})\right] I(θMLE)=−E[∂θ2∂2lnL(θMLE)]
考虑到在极大似然估计时 ∂ ∂ θ ln L ( θ M L E ) = 0 \frac{\partial}{\partial\theta}\ln L(\theta_{\mathrm{MLE}})=0 ∂θ∂lnL(θMLE)=0,因此一阶导数为零,可以对 I ( θ ) \mathcal{I}(\theta) I(θ) 进行泰勒展开( f ′ ′ f'' f′′ 表示二阶偏导数):
I ( θ ) = − E [ f ′ ′ ( X ; θ ) ] + E [ f ′ ( X ; θ ) ] 2 \mathcal{I}(\theta)=-\mathbb{E}[f''(X;\theta)]+\mathbb{E}[f'(X;\theta)]^2 I(θ)=−E[f′′(X;θ)]+E[f′(X;θ)]2
当估计值 θ ^ \hat{\theta} θ^ 为 UMVUE 时,它满足 Cramér-Rao 不等式的等号条件,即 V a r ( θ ^ ) = 1 n I ( θ ) \mathrm{Var}(\hat{\theta})=\frac{1}{n\mathcal{I}(\theta)} Var(θ^)=nI(θ)1。因此,只需要证明 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE 满足 Cramér-Rao 不等式的等号条件即可。
设 θ ~ \tilde{\theta} θ~ 是任意无偏估计,则:
V a r ( θ ~ ) ≥ 1 n I ( θ ) = 1 n E [ − f ′ ′ ( X ; θ M L E ) ] + E [ f ′ ( X ; θ M L E ) ] 2 ≥ 1 n E [ − f ′ ′ ( X ; θ M L E ) ] = V a r ( θ ^ M L E ) \begin{aligned} \mathrm{Var}(\tilde{\theta}) &\ge \frac{1}{n\mathcal{I}(\theta)} \\ &=\frac{1}{n\mathbb{E}[-f''(X;\theta_{\mathrm{MLE}})]+\mathbb{E}[f'(X;\theta_{\mathrm{MLE}})]^2}\\ &\ge \frac{1}{n\mathbb{E}[-f''(X;\theta_{\mathrm{MLE}})]} \\ &=\mathrm{Var}(\hat{\theta}_{\mathrm{MLE}}) \end{aligned} Var(θ~)≥nI(θ)1=nE[−f′′(X;θMLE)]+E[f′(X;θMLE)]21≥nE[−f′′(X;θMLE)]1=Var(θ^MLE)
其中,第二个不等式是由于 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE 是使得 Fisher 信息量最大的估计值,因此有 I ( θ M L E ) ≥ I ( θ ~ ) \mathcal{I}(\theta_{\mathrm{MLE}}) \ge \mathcal{I}(\tilde{\theta}) I(θMLE)≥I(θ~);第三个不等式是因为对于 θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE,有 E [ f ′ ( X ; θ M L E ) ] = 0 \mathbb{E}[f'(X;\theta_{\mathrm{MLE}})]=0 E[f′(X;θMLE)]=0,即其一阶导数的期望为零。
综上所述, θ ^ M L E \hat{\theta}_{\mathrm{MLE}} θ^MLE 是给定总体参数的极大似然估计,并且是最小方差无偏估计(UMVUE)。
对于正态总体均值的假设检验,我们可以使用 t t t 检验。设总体均值为 μ \mu μ,样本均值为 x ˉ \bar{x} xˉ,样本标准差为 s s s,样本容量为 n n n,则检验的假设为:
H 0 : μ = μ 0 H_0: \mu=\mu_0 H0:μ=μ0
H 1 : μ ≠ μ 0 H_1: \mu\neq\mu_0 H1:μ=μ0
其中, μ 0 \mu_0 μ0 是给定的常数。根据中心极限定理,当样本容量 n n n 足够大时,样本均值 x ˉ \bar{x} xˉ 的分布近似为正态分布。因此,我们可以利用 t t t 分布来进行假设检验:
t = x ˉ − μ 0 s / n t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}} t=s/nxˉ−μ0
若 ∣ t ∣ > t α / 2 , n − 1 |t|>t_{\alpha/2,n-1} ∣t∣>tα/2,n−1,则拒绝原假设,其中 t α / 2 , n − 1 t_{\alpha/2,n-1} tα/2,n−1 是 t t t 分布的上分位数。否则,接受原假设。
对于确定样本容量,我们需要根据Ⅱ类风险来确定。假设我们希望在给定显著性水平 α \alpha α 下,有 1 − β 1-\beta 1−β 的概率检测到实际均值与假设均值之间的差异,其中 β \beta β 表示Ⅱ类错误的概率。根据样本容量公式,我们可以得到:
n = ( z α / 2 + z β δ ) 2 n=\left(\frac{z_{\alpha/2}+z_{\beta}}{\delta}\right)^2 n=(δzα/2+zβ)2
其中, z α / 2 z_{\alpha/2} zα/2 和 z β z_{\beta} zβ 分别是正态分布的上分位数, δ \delta δ 表示实际均值与假设均值之间的差异。根据中心极限定理,当样本容量足够大时,样本均值的标准误为 s n \frac{s}{\sqrt{n}} ns。
线性正态回归模型参数的最小二乘估计可以通过最小化残差平方和来得到。具体而言,对于线性正态回归模型
Y = β 0 + β 1 X 1 + ⋯ + β p X p + ϵ Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \epsilon Y=β0+β1X1+⋯+βpXp+ϵ
其中 Y Y Y 是因变量, X 1 , ⋯ , X p X_1, \cdots, X_p X1,⋯,Xp 是自变量, ϵ \epsilon ϵ 是误差项,我们可以用最小二乘法估计出参数 β 0 , β 1 , ⋯ , β p \beta_0, \beta_1, \cdots, \beta_p β0,β1,⋯,βp 的值,使得残差平方和最小化。最小二乘估计量可以表示为:
β ^ = ( X T X ) − 1 X T Y \hat{\beta} = (X^T X)^{-1} X^T Y β^=(XTX)−1XTY
其中, X X X 是 n × ( p + 1 ) n \times (p+1) n×(p+1) 的矩阵,第 i i i 行为 ( 1 , X i 1 , ⋯ , X i p ) (1, X_{i1}, \cdots, X_{ip}) (1,Xi1,⋯,Xip), Y Y Y 是 n × 1 n \times 1 n×1 的列向量。
为了判断线性正态回归模型的最小二乘估计量是否独立,需要计算它们的协方差矩阵。设 β ^ \hat{\beta} β^ 是参数的最小二乘估计量, σ 2 \sigma^2 σ2 是误差项的方差,则 β ^ \hat{\beta} β^ 的协方差矩阵可以表示为:
Cov ( β ^ ) = σ 2 ( X T X ) − 1 \operatorname{Cov}(\hat{\beta}) = \sigma^2(X^T X)^{-1} Cov(β^)=σ2(XTX)−1
如果误差项的方差 σ 2 \sigma^2 σ2 已知,则 β ^ \hat{\beta} β^ 的协方差矩阵可以直接计算出来。否则,需要使用无偏估计量 s 2 s^2 s2 来代替 σ 2 \sigma^2 σ2,其中:
s 2 = ∑ i = 1 n ϵ i ^ 2 n − p − 1 = SSR n − p − 1 s^2 = \frac{\sum_{i=1}^n \hat{\epsilon_i}^2}{n-p-1} = \frac{\operatorname{SSR}}{n-p-1} s2=n−p−1∑i=1nϵi^2=n−p−1SSR
其中, ϵ i ^ \hat{\epsilon_i} ϵi^ 是残差, SSR \operatorname{SSR} SSR 是残差平方和。如果 β ^ \hat{\beta} β^ 的协方差矩阵对角线上的元素都是正数,则说明最小二乘估计量是独立的。否则,它们之间存在一定程度的相关性。