概率论与数理统计基础知识整理

概率论与数理统计基础知识整理

    • 基本概率公式
    • 一维随机变量的分布
      • 分布函数的应用
      • 离散型分布
        • 伯努利分布
        • 二项分布
        • 泊松分布
        • 几何分布
        • 超几何分布
      • 连续型分布
        • 均匀分布
        • 指数分布
        • 正态分布
          • 标准正态分布
    • 多维随机变量的分布
      • 联合分布函数
      • 边缘分布
      • 概率分布函数与概率密度
      • 边缘分布函数
      • 条件概率密度
      • 二维均匀分布
      • 二维正态分布
      • 随机变量函数的分布 (卷积公式)
      • 常见分布的可加性
      • 随机变量的数字特征
        • 一维随机变量的数字特征
        • 多维随机变量的数字特征
      • 大数定律与中心极限定理
        • 切比雪夫不等式
        • 切比雪夫大数定律
        • 伯努利大数定律
        • 辛钦大数定律
        • 列维-林德伯格定理
        • 棣莫弗-拉普拉斯定理
    • 数理统计与分布
      • 样本统计量
      • 顺序统计量 (次序统计量)
      • 常用统计量的性质
      • 三大分布
        • 卡方分布
        • t分布
        • F分布
      • 正态总体条件
      • 参数估计
        • 矩估计
        • 极大似然估计
      • 估计量的评价标准
      • 参数的区间估计
      • 假设检验

基本概率公式

  • 补集公式
    P ( A ˉ ) = 1 − P ( A ) P(\bar{A})=1-P(A) P(Aˉ)=1P(A)
  • 加法公式
    P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P(A+B)=P(A)+P(B)-P(A B) P(A+B)=P(A)+P(B)P(AB)
  • 减法公式
    P ( A − B ) = P ( A ) − P ( A B ) = P ( A B ˉ ) P(A-B)=P(A)-P(A B)=P(A \bar{B}) P(AB)=P(A)P(AB)=P(ABˉ)
  • 条件概率
    P ( B ∣ A ) = P ( A B ) P ( A ) P(B \mid A)=\frac{P(A B)}{P(A)} P(BA)=P(A)P(AB)
  • 乘法公式
    P ( A B ) = P ( A ) ⋅ P ( B ∣ A ) P(A B)=P(A) \cdot P(B \mid A) P(AB)=P(A)P(BA)
    P ( A B ) = P ( B ) ⋅ P ( A ∣ B ) P(A B)=P(B) \cdot P(A \mid B) P(AB)=P(B)P(AB)
  • 全概率公式
    P ( B ) = ∑ i = 1 n P ( A i ) ⋅ P ( B ∣ A i ) P(B)=\sum_{i=1}^{n} P\left(A_{i}\right) \cdot P\left(B \mid A_{i}\right) P(B)=i=1nP(Ai)P(BAi)
  • 贝叶斯公式
    P ( A j ∣ B ) = P ( A j B ) P ( B ) = P ( A j ) P ( B ∣ A j ) ∑ i = 1 n P ( A i ) ⋅ P ( B ∣ A i ) P\left(A_{j} \mid B\right)=\frac{P\left(A_{j} B\right)}{P(B)}=\frac{P\left(A_{j}\right) P\left(B \mid A_{j}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) \cdot P\left(B \mid A_{i}\right)} P(AjB)=P(B)P(AjB)=i=1nP(Ai)P(BAi)P(Aj)P(BAj)
  • 相互独立
    P ( A B ) = P ( A ) ⋅ P ( B ) P(A B)=P(A) \cdot P(B) P(AB)=P(A)P(B)

  如果随机变量 X X X Y Y Y相互独立,那么 g ( X ) g(X) g(X) g ( Y ) g(Y) g(Y)也相互独立

一维随机变量的分布

分布函数的应用

   F ( a − 0 ) F(a-0) F(a0) F ( X ) F(X) F(X) a a a处的左极限。

P { X ⩽ a } = F ( a ) P\{X \leqslant a\}=F(a) P{ Xa}=F(a)
P { X < a } = F ( a − 0 ) P\{XP{ X<a}=F(a0)
P { X = a } = F ( a ) − F ( a − 0 ) P\{X=a\}=F(a)-F(a-0) P{ X=a}=F(a)F(a0)
F ( x ) = P { X ⩽ x } = ∑ x i ⩽ x P { X = x i } F(x)=P\{X \leqslant x\}=\sum_{x_{i} \leqslant x} P\left\{X=x_{i}\right\} F(x)=P{ Xx}=xixP{ X=xi}
F ( x ) = P { X ⩽ x } = ∫ − ∞ x f ( t ) d t ( x ∈ R ) F(x)=P\{X \leqslant x\}=\int_{-\infty}^{x} f(t) d t(x \in R) F(x)=P{ Xx}=xf(t)dt(xR)
P { a < X < b } = P { a ⩽ X < b } = P { a < X ⩽ b } = P { a ⩽ X ⩽ b } = ∫ a b f ( t ) d t = F ( b ) − F ( a ) P\{aP{ a<X<b}=P{ aX<b}=P{ a<Xb}=P{ aXb}=abf(t)dt=F(b)F(a)

离散型分布

伯努利分布

  0-1 分布,(比如掷硬币,射箭中与不中)。

X ∼ B ( 1 , p ) P { X = k } = p k ( 1 − p ) 1 − k , ( k = 0 , 1 ) E X = p D X = p ( 1 − p ) \begin{aligned} X & \sim B(1, p) \\ P\{X=k\} &=p^{k}(1-p)^{1-k},(k=0,1) \\ E X &=p \\ D X &=p(1-p) \end{aligned} XP{ X=k}EXDXB(1,p)=pk(1p)1k,(k=0,1)=p=p(1p)

二项分布

  多次同分布试验(比如多次掷骰子,掷硬币)。

X ∼ B ( n , p ) P { X = k } = C n k p k ( 1 − p ) n − k , ( k = 0 , 1 , ⋯   , n ) E X = n p D X = n p ( 1 − p ) \begin{aligned} X & \sim B(n, p) \\ P\{X=k\} &=C_{n}^{k} p^{k}(1-p)^{n-k},(k=0,1, \cdots, n) \\ E X &=n p \\ D X &=n p(1-p) \end{aligned} XP{ X=k}EXDXB(n,p)=Cnkpk(1p)nk,(k=0,1,,n)=np=np(1p)

泊松分布

  质点流量(比如一段时间内买东西的顾客数量 k 的概率)。

X ∼ P ( λ ) P { X = k } = λ k k ! e − λ E X = λ D X = λ \begin{aligned} X & \sim P(\lambda) \\ P\{X=k\} &=\frac{\lambda^{k}}{k !} e^{-\lambda} \\ E X &=\lambda \\ D X &=\lambda \end{aligned} XP{ X=k}EXDXP(λ)=k!λkeλ=λ=λ

几何分布

  首中即停止,与几何无关,比如一直投篮知道投中为止,投篮次数 k的概率。

X ∼ G ( p ) P { X = k } = ( 1 − p ) k − 1 p E X = 1 p D X = 1 − p p 2 \begin{aligned} X & \sim G(p) \\ P\{X=k\} &=(1-p)^{k-1} p \\ E X &=\frac{1}{p} \\ D X &=\frac{1-p}{p^{2}} \end{aligned} XP{ X=k}EXDXG(p)=(1p)k1p=p1=p21p

超几何分布

  总共有 N N N 个球,其中有 M M M个是红色的,是从中不放回地取 n n n个球,其中有 k k k 个是红球的概率。

X ∼ H ( n , N , M ) P { X = k } = C M k C N − M n − k C N n , ( k ⩽ min ⁡ { M , n } ) E X = n M N D X = n M N ⋅ ( 1 − M N ) ⋅ N − n N − 1 \begin{aligned} X & \sim H(n, N, M) \\ P\{X=k\} &=\frac{C_{M}^{k} C_{N-M}^{n-k}}{C_{N}^{n}},(k \leqslant \min \{M, n\}) \\ E X &=n \frac{M}{N} \\ D X &=n \frac{M}{N} \cdot\left(1-\frac{M}{N}\right) \cdot \frac{N-n}{N-1} \end{aligned} XP{ X=k}EXDXH(n,N,M)=CNnCMkCNMnk,(kmin{ M,n})=nNM=nNM(1NM)N1Nn

连续型分布

均匀分布

X ∼ U ( a , b ) f ( x ) = { 1 b − a , a < x < b 0 , x =  other  F ( x ) = { 0 , x < a x − a b − a , a ⩽ x < b 1 , x ⩾ 0 E X = b + a 2 D X = ( b − a ) 2 12 \begin{aligned} X & \sim U(a, b) \\ f(x) &=\left\{\begin{array}{l}\frac{1}{b-a}, aXf(x)F(x)EXDXU(a,b)={ ba1,a<x<b0,x= other =0,x<abaxa,ax<b1,x0=2b+a=12(ba)2

指数分布

  质点间隔时间(与泊松分布相对,比如买东西的两个顾客之间连续的时间间隔)。

X ∼ E ( λ ) f ( x ) = { λ e − λ x , x > 0 0 , x ⩽ 0 \begin{aligned} X & \sim E(\lambda) \\ f(x) &=\left\{\begin{array}{l} \lambda e^{-\lambda x}, x>0 \\ 0, x \leqslant 0 \end{array}\right. \end{aligned} Xf(x)E(λ)={ λeλx,x>00,x0
F ( x ) = { 1 − e − λ x , x > 0 0 , x ⩽ 0 ( λ > 0 ) E X = 1 λ D X = 1 λ 2 \begin{aligned} F(x) &=\left\{\begin{array}{l} 1-e^{-\lambda x}, x>0 \\ 0, x \leqslant 0 \\ (\lambda>0) \end{array}\right.\\ E X &=\frac{1}{\lambda} \\ D X &=\frac{1}{\lambda^{2}} \end{aligned} F(x)EXDX=1eλx,x>00,x0(λ>0)=λ1=λ21

正态分布

  世间万物的终极法则,中心极限定理的归宿。

\begin{aligned}
X & \sim N\left(\mu, \sigma^{2}\right) \
f(x) &=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2} \frac{(x-\mu){2}}{\sigma{2}}} \
E X &=\mu \
D X &=\sigma^{2} \
F(x) &=P{X \leqslant x}=\Phi\left(\frac{x-\mu}{\sigma}\right) \
1 &=F(\mu-x)+F(\mu+x) \
P{a \leqslant X \leqslant b} &=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right) \
a X+b & \sim N\left(a \mu+b, a^{2} \sigma^{2}\right)
\end{aligned}

标准正态分布

X ∼ N ( 0 , 1 ) f ( x ) = 1 2 π e − 1 2 x 2 Φ ( 0 ) = 1 2 Φ ( − x ) = 1 − Φ ( x ) E X = 0 D X = 1 \begin{aligned} X & \sim N(0,1) \\ f(x) &=\frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} x^{2}} \\ \Phi(0) &=\frac{1}{2} \\ \Phi(-x) &=1-\Phi(x) \\ E X &=0 \\ D X &=1 \end{aligned} Xf(x)Φ(0)Φ(x)EXDXN(0,1)=2π 1e21x2=21=1Φ(x)=0=1

多维随机变量的分布

联合分布函数

F ( x , y ) = P { X ⩽ x , Y ⩽ y } = ∑ x i ⩽ x ∑ y j ⩽ y p i j F(x, y)=P\{X \leqslant x, Y \leqslant y\}=\sum_{x_{i} \leqslant x} \sum_{y_{j} \leqslant y} p_{i j} F(x,y)=P{ Xx,Yy}=xixyjypij

边缘分布

  • 离散情况:

p i . = P { X = X i } = ∑ j = 1 n P { X = x i , Y = y j } = ∑ j = i ∞ p i j ( i = 1 , 2 , ⋯   ) p_{i .}=P\left\{X=X_{i}\right\}=\sum_{j=1}^{n} P\left\{X=x_{i}, Y=y_{j}\right\}=\sum_{j=i}^{\infty} p_{i j}(i=1,2, \cdots) pi.=P{ X=Xi}=j=1nP{ X=xi,Y=yj}=j=ipij(i=1,2,)
p . j = P { Y = Y j } = ∑ i = 1 n P { X = x i , Y = y j } = ∑ i = i ∞ p i j ( i = 1 , 2 , ⋯   ) p_{. j}=P\left\{Y=Y_{j}\right\}=\sum_{i=1}^{n} P\left\{X=x_{i}, Y=y_{j}\right\}=\sum_{i=i}^{\infty} p_{i j}(i=1,2, \cdots) p.j=P{ Y=Yj}=i=1nP{ X=xi,Y=yj}=i=ipij(i=1,2,)

  • 连续情况:
      如果 X X X 是连续随机变量,其概率密度:

f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_{X}(x)=\int_{-\infty}^{+\infty} f(x, y) d y fX(x)=+f(x,y)dy

概率分布函数与概率密度

F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u d v F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u, v) d u d v F(x,y)=xyf(u,v)dudv

∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d x d y = 1 \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) d x d y=1 ++f(x,y)dxdy=1

∂ 2 F ( x , y ) ∂ x ∂ y = f ( x , y ) \frac{\partial^{2} F(x, y)}{\partial x \partial y}=f(x, y) xy2F(x,y)=f(x,y)

边缘分布函数

F x ( x ) = F ( x , + ∞ ) = ∫ − ∞ x [ ∫ − ∞ + ∞ f ( u , v ) d v ] d u F_{x}(x)=F(x,+\infty)=\int_{-\infty}^{x}\left[\int_{-\infty}^{+\infty} f(u, v) d v\right] d u Fx(x)=F(x,+)=x[+f(u,v)dv]du

条件概率密度

( X , Y ) ∼ f ( x , y ) (X, Y) \sim f(x, y) (X,Y)f(x,y) 边缘概率密度 f X ( x ) > 0 f_{X}(x)>0 fX(x)>0
f Y ∣ X ( y ∣ x ) = f ( x , y ) f X ( x ) f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_{X}(x)} fYX(yx)=fX(x)f(x,y)

二维均匀分布

f ( x , y ) = { 1 S D , ( x , y ) ∈ D 0 ,  other  f(x, y)=\left\{\begin{array}{l}\frac{1}{S_{D}},(x, y) \in D \\ 0, \text { other }\end{array}\right. f(x,y)={ SD1,(x,y)D0, other 

二维正态分布

( X , Y ) ∼ N ( μ 1 , μ 2 ; σ 1 2 , σ 2 2 ; ρ ) (X, Y) \sim N\left(\mu_{1}, \mu_{2} ; \sigma_{1}^{2}, \sigma_{2}^{2} ; \rho\right) (X,Y)N(μ1,μ2;σ12,σ22;ρ)
f ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp ⁡ { − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 σ 1 ) 2 − 2 ρ ( x − μ 1 σ 1 ) ( y − μ 2 σ 2 ) + ( y − μ 2 σ 2 ) 2 ] } f(x, y)=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\left(\frac{x-\mu_{1}}{\sigma_{1}}\right)^{2}-2 \rho\left(\frac{x-\mu_{1}}{\sigma_{1}}\right)\left(\frac{y-\mu_{2}}{\sigma_{2}}\right)+\left(\frac{y-\mu_{2}}{\sigma_{2}}\right)^{2}\right]\right\} f(x,y)=2πσ1σ21ρ2 1exp{ 2(1ρ2)1[(σ1xμ1)22ρ(σ1xμ1)(σ2yμ2)+(σ2yμ2)2]}

随机变量函数的分布 (卷积公式)

\begin{tabular}{c}

  1. X + Y X+Y X+Y 分布 \
    f Z ( z ) = ∫ − ∞ + ∞ f ( x , z − x ) d x = ∫ − ∞ + ∞ f ( z − y , y ) d y f_{Z}(z)=\int_{-\infty}^{+\infty} f(x, z-x) d x=\int_{-\infty}^{+\infty} f(z-y, y) d y fZ(z)=+f(x,zx)dx=+f(zy,y)dy
    =  独立  ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y \stackrel{\text { 独立 }}{=} \int_{-\infty}^{+\infty} f_{X}(x) f_{Y}(z-x) d x=\int_{-\infty}^{+\infty} f_{X}(z-y) f_{Y}(y) d y = 独立 +fX(x)fY(zx)dx=+fX(zy)fY(y)dy

  2. X − Y X-Y XY 分布
    f 1 ( z ) = ∫ − ∞ + ∞ f ( x , x − z ) d x = ∫ − ∞ + ∞ f ( y + z , y ) d y f_{1}(z)=\int_{-\infty}^{+\infty} f(x, x-z) d x=\int_{-\infty}^{+\infty} f(y+z, y) d y f1(z)=+f(x,xz)dx=+f(y+z,y)dy
    =  独立  ∫ − ∞ + ∞ f X ( y + z ) f Y ( y ) d y \stackrel{\text { 独立 }}{=} \int_{-\infty}^{+\infty} f_{X}(y+z) f_{Y}(y) d y = 独立 +fX(y+z)fY(y)dy

  3. X Y X Y XY 分布
    f Z ( z ) = ∫ − ∞ + ∞ 1 ∣ x ∣ f ( x , z x ) d x = ∫ − ∞ + ∞ 1 ∣ y ∣ f ( z y , y ) d y f_{Z}(z)=\int_{-\infty}^{+\infty} \frac{1}{|x|} f\left(x, \frac{z}{x}\right) d x=\int_{-\infty}^{+\infty} \frac{1}{|y|} f\left(\frac{z}{y}, y\right) d y fZ(z)=+x1f(x,xz)dx=+y1f(yz,y)dy
    =  独立  ∫ − ∞ + ∞ 1 ∣ x ∣ f X ( x ) f Y ( z x ) d x = ∫ − ∞ + ∞ 1 ∣ y ∣ f X ( z y ) f Y ( y ) d y \stackrel{\text { 独立 }}{=} \int_{-\infty}^{+\infty} \frac{1}{|x|} f_{X}(x) f_{Y}\left(\frac{z}{x}\right) d x=\int_{-\infty}^{+\infty} \frac{1}{|y|} f_{X}\left(\frac{z}{y}\right) f_{Y}(y) d y = 独立 +x1fX(x)fY(xz)dx=+y1fX(yz)fY(y)dy

  4. X Y \frac{X}{Y} YX 分布
    f Z ( z ) = ∫ − ∞ + ∞ ∣ y ∣ f ( y z , y ) d y f_{Z}(z)=\int_{-\infty}^{+\infty}|y| f(y z, y) d y fZ(z)=+yf(yz,y)dy
    =  独立  ∫ − ∞ + ∞ ∣ y ∣ f X ( y z ) f Y ( y ) d y \stackrel{\text { 独立 }}{=} \int_{-\infty}^{+\infty}|y| f_{X}(y z) f_{Y}(y) d y = 独立 +yfX(yz)fY(y)dy

  5. max ⁡ { X , Y } \max \{X, Y\} max{ X,Y} 分布
    F max ⁡ ( z ) = P { max ⁡ { X , Y } ⩽ z } F_{\max }(z)=P\{\max \{X, Y\} \leqslant z\} Fmax(z)=P{ max{ X,Y}z}
    = P { X ⩽ z , Y ⩽ z } =P\{X \leqslant z, Y \leqslant z\} =P{ Xz,Yz}
    = F ( z , z ) =F(z, z) =F(z,z)
    =  独立  F X ( z ) F Y ( z ) \stackrel{\text { 独立 }}{=} F_{X}(z) F_{Y}(z) = 独立 FX(z)FY(z)

  6. min ⁡ { X , Y } \min \{X, Y\} min{ X,Y} 分布
    F min ⁡ ( z ) = P { min ⁡ { X , Y } ⩽ z } F_{\min }(z)=P\{\min \{X, Y\} \leqslant z\} Fmin(z)=P{ min{ X,Y}z}
    = P { { X ⩽ z } ∪ { Y ⩽ z } } \quad=P\{\{X \leqslant z\} \cup\{Y \leqslant z\}\} =P{ { Xz}{ Yz}}
    = P { X ⩽ z } + P { Y ⩽ z } − P { X ⩽ z , Y ⩽ z } \quad=P\{X \leqslant z\}+P\{Y \leqslant z\}-P\{X \leqslant z, Y \leqslant z\} =P{ Xz}+P{ Yz}P{ Xz,Yz}
    = F X ( z ) + F Y ( z ) − F ( z , z ) \quad=F_{X}(z)+F_{Y}(z)-F(z, z) =FX(z)+FY(z)F(z,z)
    =  独立  F X ( z ) + F Y ( z ) − F X ( z ) F Y ( z ) \stackrel{\text { 独立 }}{=}F_{X}(z)+F_{Y}(z)-F_{X}(z) F_{Y}(z) = 独立 FX(z)+FY(z)FX(z)FY(z)
    = 1 − [ 1 − F X ( z ) ] [ 1 − F Y ( z ) ] =1-\left[1-F_{X}(z)\right]\left[1-F_{Y}(z)\right] =1[1FX(z)][1FY(z)]

常见分布的可加性

X ∼ B ( n , p ) , Y ∼ B ( m , p ) ⇒ X + Y ∼ B ( n + m , p ) X \sim B(n, p), Y \sim B(m, p) \Rightarrow X+Y \sim B(n+m, p) XB(n,p),YB(m,p)X+YB(n+m,p)
X ∼ P ( λ 1 ) , Y ∼ P ( λ 2 ) ⇒ X + Y ∼ P ( λ 1 + λ 2 ) X \sim P\left(\lambda_{1}\right), Y \sim P\left(\lambda_{2}\right) \Rightarrow X+Y \sim P\left(\lambda_{1}+\lambda_{2}\right) XP(λ1),YP(λ2)X+YP(λ1+λ2)
X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) ⇒ X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) \Rightarrow X+Y \sim N\left(\mu_{1}+\mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right) XN(μ1,σ12),YN(μ2,σ22)X+YN(μ1+μ2,σ12+σ22)
X ∼ χ 2 ( n ) , Y ∼ χ 2 ( m ) ⇒ X + Y ∼ χ 2 ( n + m ) X \sim \chi^{2}(n), Y \sim \chi^{2}(m) \Rightarrow X+Y \sim \chi^{2}(n+m) Xχ2(n),Yχ2(m)X+Yχ2(n+m)

随机变量的数字特征

一维随机变量的数字特征

  • 期望

E X = ∑ i = 1 ∞ x i p i E X=\sum_{i=1}^{\infty} x_{i} p_{i} EX=i=1xipi
E X = ∫ − ∞ + ∞ x f ( x ) d x E X=\int_{-\infty}^{+\infty} x f(x) d x EX=+xf(x)dx

E ( ∑ i = 1 n a i X i ) = ∑ i = 1 n a i E X i E c = c E ( a X + c ) = a E X + c E ( X ± Y ) = E X ± E Y E ( X Y ) =  独立  E X E Y \begin{aligned} E\left(\sum_{i=1}^{n} a_{i} X_{i}\right) &=\sum_{i=1}^{n} a_{i} E X_{i} \\ E c &=c \\ E(a X+c) &=a E X+c \\ E(X \pm Y) &=E X \pm E Y \\ E(X Y) & \stackrel{\text { 独立 }}{=} E X E Y \end{aligned} E(i=1naiXi)EcE(aX+c)E(X±Y)E(XY)=i=1naiEXi=c=aEX+c=EX±EY= 独立 EXEY

  • 方差

D X = Var ⁡ ( X ) = E ( X − E X ) 2 = E ( X 2 ) − ( E X ) 2 D ( a X + b ) = a 2 D X D ( X ± Y ) = D X + D Y ± 2 Cov ⁡ ( X , Y ) E ( X 2 ) = D X + ( E X ) 2 X ∗ = X − E X D X D X = E ( X − E X ) 2 ⩽ E ( X − c ) 2 \begin{aligned} D X &=\operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2} \\ D(a X+b) &=a^{2} D X \\ D(X \pm Y) &=D X+D Y \pm 2 \operatorname{Cov}(X, Y) \\ E\left(X^{2}\right) &=D X+(E X)^{2} \\ X^{*} &=\frac{X-E X}{\sqrt{D X}} \\ D X &=E(X-E X)^{2} \leqslant E(X-c)^{2} \end{aligned} DXD(aX+b)D(X±Y)E(X2)XDX=Var(X)=E(XEX)2=E(X2)(EX)2=a2DX=DX+DY±2Cov(X,Y)=DX+(EX)2=DX XEX=E(XEX)2E(Xc)2

如果 X , Y X, Y X,Y 独立:
D ( a X + b Y ) = a 2 D X + b 2 D Y D ( X Y ) = D X ⋅ D Y + D X ( E Y ) 2 + D Y ( E X ) 2 ⩾ D X ⋅ D Y \begin{aligned} D(a X+b Y) &=a^{2} D X+b^{2} D Y \\ D(X Y) &=D X \cdot D Y+D X(E Y)^{2}+D Y(E X)^{2} \geqslant D X \cdot D Y \end{aligned} D(aX+bY)D(XY)=a2DX+b2DY=DXDY+DX(EY)2+DY(EX)2DXDY

多维随机变量的数字特征

Cov ⁡ ( X , Y ) = E ( ( X − E X ) ( Y − E Y ) ) = E ( X Y ) − E X E Y ρ X Y = Cov ⁡ ( X , Y ) D X D Y \begin{aligned} \operatorname{Cov}(X, Y) &=E((X-E X)(Y-E Y))=E(X Y)-E X E Y \\ \rho_{X Y} &=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D X} \sqrt{D Y}} \end{aligned} Cov(X,Y)ρXY=E((XEX)(YEY))=E(XY)EXEY=DX DY Cov(X,Y)

E ( X Y ) = { ∑ i ∑ j x i y j P { X = x i , Y = y j }  离散型  ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y f ( x , y ) d x d y  连 续型  E(X Y)=\left\{\begin{array}{l}\sum_{i} \sum_{j} x_{i} y_{j} P\left\{X=x_{i}, Y=y_{j}\right\} \text { 离散型 } \\ \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x y f(x, y) d x d y \text { 连 续型 }\end{array}\right. E(XY)={ ijxiyjP{ X=xi,Y=yj} 离散型 ++xyf(x,y)dxdy  续型 

  • 对称性

Cov ⁡ ( X , Y ) = Cov ⁡ ( Y , X ) ρ X Y = ρ Y X Cov ⁡ ( X , X ) = D X ρ X X = 1 \begin{aligned} \operatorname{Cov}(X, Y) &=\operatorname{Cov}(Y, X) \\ \rho_{X Y} &=\rho_{Y X} \\ \operatorname{Cov}(X, X) &=D X \\ \rho_{X X} &=1 \end{aligned} Cov(X,Y)ρXYCov(X,X)ρXX=Cov(Y,X)=ρYX=DX=1

  • 线性性

Cov ⁡ ( X , c ) = 0 Cov ⁡ ( a X + b , Y ) = a Cov ⁡ ( X , Y ) Cov ⁡ ( X 1 + X 2 , Y ) = Cov ⁡ ( X 1 , Y ) + Cov ⁡ ( X 2 , Y ) \begin{aligned} \operatorname{Cov}(X, c) &=0 \\ \operatorname{Cov}(a X+b, Y) &=a \operatorname{Cov}(X, Y) \\ \operatorname{Cov}\left(X_{1}+X_{2}, Y\right) &=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right) \end{aligned} Cov(X,c)Cov(aX+b,Y)Cov(X1+X2,Y)=0=aCov(X,Y)=Cov(X1,Y)+Cov(X2,Y)

  • 相关系数有界性

∣ ρ X Y ∣ ⩽ 1 \left|\rho_{X Y}\right| \leqslant 1 ρXY1
如果 Y = a X + b Y=a X+b Y=aX+b 则:
ρ X Y = { 1 , a > 0 − 1 , a < 0 \rho_{X Y}=\left\{\begin{array}{l} 1, a>0 \\ -1, a<0 \end{array}\right. ρXY={ 1,a>01,a<0

大数定律与中心极限定理

切比雪夫不等式

  如果随机变量 X X X 的方差 D X D X DX 存在, 则对任意 ε > 0 \varepsilon>0 ε>0 有:
P { ∣ X − E X ∣ ⩾ ε } ⩽ D X ε 2 P\{|X-E X| \geqslant \varepsilon\} \leqslant \frac{D X}{\varepsilon^{2}} P{ XEXε}ε2DX
P { ∣ X − E X ∣ < ε } ⩾ 1 − D X ε 2 P\{|X-E X|<\varepsilon\} \geqslant 1-\frac{D X}{\varepsilon^{2}} P{ XEX<ε}1ε2DX

切比雪夫大数定律

  假设 { X n } ( n = 1 , 2 , ⋯   ) \left\{X_{n}\right\}(n=1,2, \cdots) { Xn}(n=1,2,) 是相互独立的随机变量序列, 如果方差 D X k ( k ⩾ 1 ) D X_{k}(k \geqslant 1) DXk(k1) 存在且一致有上界, 即存在 常数 C C C 使 D X k ⩽ C D X_{k} \leqslant C DXkC 对一切 k ⩾ 1 k \geqslant 1 k1 均成立, 则 { X n } \left\{X_{n}\right\} { Xn} 服从大数定律:
1 n ∑ i = 1 n X i → P 1 n ∑ i = 1 n E X i \frac{1}{n} \sum_{i=1}^{n} X_{i} \stackrel{P}{\rightarrow} \frac{1}{n} \sum_{i=1}^{n} E X_{i} n1i=1nXiPn1i=1nEXi

伯努利大数定律

  假设 μ n \mu_{n} μn n n n 重伯努利试验中事件 A A A 发生的次数,在每次试验中事件 A A A 发生的概率为 p ( 0 < p < 1 ) p(0p(0<p<1), 则 μ n n → P p , \frac{\mu_{n}}{n} \stackrel{P}{\rightarrow} p, nμnPp, 即对任意 ε > 0 \varepsilon>0 ε>0 有:
lim ⁡ n → ∞ P { ∣ μ n n − p ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{\mu_{n}}{n}-p\right|<\varepsilon\right\}=1 limnP{ nμnp<ε}=1

辛钦大数定律

  假设 { X n } \left\{X_{n}\right\} { Xn} 是独立同分布的随机变量序列, 如果 E X n = μ E X_{n}=\mu EXn=μ 存在, 则 1 n ∑ i = i n X i → P μ , \frac{1}{n} \sum_{i=i}^{n} X_{i} \stackrel{P}{\rightarrow} \mu, n1i=inXiPμ, 即对任意 ε > 0 \varepsilon>0 ε>0 有:
lim ⁡ n → ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^{n} X_{i}-\mu\right|<\varepsilon\right\}=1 limnP{ n1i=1nXiμ<ε}=1

列维-林德伯格定理

  假设 { X n } \left\{X_{n}\right\} { Xn} 是独立同分布的随机变量序列, 如果 E X n = μ , D X n = σ 2 > 0 ( n ⩾ 0 ) E X_{n}=\mu, D X_{n}=\sigma^{2}>0(n \geqslant 0) EXn=μ,DXn=σ2>0(n0) 存在, 则 { X n } \left\{X_{n}\right\} { Xn} 服从 中心极限定理, 即对任意的实数 x x x 有:
lim ⁡ n → ∞ P { ∑ i = 1 n X i − n μ n σ ⩽ x } = 1 2 π ∫ − ∞ x e − t 2 2 d t = Φ ( x ) \lim _{n \rightarrow \infty} P\left\{\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} \leqslant x\right\}=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} e^{-\frac{t^{2}}{2}} d t=\Phi(x) limnP{ n σi=1nXinμx}=2π 1xe2t2dt=Φ(x)

棣莫弗-拉普拉斯定理

  假设随机变量 Y n ∼ B ( n , p ) ( 0 < p < 1 , n ⩾ 1 ) , Y_{n} \sim B(n, p)(0YnB(n,p)(0<p<1,n1), 则对任意实数 x , x, x, 有:
lim ⁡ n → ∞ { Y n − n p n p ( 1 − p ) ⩽ x } = 1 2 π ∫ − ∞ x e − t 2 2 d t = Φ ( x ) \lim _{n \rightarrow \infty}\left\{\frac{Y_{n}-n p}{\sqrt{n p(1-p)}} \leqslant x\right\}=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} e^{-\frac{t^{2}}{2}} d t=\Phi(x) limn{ np(1p) Ynnpx}=2π 1xe2t2dt=Φ(x)

数理统计与分布

样本统计量

  • 样本均值

X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Xˉ=n1i=1nXi

  • 样本方差

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\frac{1}{n-1}\left(\sum_{i=1}^{n} X_{i}^{2}-n \bar{X}^{2}\right) S2=n11i=1n(XiXˉ)2=n11(i=1nXi2nXˉ2)

  • 样本标准差

S = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} S=n11i=1n(XiXˉ)2

  • 样本 k k k 阶原点矩

A k = 1 n ∑ i = 1 n X i k ( k = 1 , 2 , ⋯   ) A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}(k=1,2, \cdots) Ak=n1i=1nXik(k=1,2,)

  • 样本 k k k 阶中心矩

B k = 1 n ∑ i = 1 n ( X i − X ˉ ) k ( k = 1 , 2 , ⋯   ) B_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}(k=1,2, \cdots) Bk=n1i=1n(XiXˉ)k(k=1,2,)

顺序统计量 (次序统计量)

  将样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn n n n 个观测量按其取值从大到小的顺序排列得:
X ( 1 ) ⩽ X ( 2 ) ⩽ ⋯ ⩽ X ( n ) X_{(1)} \leqslant X_{(2)} \leqslant \cdots \leqslant X_{(n)} X(1)X(2)X(n)

  随机变量 X ( k ) ( k = 1 , 2 , ⋯   , n ) X_{(k)}(k=1,2, \cdots, n) X(k)(k=1,2,,n) 称作 第k顺序统计量, 其中 X ( 1 ) X_{(1)} X(1) 是最小观测量, 而 X ( n ) X_{(n)} X(n) 是最大观测量。

X ( 1 ) = min ⁡ { X 1 , X 2 , ⋯   , X n } → F ( 1 ) ( x ) = 1 − [ 1 − F ( x ) ] n X_{(1)}=\min \left\{X_{1}, X_{2}, \cdots, X_{n}\right\} \rightarrow F_{(1)}(x)=1-[1-F(x)]^{n} X(1)=min{ X1,X2,,Xn}F(1)(x)=1[1F(x)]n

X ( n ) = max ⁡ { X 1 , X 2 , ⋯   , X n } → F ( n ) ( x ) = [ F ( x ) ] n X_{(n)}=\max \left\{X_{1}, X_{2}, \cdots, X_{n}\right\} \rightarrow F_{(n)}(x)=[F(x)]^{n} X(n)=max{ X1,X2,,Xn}F(n)(x)=[F(x)]n

常用统计量的性质

E X i = μ D X i = σ 2 E X ˉ = E X = μ D X ˉ = 1 n D X = σ 2 n E ( S 2 ) = D X = σ 2 \begin{aligned} E X_{i} &=\mu \\ D X_{i} &=\sigma^{2} \\ E \bar{X} &=E X=\mu \\ D \bar{X} &=\frac{1}{n} D X=\frac{\sigma^{2}}{n} \\ E\left(S^{2}\right) &=D X=\sigma^{2} \end{aligned} EXiDXiEXˉDXˉE(S2)=μ=σ2=EX=μ=n1DX=nσ2=DX=σ2

三大分布

卡方分布

  若随机变量 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn 相互独立,且都服从标准正态分布,则随机变量
X = ∑ i = 1 n X i 2 X=\sum_{i=1}^{n} X_{i}^{2} X=i=1nXi2
  服从自由度为 n n n χ 2 \chi^{2} χ2 分布, 记为 X ∼ χ 2 ( n ) , X \sim \chi^{2}(n), Xχ2(n), 特别地, X i ∼ χ 2 ( 1 ) X_{i} \sim \chi^{2}(1) Xiχ2(1)
对给定的 α ( 0 < α < 1 ) \alpha(0<\alpha<1) α(0<α<1) 称满足:
P { χ 2 > χ α 2 ( n ) } = ∫ χ α 2 ( n ) + ∞ f ( x ) d x = α P\left\{\chi^{2}>\chi_{\alpha}^{2}(n)\right\}=\int_{\chi_{\alpha}^{2}(n)}^{+\infty} f(x) d x=\alpha P{ χ2>χα2(n)}=χα2(n)+f(x)dx=α
χ α 2 ( n ) \chi_{\alpha}^{2}(n) χα2(n) χ 2 ( n ) \chi^{2}(n) χ2(n) 分布的 上\alpha分位点。

  若 X 1 ∼ χ 2 ( n 1 ) , X 2 ∼ χ 2 ( n 2 ) , X 1 X_{1} \sim \chi^{2}\left(n_{1}\right), X_{2} \sim \chi^{2}\left(n_{2}\right), X_{1} X1χ2(n1),X2χ2(n2),X1 X 2 X_{2} X2 相互独立, 则 X 1 + X 2 ∼ χ 2 ( n 1 + n 2 ) X_{1}+X_{2} \sim \chi^{2}\left(n_{1}+n_{2}\right) X1+X2χ2(n1+n2)

  若 X ∼ χ 2 ( n ) , X \sim \chi^{2}(n), Xχ2(n), E X = n , D X = 2 n E X=n, D X=2 n EX=n,DX=2n

t分布

  设随机变量 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) , X X \sim N(0,1), Y \sim \chi^{2}(n), X XN(0,1),Yχ2(n),X Y Y Y 相互独立, 则随机变量:
t = X Y / n t=\frac{X}{\sqrt{Y / n}} t=Y/n X

服从自由度为 n n n 的 t分布, 记为 t ∼ t ( n ) t \sim t(n) tt(n)

  • t分布的性质

P { t > − t α ( n ) } = P { t > t 1 − α ( n ) } P\left\{t>-t_{\alpha}(n)\right\}=P\left\{t>t_{1-\alpha}(n)\right\} P{ t>tα(n)}=P{ t>t1α(n)}

F分布

  设随机变量 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) , X X \sim \chi^{2}\left(n_{1}\right), Y \sim \chi^{2}\left(n_{2}\right), X Xχ2(n1),Yχ2(n2),X Y Y Y 相互独立, 则随机变量:
f = X / n 1 Y / n 2 f=\frac{X / n_{1}}{Y / n_{2}} f=Y/n2X/n1

服从自由度为 n 1 , n 2 n_{1}, n_{2} n1,n2 的队分布, 记为 F ∼ F ( n 1 , n 2 ) F \sim F\left(n_{1}, n_{2}\right) FF(n1,n2)

  • F分布的性质

X ∼ F ( n 1 , n 2 ) ⇒ 1 X ∼ F ( n 2 , n 1 ) X \sim F\left(n_{1}, n_{2}\right) \Rightarrow \frac{1}{X} \sim F\left(n_{2}, n_{1}\right) XF(n1,n2)X1F(n2,n1)
F 1 − α ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha}\left(n_{1}, n_{2}\right)=\frac{1}{F_{\alpha}\left(n_{2}, n_{1}\right)} F1α(n1,n2)=Fα(n2,n1)1

正态总体条件

  设 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn 是取自正态总体 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的一个样本, X ˉ , S 2 \bar{X}, S^{2} Xˉ,S2 分别是样本的均值和方差, 则:
X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) XˉN(μ,nσ2)

X ˉ − μ σ n = n ( X ˉ − μ ) σ ∼ N ( 0 , 1 ) \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{\sqrt{n}(\bar{X}-\mu)} {\sigma} \sim N(0,1) n σXˉμ=σn (Xˉμ)N(0,1)

1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi^{2}(n) σ21i=1n(Xiμ)2χ2(n)

( n − 1 ) S 2 σ 2 = ∑ i = 1 n ( X i − X ˉ σ ) 2 ∼ χ 2 ( n − 1 ) \frac{(n-1) S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\bar{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1) σ2(n1)S2=i=1n(σXiXˉ)2χ2(n1)

   X ˉ \bar{X} Xˉ S 2 S^{2} S2 相互独立:

n ( X ˉ − μ ) S ∼ t ( n − 1 ) \frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1) Sn (Xˉμ)t(n1)

n ( X ˉ − μ ) 2 S 2 ∼ F ( 1 , n − 1 ) \frac{n(\bar{X}-\mu)^{2}}{S^{2}} \sim F(1, n-1) S2n(Xˉμ)2F(1,n1)

  设 X 1 , X 2 , ⋯   , X m X_{1}, X_{2}, \cdots, X_{m} X1,X2,,Xm Y 1 , Y 2 , ⋯   , Y n Y_{1}, Y_{2}, \cdots, Y_{n} Y1,Y2,,Yn 来自两个正态总体 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right) XN(μ1,σ12),YN(μ2,σ22) 且相互独立, X ˉ , Y ˉ , S X 2 , S Y 2 \bar{X}, \bar{Y}, S_{X}^{2}, S_{Y}^{2} Xˉ,Yˉ,SX2,SY2 相互独立 。

X ˉ − Y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 m + σ 2 2 n ) \bar{X}-\bar{Y} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{m}+\frac{\sigma_{2}^{2}}{n}\right) XˉYˉN(μ1μ2,mσ12+nσ22)

( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 m + σ 2 2 n ∼ N ( 0 , 1 ) \frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{m}+\frac{\sigma_{2}^{2}}{n}}} \sim N(0,1) mσ12+nσ22 (XˉYˉ)(μ1μ2)N(0,1)

∑ i = 1 m ( X i − μ 1 ) 2 / m σ 1 2 ∑ i = 1 n ( Y i − μ 2 ) 2 / n σ 2 2 ∼ F ( m , n ) \frac{\sum_{i=1}^{m}\left(X_{i}-\mu_{1}\right)^{2} / m \sigma_{1}^{2}}{\sum_{i=1}^{n}\left(Y_{i}-\mu_{2}\right)^{2} / n \sigma_{2}^{2}} \sim F(m, n) i=1n(Yiμ2)2/nσ22i=1m(Xiμ1)2/mσ12F(m,n)

S X 2 / σ 1 2 S Y 2 / σ 2 2 = ∑ i = 1 m ( X i − X ˉ ) 2 / ( m − 1 ) σ 1 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 / ( n − 1 ) σ 2 2 ∼ F ( m − 1 , n − 1 ) \frac{S_{X}^{2} / \sigma_{1}^{2}}{S_{Y}^{2} / \sigma_{2}^{2}}=\frac{\sum_{i=1}^{m}\left(X_{i}-\bar{X}\right)^{2} /(m-1) \sigma_{1}^{2}}{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2} /(n-1) \sigma_{2}^{2}} \sim F(m-1, n-1) SY2/σ22SX2/σ12=i=1n(YiYˉ)2/(n1)σ22i=1m(XiXˉ)2/(m1)σ12F(m1,n1)

参数估计

矩估计

  令样本矩 = = = 总体矩, 写出 θ \theta θ 表达式。
  将样本均值, 近似等于总体均值, 进而利用样本均值来代替总体期望, 然后利用该期望求得其他未知参数。

极大似然估计

  写出似然函数:
L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta)=L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right) L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)
  可能的话, 对 θ \theta θ 求导, 导数赋值为0;
  求处L函数最大值时, θ \theta θ 的代数式。

正态分布关于 μ \mu μ σ 2 \sigma^{2} σ2 的矩估计和 极大似然估计相等 μ ^ = X ˉ , σ ^ 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n \hat{\mu}=\bar{X}, \quad \hat{\sigma}^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n} μ^=Xˉ,σ^2=ni=1n(XiXˉ)2
指数分布 关于 λ \lambda λ 的 矩估计 和 极大似然估计 相等 λ ^ = 1 / X ˉ \hat{\lambda}=1 / \bar{X} λ^=1/Xˉ
二项分布 关于 p p p 的 矩估计 和 极大似然估计 相等 p ^ = X ˉ / n \hat{p}=\bar{X} / n p^=Xˉ/n
泊松分布 关于 λ \lambda λ 的 矩估计和 极大似然估计 相等 λ ^ = X ˉ \hat{\lambda}=\bar{X} λ^=Xˉ

估计量的评价标准

  • 无偏性
    若参数 θ \theta θ 的估计量 θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}=\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right) θ^=θ^(X1,X2,,Xn) 对一切 n n n θ ∈ Θ \theta \in \Theta θΘ E ( θ ^ ) = θ , E(\hat{\theta})=\theta, E(θ^)=θ, 则称 θ ^ \hat{\theta} θ^ θ \theta θ 的 无偏估计 量, 否则为 有偏估计量。

  • 有效性
     设  θ ^ 1 = θ ^ 1 ( X 1 , X 2 , ⋯   , X n )  与  θ 2 ^ = θ 2 ^ ( X 1 , X 2 , ⋯   , X n )  都是  θ  的无偏估计量, 如果  D ( θ 1 ^ ) < D ( θ 2 ^ )  ,   则称  θ ^ 1  比  θ 2 ^  有效。。  \begin{aligned} &\text { 设 } \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \text { 与 } \hat{\theta_{2}}=\hat{\theta_{2}}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \text { 都是 } \theta \text { 的无偏估计量, 如果 } D\left(\hat{\theta_{1}}\right)  θ^1=θ^1(X1,X2,,Xn)  θ2^=θ2^(X1,X2,,Xn) 都是 θ 的无偏估计量如果 D(θ1^)<D(θ2^) ,  则称 θ^1  θ2^ 有效。。 

  • 一致性
     设  θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n )  为末知参数  θ  的估计量, 如果对任意  ε > 0  有  lim ⁡ n → ∞ P { ∣ θ ^ − θ ∣ < ε } = 1  即  θ ^ → P θ ( n → ∞ ) ,  则称  θ ^  为  θ  的一致估计量。  \begin{aligned} &\text { 设 } \hat{\theta}=\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right) \text { 为末知参数 } \theta \text { 的估计量, 如果对任意 } \varepsilon>0 \text { 有 }\\ &\lim _{n \rightarrow \infty} P\{|\hat{\theta}-\theta|<\varepsilon\}=1\\ &\text { 即 } \hat{\theta} \stackrel{P}{\rightarrow} \theta(n \rightarrow \infty), \text { 则称 } \hat{\theta} \text { 为 } \theta \text { 的一致估计量。 } \end{aligned}   θ^=θ^(X1,X2,,Xn) 为末知参数 θ 的估计量如果对任意 ε>0  nlimP{ θ^θ<ε}=1  θ^Pθ(n), 则称 θ^  θ 的一致估计量。 

参数的区间估计

  设 θ \theta θ 是总体 X X X 的一个未知参数, 对于给定 α ( 0 < α < 1 ) , \alpha(0<\alpha<1), α(0<α<1), 如果由样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,,Xn 确定的统计量 θ ^ 1 = θ ^ 1 ( X 1 , X 2 , ⋯   , X n ) , θ ^ 2 = θ ^ 2 ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1}, X_{2}, \cdots, X_{n}\right), \hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1}, X_{2}, \cdots, X_{n}\right) θ^1=θ^1(X1,X2,,Xn),θ^2=θ^2(X1,X2,,Xn) 使
P { θ ^ 1 ( X 1 , X 2 , ⋯   , X n ) < θ < θ ^ 2 ( X 1 , X 2 , ⋯   , X n ) } = 1 − α P\left\{\hat{\theta}_{1}\left(X_{1}, X_{2}, \cdots, X_{n}\right)<\theta<\hat{\theta}_{2}\left(X_{1}, X_{2}, \cdots, X_{n}\right)\right\}=1-\alpha P{ θ^1(X1,X2,,Xn)<θ<θ^2(X1,X2,,Xn)}=1α
  则称随机区间 ( θ ^ 1 , θ 2 ^ ) \left(\hat{\theta}_{1}, \hat{\theta_{2}}\right) (θ^1,θ2^) θ \theta θ 置信度为 1 − α 1-\alpha 1α 的 置信区间。
   θ ^ 1 \hat{\theta}_{1} θ^1 θ ^ 2 \hat{\theta}_{2} θ^2 分别称为 θ \theta θ 的置信度为 1 − α 1-\alpha 1α 的双侧置信区间的 置信下限 和 置信上限。
   1 − α 1-\alpha 1α 称为 置信度或 置信水平, α \alpha α 称为 显著性水平或 误判风险。

假设检验

  • H 0 H_{0} H0 原假设, 包含等于, 一般保护原假设, 需要有充分的证据才能拒绝原假设。
  • H 1 H_{1} H1 备择假设。
  • 第一类错误:原假设为真时,拒绝(本来应该不拒绝)。
  • 第二类错误:原假设为假时,不拒绝(本来应该拒绝)。

  第一类错误和第二类错误是此消彼长的关系;另外这里用 不拒绝 比 接受 更加准确,接受是一种不得已的接受。

  原假设是在一次试验中有 绝对优势 出现的事件,而备择假设在一次试验中不易发生(或几乎不可能发生)的事件。因此,在进行单侧检验时,最好把原假设取为预想结果的反面,即把希望证明的命题放在备择假设上。

  将可能犯的严重错误看作第一类错误,因为犯第一类错误的概率可以通过 α α α 的大小来控制。犯第二类错误的概率是无法控制的。

  如审判犯人时,可能会犯有罪判成无罪 或者 无罪判成有罪 的错误,相比较而言,无罪判成有罪 的错误更严重,因为一般需要有充分的证据才能判一个人有罪。

χ 2 \chi^{2} χ2 检验

( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) σ2(n1)S2χ2(n1) 可以在不知道总体均值 μ \mu μ 的情况下, 来假设总体方差 σ 2 \sigma^{2} σ2

T 检验

X ˉ − μ S / n ∼ t ( n − 1 ) \frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1) S/n Xˉμt(n1) 可以在不知道总体方差 σ 2 \sigma^{2} σ2 的情况下, 来假设总体的均值 μ \mu μ

F 检验
S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right) S22/σ22S12/σ12F(n11,n2

你可能感兴趣的:(机器学习数学基础,概率论,统计学,机器学习)