概率论知识总结

文章目录

  • 基本概念
    • 随机试验
    • 样本空间
    • 随机事件
      • 事件运算
      • 频率
    • 概率
      • 性质
    • 等可能(古典)
    • 条件概型
      • 全概率公式
      • 贝叶斯
    • 独立
  • 随机变量
    • 离散型随机变量
      • (0-1)分布
      • 伯努利分布
      • 二项分布
      • 泊松分布
      • 超几何分布
    • 连续随机变量
      • 均匀分布
      • 指数分布
      • 正态分布
  • 多维随机变量
      • 边缘分布
      • 条件分布
    • 两个随机变量的函数分布
  • 数字特征
    • 期望
    • 方差
    • 协方差
      • 相关系数
      • 协方差矩阵
  • 大数定理 $\&$ 中心极限
    • 切比雪夫大数定律
    • 伯努利大数定律
    • 辛钦大数定
    • 马尔可夫不等式
    • 切比雪夫不等式
    • 独立同分布的$\textit{Levi-Lindeberg}$中心极限定理
    • $\textit{De Moivre-Laplace}$定理
  • 抽样分布
    • 随机样本
    • 直方图和箱线图
    • 抽样分布
      • $\chi^2$ 分布
      • $t$ 分布
      • $F$ 分布
      • 样本方差的分布
        • 正态总体的样本均值
  • 参数估计
    • 点估计
      • 矩估计法
      • 最大似然估计
    • 估计量的评选标准
      • 无偏性
      • 置信区间
    • 区间估计
    • 正态总体均值与方差的区间估计
      • 单个总体
      • 两个总体
    • (0-1)分布参数区间估计
    • 单侧置信区间
  • 检验假设
    • 正态总体均值检验假设
      • 单个总体
      • 两个总体(t检验)
      • 基于成对数据(t检验)
    • 正态总体方差检验假设
    • 单个总体
    • 两个总体
    • 分布拟合检验
      • 单个分布
      • 分布族的 $\chi^2$ 拟合检验
    • 秩和检验
    • $p$ 值法

[编辑中,未完]

基本概念

随机试验

  • 可以在相同条件下重复进行
  • 每次实验的可能结果不止一个,并且能事先证明实验的所有可能
  • 进行一次实验之前不能确定哪一个结果会出现

样本空间

将随机试验 E E E 的所有可能结果组成的集合称为 E E E样本空间,记为 S S S
样本空间中的元素,即 E E E 的每个结果,称为 样本点

随机事件

称试验 E E E 的样本空间 S S S 的子集为 E E E随机事件,简称 事件
每次试验,iff 这一子集中的一个样本点出现时,称事件发生
有一个样本点组成的单点集,称基本事件
样本空间 S S S 包含所有样本点,每次试验中总发生,称必然事件
空集 ∅ \varnothing 不包含任何样本点,每次试验都不发生,称不可能事件

事件运算

A ⊂ B A\subset B AB,称 事件B包含事件A,A发生必导致B发生
A ⊂ B , B ⊂ A A\subset B,B\subset A AB,BA,即 A = B A=B A=B,称 相等
A ∪ B = { x ∣ x ∈ A   o r   x ∈ B } A\cup B=\{x|x\in A~or~x\in B\} AB={ xxA or xB},称 和事件
A ∩ B = { x ∣ x ∈ A   a n d   x ∈ B } A\cap B=\{x|x\in A~and~x\in B\} AB={ xxA and xB},称 积事件,也记 A B AB AB
A − B = { x ∣ x ∈ A   a n d   x ∉ B } A-B=\{x|x\in A~and~x\notin B\} AB={ xxA and x/B} 称为差事件,A发生B不发生
A ∩ B = ∅ A\cap B=\varnothing AB=,称 互斥 ,且 A ∪ B = S A\cup B=S AB=S,AB互为 逆事件,又称 对立事件

  • 满足定律
    交换律,结合律,分配率
    德摩根定律(De Morgan’s laws) : A ∪ B ‾ = A ‾ ∩ B ‾ \overline{A\cup B}=\overline{A}\cap \overline{B} AB=AB ; A ∩ B ‾ = A ‾ ∪ B ‾ \overline{A\cap B}=\overline{A}\cup \overline{B} AB=AB

频率

n次实验中,事件发生次数 n A n_A nA,称 频数 n A n \displaystyle \frac{n_A}{n} nnA频率

概率

E E E 的每一件事 A A A 赋予一个实数,记为 P ( A ) P(A) P(A),称为事件A的 概率
满足:非负性;规范性(必然事件 S S S, P ( S ) = 1 P(S)=1 P(S)=1);可列可加性(若 A i A j = ∅ A_iA_j=\varnothing AiAj=,有 P ( ⋃ A i ) = ∑ P ( A i ) P(\bigcup A_i)=\sum P(A_i) P(Ai)=P(Ai)

性质

  1. P ( ∅ ) = 0 P(\varnothing)=0 P()=0
  2. (有限可加性)可列可加性
  3. P ( B − A ) = P ( B ) − P ( A )   ;   P ( B ) ≥ P ( A ) P(B-A)=P(B)-P(A)~;~P(B)\geq P(A) P(BA)=P(B)P(A) ; P(B)P(A)
  4. P ( A ) ≤ 1 P(A)\leq 1 P(A)1
  5. (逆事件) P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1P(A)
  6. (加法公式) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B)-P(AB) P(AB)=P(A)+P(B)P(AB)

等可能(古典)

S S S 包含有限元素,每个事件可能性相同,称等可能概型(古典概型)(Equally Likely Outcomes Model)

条件概型

在事件 A A A 发生的条件下事件 B B B 发生 ,称 条件概率(Conditional Probability) P ( B ∣ A ) = P ( A B ) P ( A ) \displaystyle P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB) (A已发生,B多大可能发生)
可得 P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(BA)P(A) (乘法公式)

全概率公式

P ( A ) = P ( A ∣ B ) P ( B ) + P ( A ∣ B ‾ ) P ( B ‾ ) P(A)=P(A|B)P(B)+P(A|\overline{B})P(\overline{B}) P(A)=P(AB)P(B)+P(AB)P(B)
P ( A ) = ∑ P ( A ∣ B i ) P ( B i ) P(A)=\sum P(A|B_i)P(B_i) P(A)=P(ABi)P(Bi)(把每个在不同情况下目标事件发生的概率加起来就是目标事件总的发生概率)(Total Probability)

贝叶斯

P ( B ∣ A ) = P ( A B ) A = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + p ( A ∣ B ‾ ) P ( B ‾ ) \displaystyle P(B|A)=\frac{P(AB)}{A}=\frac{P(A|B)P(B)}{P(A|B)P(B)+p(A|\overline{B})P(\overline{B})} P(BA)=AP(AB)=P(AB)P(B)+p(AB)P(B)P(AB)P(B)

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ P ( B j ) P ( A ∣ B j ) \displaystyle P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum P(B_j)P(A|B_j)} P(BiA)=P(Bj)P(ABj)P(Bi)P(ABi) (已知结果,问导致这个结果的第 i i i 原因的可能性是多少)(Bayes’ Theorem)
P ( B ) P(B) P(B)为以往数据已知的 先验概率 P ( B ∣ A ) P(B|A) P(BA)为根据修正后的 后验概率

独立

P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称 相互独立(Independents),相互独立 与 互不相容不能同时成立

  1. P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(BA)=P(B),AB相互独立
  2. 若AB独立,则 A − B ‾ , A ‾ − B , A ‾ − B ‾ A-\overline{B},\overline{A}-B,\overline{A}-\overline{B} AB,AB,AB也相互独立
    一般的,任意 n n n 个事件的积事件等于各事件概率之积,称相互独立

随机变量

  • PDF (Probability Density Function) 概率密度函数 也称为连续概率分布 ,记作 f ( x ) f(x) f(x) ,有 $\displaystyle f(x)\geq 0~&\int f(x)=1 $
  • CDF (Cumulative Distribution Function) 累积分布函数: 记作 F X ( x ) = P ( X ≤ x ) = ∫ − ∞ + ∞ f X ( t ) d t F_X(x)=P(X\leq x)=\displaystyle \int_{-\infty}^{+\infty}f_X(t)dt FX(x)=P(Xx)=+fX(t)dt
  • PMF (Probability Mass Function) 概率质量函数 也称为离散概率分布
  • PF (Probability Function) 分布律

离散型随机变量

可取值或可列无限多个,称 离散型随机变量(Discrete Random Variable)

(0-1)分布

随机变量 X X X 只取0或1 , 分布律为 P { X = k } = p k ( 1 − p ) ( 1 − k ) P\{X=k\}=p^k(1-p)^{(1-k)} P{ X=k}=pk(1p)(1k)

伯努利分布

E E E 只有两种结果: A , A ‾ A,\overline{A} A,A,称 E E E伯努利试验(Bernoulli),将 E E E 独立重复进行 n n n 次,称 重伯努利试验

二项分布

E E E n n n 重伯努利试验,每次成功概率为 p p p X X X 代表成功次数,则 X X X 的PF称 二项分布(Binomal Distribution),记 X ∽ B ( n , p ) X\backsim B(n,p) XB(n,p)
pmf为: P ( X = k ) = C n k p k ( 1 − p ) ( n − k ) P(X=k)=C_n^kp^k(1-p)^{(n-k)} P(X=k)=Cnkpk(1p)(nk)
伯努利分布是二项分布在 n = 1 n=1 n=1 时的特例

泊松分布

P { X = k } = λ k e − λ k ! , λ > 0 \displaystyle P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},\lambda > 0 P{ X=k}=k!λkeλ,λ>0泊松分布(Poisson Distribution),记作 X ∼ P ( x ) X \sim P(x) XP(x) λ \lambda λ 是单位时间内随机事件的平均发生次数
泊松分布适合于描述单位时间内随机事件发生的次数
泊松分布的 期望 和 方差 均为 λ \lambda λ

超几何分布

从有限 N N N 个物件(其中包含 M M M 个指定种类的物件)中抽出 n n n 个物件,成功抽出该指定种类的物件的次数(不放回),称 超几何分布(Hypergeometic Distribution),记 X ∼ H ( N , M , n ) X \sim H(N,M,n) XH(N,M,n)
随机抽取 n n n 件产品抽查,发现 k k k 件中不合格的概率为 P ( X = k ) = C M k C N − M m − k C N m \displaystyle P(X=k)=\frac{C_M^kC^{m-k}_{N-M}}{C_N^m} P(X=k)=CNmCMkCNMmk
数学期望为 E X = n M N \displaystyle EX=\frac{nM}{N} EX=NnM

连续随机变量

对于 X X X 的分布函数 F ( x ) F(x) F(x),存在非负可积函数 f ( x ) f(x) f(x) ,则称 X X X连续随机变量(Continuous Random Variable)

均匀分布

Uniform Distribution PDF:
f ( x ) = { 1 b − a a < x < b 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{b-a} &af(x)={ ba10a<x<botherwise
记作 X ∼ U ( a , b ) X \sim U(a,b) XU(a,b)
THe CDF is
F ( x ) = ∫ − ∞ x f ( t ) d t = { 0 x < a x − a b − a a ≤ x ≤ b 1 x > b F(x)=\int_{-\infty}^xf(t)dt= \left\{ \begin{array}{l l} 0 &xb \end{array} \right. F(x)=xf(t)dt=0baxa1x<aaxbx>b

指数分布

Exponential distribution PDF:
f ( x ) = { 1 θ e − x θ x > 0 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{\theta}e^{-\frac{x}{\theta}} &x>0\\ &0 &otherwise \end{array} \right. f(x)={ θ1eθx0x>0otherwise
θ > 0 \theta>0 θ>0 是常数.记作 X ∼ E ( θ ) X \sim E(\theta) XE(θ)
The CDF is:
F ( x ) = { 1 − e − x θ x > 0 0 x > b F(x)= \left\{ \begin{array}{l l} 1-e^{-\frac{x}{\theta}} &x>0\\ 0&x>b \end{array} \right. F(x)={ 1eθx0x>0x>b
对于 s , t > 0 s,t>0 s,t>0,有 P ( X > s + t ∣ X > s ) = P ( X > t ) P(X>s+t|X>s)=P(X>t) P(X>s+tX>s)=P(X>t) .称 无记忆性(Memoryless property)

正态分布

Normal Distribution PDF:
f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\displaystyle \frac{1}{\sqrt{2\pi \sigma}}exp(-\displaystyle \frac{(x-\mu)^2}{2\sigma^2}) f(x)=2πσ 1exp(2σ2(xμ)2)
− ∞ < μ < + ∞ , σ > 0 -\infty<\mu<+\infty,\sigma>0 <μ<+,σ>0 是常数.记作 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)
第一参数 μ \mu μ 是服从正态分布的随机变量的均值,描述位置参数,描述正态分布的集中趋势位置
第二个参数 σ 2 \sigma^2 σ2 是此随机变量的方差,描述离散程度,越大越分散越扁平
图像关于 x = μ x=\mu x=μ 对称,有 h > 0 h>0 h>0, P ( μ − h < X ≤ μ ) = P ( μ < x ≤ μ + h ) P(\mu-hP(μh<Xμ)=P(μ<xμ+h)
x = μ x=\mu x=μ 有最大值 f ( μ ) = 1 2 π σ f(\mu)=\displaystyle \frac{1}{\sqrt{2\pi\sigma}} f(μ)=2πσ 1
σ \sigma σ 越小图形约尖
μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1 时,为 标准正态分布(standard normal distribution)

  • 通过线性变换,将一般正态分布变换为标准正态分布 Z = X − μ σ ∼ N ( 0 , 1 ) Z=\displaystyle \frac{X-\mu}{\sigma} \sim N(0,1) Z=σXμN(0,1)

对于标准正态随机变量,若 z α z_\alpha zα 满足 P ( X > z α ) = α ( 0 < α < 1 ) P(X>z_\alpha)=\alpha(0<\alpha<1) P(X>zα)=α(0<α<1) ,称 α \alpha α 分位点

多维随机变量

( X , Y ) (X,Y) (X,Y) 是二维随机变量,对于 F ( X , Y ) = P { ( X ≤ x ) ∩ ( Y ≤ y ) } F(X,Y)=P\{(X\leq x) \cap (Y\leq y)\} F(X,Y)=P{ (Xx)(Yy)} X Y XY XY联合分布函数(Joint Distribution Function),称 P ( X = x i , Y = y i ) = P i j P(X=x_i,Y=y_i)=P_{ij} P(X=xi,Y=yi)=Pij联合分布律
存在可积函数有 F ( x , y ) = ∫ ∫ f ( x , y ) d x d y \displaystyle F(x,y)=\int \int f(x,y)dxdy F(x,y)=f(x,y)dxdy,则称 ( X , Y ) (X,Y) (X,Y)连续型二维随机变量 f ( x , y ) f(x,y) f(x,y)联合密度函数

边缘分布

有二维随机变量 ( X , Y ) (X,Y) (X,Y) X X X Y Y Y 各自有分布函数,分别记作 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y),称 边缘分布函数(Marginal Distribution),称 f X ( x ) , f Y ( y ) f_X(x),f_Y(y) fX(x),fY(y)边缘密度函数()
( y → ∞ ) (y \rightarrow \infty) (y) F X ( x ) = P ( X ≤ x ) = P ( X ≤ x , Y < ∞ ) = F ( x , ∞ ) F_X(x)=P(X \leq x)=P(X\leq x,Y<\infty)=F(x,\infty) FX(x)=P(Xx)=P(Xx,Y<)=F(x,),同理 F Y ( y ) = F ( ∞ , y ) F_Y(y)=F(\infty,y) FY(y)=F(,y)

  • F X ( x ) = ∫ − ∞ x [ ∫ − ∞ + ∞ f ( x , y ) d y ] d x \displaystyle F_X(x)=\int_{-\infty}^{x}[\int_{-\infty}^{+\infty}f(x,y)dy]dx FX(x)=x[+f(x,y)dy]dx
  • F Y ( y ) = ∫ − ∞ y [ ∫ − ∞ + ∞ f ( x , y ) d x ] d y \displaystyle F_Y(y)=\int_{-\infty}^{y}[\int_{-\infty}^{+\infty}f(x,y)dx]dy FY(y)=y[+f(x,y)dx]dy
  • f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y \displaystyle f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy fX(x)=+f(x,y)dy
  • f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x \displaystyle f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx fY(y)=+f(x,y)dx

条件分布

对于固定的 j j j P ( X = x i ∣ Y = y j ) = P ( X = x i , Y = y j ) P ( Y = y j ) = p i j p j \displaystyle P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{p_j} P(X=xiY=yj)=P(Y=yj)P(X=xi,Y=yj)=pjpij 为在 Y = y j Y=y_j Y=yj 条件下 X X X 的条件分布律
对于固定的 y y y f Y ( y ) > 0 f_Y(y)>0 fY(y)>0 ,则称 f ( x , y ) f Y ( y ) \displaystyle \frac{f(x,y)}{f_Y(y)} fY(y)f(x,y) Y = y Y=y Y=y 条件下 X X X条件概率密度,记为 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\displaystyle \frac{f(x,y)}{f_Y(y)} fXY(xy)=fY(y)f(x,y) ,称 ∫ − ∞ x f X ∣ Y ( x ∣ y ) d x = ∫ − ∞ x f ( x , y ) f Y ( y ) \displaystyle \int_{-\infty}^{x}f_{X|Y}(x|y)dx=\int_{-\infty}^{x}\frac{f(x,y)}{f_Y(y)} xfXY(xy)dx=xfY(y)f(x,y) Y = y Y=y Y=y 条件下 X X X 的条件分布函数

  • 若有 F ( x , y ) = F X ( x ) F Y ( y ) F(x,y)=F_X(x)F_Y(y) F(x,y)=FX(x)FY(y) ,即 P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y) P(Xx,Yy)=P(Xx)P(Yy)相互独立

两个随机变量的函数分布

  • Z = X + Y Z=X+Y Z=X+Y

The PDF is f X + Y ( z ) = f Z ( z ) = ∫ − ∞ + ∞ f ( x , z − x ) d x = ∫ − ∞ + ∞ f ( z − y , x ) d y \displaystyle f_{X+Y}(z)=f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx=\int_{-\infty}^{+\infty}f(z-y,x)dy fX+Y(z)=fZ(z)=+f(x,zx)dx=+f(zy,x)dy
The CDF is F Z ( z ) = P ( Z ≤ z ) = ∬ x + y ≤ z f ( x , y ) d x d y \displaystyle F_Z(z)=P(Z\leq z)=\iint_{x+y\leq z}f(x,y)dxdy FZ(z)=P(Zz)=x+yzf(x,y)dxdy

  • Z = X Y \displaystyle Z=\frac{X}{Y} Z=YX
  • Z = X Y Z=XY Z=XY
  • M = max ⁡ { X , Y }   &   N = min ⁡ { X , Y } M=\max\{X,Y\}~\&~N=\min\{X,Y\} M=max{ X,Y} & N=min{ X,Y}

数字特征

期望

离散 随机变量 X X X 的分布律为 P ( X = x k ) = p k P(X=x_k)=p_k P(X=xk)=pk ,若级数 ∑ x k p k \displaystyle \sum x_kp_k xkpk 绝对收敛,称其和为 X X X数学期望(expectation),记 E ( X ) E(X) E(X)
连续 随机变量 X X X 的PDF为 f ( x ) f(x) f(x),若积分 ∫ x f ( x ) d x \displaystyle \int xf(x)dx xf(x)dx 绝对收敛,则为数学期望。

  • (0-1)分布期望:
  • 二项分布期望:
  • 泊松分布期望:
    满足性质:
  • E C = C EC=C EC=C
  • E ( C X ) = C E ( X ) E(CX)=CE(X) E(CX)=CE(X)
  • E ( X + Y ) = E X + E Y E(X+Y)=EX+EY E(X+Y)=EX+EY
  • KaTeX parse error: Undefined control sequence: \* at position 9: E(XY)=EX\̲*̲EY 当相互独立

方差

E { [ X − E ( X ) ] 2 } E\{[X-E(X)]^2\} E{ [XE(X)]2} X X X 的方差,记为 D ( X ) D(X) D(X) V a r ( X ) Var(X) Var(X)
对于 离散 变量,有 D ( X ) = ∑ [ x k − E ( X ) 2 ] p k \displaystyle D(X)=\sum [x_k-E(X)^2]p_k D(X)=[xkE(X)2]pk ,对于 连续 变量 D ( X ) = ∫ [ x − E ( X ) ] 2 f ( x ) \displaystyle D(X)=\int [x-E(X)]^2f(x) D(X)=[xE(X)]2f(x)
公式: D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X)=E(X^2)-[E(X)]^2 D(X)=E(X2)[E(X)]2
E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2,记 X ∗ = X − μ σ \displaystyle X^*=\frac{X-\mu}{\sigma} X=σXμ标准化变量

  • ???

满足性质:

  • D ( C ) = 0 D(C)=0 D(C)=0
  • D ( C X ) = C 2 D ( X ) , D ( X + C ) = D ( X ) D(CX)=C^2D(X),D(X+C)=D(X) D(CX)=C2D(X),D(X+C)=D(X)
  • D ( X + Y ) = D ( X ) + D ( Y ) + 2 E { ( X − E ( X ) ) ( E − E ( Y ) ) } D(X+Y)=D(X)+D(Y)+2E\{(X-E(X))(E-E(Y))\} D(X+Y)=D(X)+D(Y)+2E{ (XE(X))(EE(Y))},当相互独立有 D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)
  • P ( X = E ( X ) ) = 1 P(X=E(X))=1 P(X=E(X))=1

引入 D ( X ) \sqrt{D(X)} D(X) 记为 σ ( X ) \sigma (X) σ(X),称为 标准差 或均方差

协方差

定义 C o v ( X , Y ) = E ( [ X − E ( X ) ] [ Y − E ( Y ) ] ) Cov(X,Y)=E([X-E(X)][Y-E(Y)]) Cov(X,Y)=E([XE(X)][YE(Y)])协方差(Covariance)
易得 C o v ( X , Y ) = C o v ( Y , X )    ,    C o v ( X , X ) = D ( X ) Cov(X,Y)=Cov(Y,X)~~,~~Cov(X,X)=D(X) Cov(X,Y)=Cov(Y,X)  ,  Cov(X,X)=D(X)展开定义有 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)
有性质:

  • C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
  • C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

相关系数

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \displaystyle \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)相关系数(Correlation Coefficient)
∣ ρ X Y ∣ < 1 |\rho_{XY}|<1 ρXY<1 P ( Y = a + b X ) = 1 P(Y=a+bX)=1 P(Y=a+bX)=1
(引入 均方误差 e = E [ ( Y − ( a + b X ) ) 2 ] = ( 1 − ρ X Y 2 ) D ( Y ) e=E[(Y-(a+bX))^2]=(1-\rho^2_{XY})D(Y) e=E[(Y(a+bX))2]=(1ρXY2)D(Y)
∣ ρ X Y ∣ |\rho_{XY}| ρXY 较大时, e e e 较小, X , Y X,Y X,Y 线性关系较紧密,线性相关程度较大,当 ∣ ρ X , Y ∣ = 0 |\rho_{X,Y}|=0 ρX,Y=0,称 不相关

协方差矩阵

E ( X k ) E(X^k) E(Xk) 存在,称 k k k 阶原点矩,简称 k阶矩
E ( X k Y l ) E(X^kY^l) E(XkYl)存在,称 k + l k+l k+l 阶混合矩
E ( [ X − E ( X ) ] k [ Y − E ( Y ) ] l ) E([X-E(X)]^k[Y-E(Y)]^l) E([XE(X)]k[YE(Y)]l) 存在,称 k + l k+l k+l 阶混合中心矩
显然期望为一阶原点矩,方差是二阶中心矩,协方差是二阶混合中心矩
c i j = C o v ( X i , X j ) = E ( [ X i − E ( X i ) ] [ X j − E ( X j ) ] ) c_{ij}=Cov(X_i,X_j)=E([X_i-E(X_i)][X_j-E(X_j)]) cij=Cov(Xi,Xj)=E([XiE(Xi)][XjE(Xj)]) 存在,则 C \mathbf{C} C协方差矩阵

大数定理 & \& & 中心极限

简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望),而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布
X i X_i Xi 相互独立

切比雪夫大数定律

若存在常数 C C C 使得 D ( X k ) ≤ C D(X_k)\leq C D(Xk)C 则对于任意小的正数 ϵ \epsilon ϵ ,满足
lim ⁡ n → ∞ P { ∣ 1 n ∑ x k − 1 n ∑ E x k ∣ < ϵ } = 1 \displaystyle \lim_{n\rightarrow \infty} P\{ |\frac{1}{n}\sum x_k-\frac{1}{n}\sum Ex_k|<\epsilon \}=1 nlimP{ n1xkn1Exk<ϵ}=1
数学意义:算数平均值依概率收敛于数学期望;随着样本容量n的增加,样本平均数将接近于总体平均数。

伯努利大数定律

f A f_A fA n n n 次重伯努利试验中事件发生次数, p p p 是发生概率,对于任意小的正数 ϵ \epsilon ϵ ,满足
lim ⁡ n → ∞ P { ∣ f A n − p ∣ < ϵ } = 1   o r   0 \displaystyle \lim_{n\rightarrow \infty} P\{|\frac{f_A}{n}-p|<\epsilon\}=1~or~0 nlimP{ nfAp<ϵ}=1 or 0
数学意义:频率依概率收敛于统计概率

辛钦大数定

律服从同一分布,且具有数学期望 E ( X k ) = μ E(X_k)=\mu E(Xk)=μ ,作前 n n n 个变量的算术平均 1 n ∑ X k \displaystyle \frac{1}{n}\sum X_k n1Xk
lim ⁡ n → ∞ P { ∣ 1 n ∑ X k − μ ∣ < ϵ } = 1 \displaystyle\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum X_k-\mu|<\epsilon\}=1 nlimP{ n1Xkμ<ϵ}=1
数学意义:算数平均值稳定于数学期望的确切解释

马尔可夫不等式

X X X 为一非负随机变量,则 P ( X ≥ a ) ≤ E X a \displaystyle P(X\geq a)\leq \frac{EX}{a} P(Xa)aEX,称 马尔可夫不等式(Markov inequality)

切比雪夫不等式

存在 ϵ \epsilon ϵ,s.t. P ( ∣ X − μ ∣ ≥ ϵ ) ≤ σ 2 ϵ 2 \displaystyle P(|X-\mu|\geq \epsilon)\leq\frac{\sigma^2}{\epsilon^2} P(Xμϵ)ϵ2σ2,称 切比雪夫不等式(chebyshev’s inequality)

独立同分布的 Levi-Lindeberg \textit{Levi-Lindeberg} Levi-Lindeberg中心极限定理

设随机变量相互独立且具有数学期望 E ( x k ) = μ , D ( X k ) = σ 2 E(x_k)=\mu,D(X_k)=\sigma^2 E(xk)=μ,D(Xk)=σ2 则随机变量之和 ∑ X k \sum X_k Xk的标准化变量
Y n = ∑ X k − E ( ∑ X k ) D ( ∑ X k ) = ∑ X k − n μ n σ \displaystyle Y_n=\frac{\sum X_k-E(\sum X_k)}{\sqrt{D(\sum X_k)}}=\frac{\sum X_k-n\mu }{\sqrt{n}\sigma} Yn=D(Xk) XkE(Xk)=n σXknμ
的PDF F n ( x ) F_n(x) Fn(x)对于任意 x x x 满足
lim ⁡ n → ∞ F n ( x ) = lim ⁡ n → ∞ P { ∑ X k − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t \displaystyle \lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty} P\{\frac{\sum X_k-n\mu}{\sqrt{n}\sigma}\leq x\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt nlimFn(x)=nlimP{ n σXknμx}=x2π 1et2/2dt
n n n 足够大的时候,可以把任何一个期望方差存在的分布,搞成一个正态分布

De   Moivre-Laplace \textit{De Moivre-Laplace} De Moivre-Laplace定理

De Moivre-Laplace 定理其实就是 Levi-Lindeberg 的特殊情况。
η n ∼ B ( n , p ) \eta_n \sim B(n,p) ηnB(n,p) ,有
lim ⁡ n → ∞ P { η n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x ) \displaystyle \lim_{n\rightarrow \infty}P\{\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\}=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt=\Phi(x) nlimP{ np(1p) ηnnpx}=x2π 1et2/2dt=Φ(x)
实际就是在把一个二项分布,尝试转为正态分布去研究;正态分布是二项分布的极限分布。

抽样分布

随机样本

总体:实验全部可能的观察值
个体:每一个可能的观察值
容量:总体中所包含的个体数
有限/无限总体:容量有限/无限
D e f : Def: Def: X X X 是具有分布函数 F F F 的随机变量,若 X i X_i Xi 是具有相同 F F F ,相互独立的随机变量,则称 X i X_i Xi 为从 F F F (或总体 F F F ,或总体 X X X)得到的容量为 n n n 的简单随机样本,简称样本,观察值 x i x_i xi样本值,又称为 X X X n n n独立的观察值
由定义得:若 X i X_i Xi F F F 的一个样本,则相互独立。所以PDF为 ∏ F ( x i ) \displaystyle \prod F(x_i) F(xi) ,CDF为 ∏ f ( x i ) \displaystyle \prod f(x_i) f(xi)

直方图和箱线图

抽样分布

X i X_i Xi 是一个样本, g ( X i ) g(X_i) g(Xi) X i X_i Xi 的一个函数,则称 g ( X i ) g(X_i) g(Xi) 是一个 统一量

定义 观察值
样本平均值 X ‾ = 1 n ∑ X i \displaystyle \overline{X}=\frac{1}{n}\sum X_i X=n1Xi x ‾ = 1 n ∑ x i \displaystyle \overline{x}=\frac{1}{n}\sum x_i x=n1xi
样本方差 S 2 = 1 n − 1 ∑ ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ ∗ X i − n X ‾ ) 2 \displaystyle S^2=\frac{1}{n-1}\sum (X_i-\overline{X})^2=\frac{1}{n-1}(\sum *X_i-n\overline{X})^2 S2=n11(XiX)2=n11(XinX)2 s 2 = 1 n − 1 ∑ ( x i − x ‾ ) 2 = 1 n − 1 ( ∑ x i 2 − n x ‾ 2 ) \displaystyle s^2=\frac{1}{n-1}\sum(x_i-\overline{x})^2=\frac{1}{n-1}(\sum x_i^2-n\overline{x}^2) s2=n11(xix)2=n11(xi2nx2)
样本标准差 S = S 2 \displaystyle S=\sqrt{S^2} S=S2 s = s 2 s=\sqrt{s^2} s=s2
样本 k k k 阶(原点)矩: A k = 1 n ∑ X i k \displaystyle A_k=\frac{1}{n}\sum X_i^k Ak=n1Xik a k = 1 n ∑ x i k \displaystyle a_k=\frac{1}{n}\sum x_i^k ak=n1xik
样本 k k k 阶中心矩 B k = 1 n ∑ ( X i − X ‾ ) k \displaystyle B_k=\frac{1}{n}\sum (X_i-\overline{X})^k Bk=n1(XiX)k b k = 1 n ∑ ( x i − x ‾ ) k \displaystyle b_k=\frac{1}{n}\sum(x_i-\overline{x})^k bk=n1(xix)k

定义 经验分布函数 ,用 S ( x ) S(x) S(x) 表示 X i X_i Xi 中不大于 x x x 的随机变量个数。经验分布函数 F n = 1 n S ( x ) \displaystyle F_n=\frac{1}{n}S(x) Fn=n1S(x)

χ 2 \chi^2 χ2 分布

X i X_i Xi 是来自总体 N ( 0 , 1 ) N(0,1) N(0,1) 的样本,则称统计量 χ 2 = ∑ X i 2 \displaystyle \chi^2=\sum X_i^2 χ2=Xi2 服从自由度为 n n n χ 2 \chi^2 χ2分布,记作 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2χ2(n)自由度 指包含独立变量个数,PDF为
f ( x ) = { 1 2 n / 2 Γ ( n / 2 ) y n / 2 − 1 e − − y 2 y > 0 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-\frac{-y}{2}} &y>0\\ &0 &otherwise \end{array} \right. f(x)=2n/2Γ(n/2)1yn/21e2y0y>0otherwise

  • 可加性
    χ 1 2 ∼ χ 2 ( n ) , χ 2 2 ∼ χ 2 ( n ) \chi^2_1\sim \chi^2(n),\chi_2^2\sim \chi^2(n) χ12χ2(n),χ22χ2(n),并且相互独立,则有 χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi^2_1+\chi^2_2\sim \chi^2(n_1+n_2) χ12+χ22χ2(n1+n2)
  • 数学期望和方差
    E ( χ 2 ) = n , D ( χ 2 ) = 2 n E(\chi^2)=n,D(\chi^2)=2n E(χ2)=n,D(χ2)=2n
  • 分位点
    ???

t t t 分布

X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0,1),Y\sim \chi^2(n) XN(0,1),Yχ2(n),且相互独立,则称 t = X Y / n \displaystyle t=\frac{X}{\sqrt{Y/n}} t=Y/n X 服从自由度为 n n nt分布,记作 t ∼ t ( n ) t\sim t(n) tt(n)又称 学生氏(Student)分布,PDF为
h ( t ) = Γ [ ( n + 1 ) / 2 ] π n Γ ( n / 2 ) ( 1 + t 2 n ) − ( n + 1 ) / 2 \displaystyle h(t)=\frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2} h(t)=πn Γ(n/2)Γ[(n+1)/2](1+nt2)(n+1)/2

  • 分位点

F F F 分布

U ∼ χ 2 ( n 1 ) , V ∼ χ 2 ( n 2 ) U\sim \chi^2(n_1),V\sim \chi^2(n_2) Uχ2(n1),Vχ2(n2)且相互独立,则称 F = U / n 1 V / n 2 \displaystyle F=\frac{U/n_1}{V/n_2} F=V/n2U/n1 服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2) F F F 分布,记作 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) FF(n1,n2),PDF为
ψ ( x ) = { Γ [ ( n 1 + n 2 ) / 2 ] ( n 1 / n 2 ) n 1 / 2 y ( n 1 / 2 ) − 1 Γ ( n 1 / 2 ) Γ ( n 2 / 2 ) [ 1 + ( n 1 y / n 2 ) ] ( n 1 + n 2 ) / 2 y > 0 0 o t h e r w i s e \psi(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{(n_1/2)-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}} &y>0\\ &0 &otherwise \end{array} \right. ψ(x)=Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2Γ[(n1+n2)/2](n1/n2)n1/2y(n1/2)10y>0otherwise
可知,若 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) FF(n1,n2),则 1 F ∼ F ( n 2 , n 1 ) \displaystyle \frac{1}{F}\sim F(n_2,n_1) F1F(n2,n1)

  • 分位点

样本方差的分布

正态总体的样本均值

X i X_i Xi 是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的样本, X ‾ \overline{X} X 是样本均值, S 2 S^2 S2 是样本方差。则

  • X ‾ ∼ N ( μ , σ 2 / n ) \overline{X}\sim N(\mu,\sigma^2/n) XN(μ,σ2/n)
  • ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \displaystyle \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) σ2(n1)S2χ2(n1) X ‾ \overline{X} X S 2 S^2 S2 相互独立
  • X ‾ − μ S / n ∼ t ( n − 1 ) \displaystyle \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S/n Xμt(n1)

X i X_i Xi Y i Y_i Yi 是来自正态总体的相互独立的样本。则

  • S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \displaystyle \frac{S^2_1/S^2_2}{\sigma^2_1/\sigma^2_2}\sim F(n_1-1,n_2-1) σ12/σ22S12/S22F(n11,n21)
  • σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 σ12=σ22=σ2 时, ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \displaystyle \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) Swn11+n21 (XY)(μ1μ2)t(n1+n22),其中 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 \displaystyle S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n22(n11)S12+(n21)S22

参数估计

点估计

借助于总体的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。设总体的分布函数 f ( x ; θ ) f(x;\theta) f(x;θ) 的形式为已知, θ \theta θ 为待估参数。构造一个适当的统计量 θ ^ ( X i ) \hat{\theta}(X_i) θ^(Xi) ,用他的观察值 θ ^ ( x i ) \hat{\theta}(x_i) θ^(xi),作为未知参数 θ \theta θ 的估计值,称 θ ^ ( X i ) \hat{\theta}(X_i) θ^(Xi)估计量,称 θ ^ ( x i ) \hat{\theta}(x_i) θ^(xi)估计值

矩估计法

简单的讲,这个原理认为样本的n阶中心钜和n阶原点矩和总体的n阶中心钜和n阶原点矩相同,当然这是一个近似。
设总体的 k k k 阶原点矩存在,是基于 θ i \theta_i θi 的函数,基于样本矩 A t = 1 n ∑ X i l \displaystyle A_t=\frac{1}{n}\sum X_i^l At=n1Xil 依概率收敛于相应的总体矩 μ l \mu_l μl ,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,于是就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。称为 矩估计方法

{ μ 1 = μ 1 ( θ 1 . . . θ k ) , ⋮ μ k = μ k ( θ 1 . . . θ k ) \left\{ \begin{array}{l l} &\mu_1=\mu_1(\theta_1...\theta_k),\\ &\vdots\\ &\mu_k=\mu_k(\theta_1...\theta_k) \end{array} \right. μ1=μ1(θ1...θk),μk=μk(θ1...θk)
可以从中解出 θ k \theta_k θk得到
{ θ 1 = θ 1 ( μ 1 . . . μ k ) , ⋮ θ k = θ k ( μ 1 . . . μ k ) \left\{ \begin{array}{l l} &\theta_1=\theta_1(\mu_1...\mu_k),\\ &\vdots\\ &\theta_k=\theta_k(\mu_1...\mu_k) \end{array} \right. θ1=θ1(μ1...μk),θk=θk(μ1...μk)
A i A_i Ai 分别替代上式 μ \mu μ,就以 θ i ^ = θ i ( A 1 . . . A i ) \hat{\theta_i}=\theta_i(A_1...A_i) θi^=θi(A1...Ai) 分别作 θ i \theta_i θi 的估计量,称 矩估计量

最大似然估计

最大似然估计可以说是应用非常广泛的一种参数估计的方法。它的原理也很简单:利用已知的样本,找出最有可能生成该样本的参数。
???

估计量的评选标准

无偏性

若估计量 θ ^ = θ ^ ( X i ) \hat{\theta}=\hat{\theta}(X_i) θ^=θ^(Xi) 的期望 E ( θ ^ ) E(\hat{\theta}) E(θ^) 存在,且对于任意 θ ∈ Θ \theta \in \Theta θΘ E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ ,则称 Θ ^ \hat{\Theta} Θ^ Θ \Theta Θ无偏估计量

置信区间

区间估计

正态总体均值与方差的区间估计

单个总体

两个总体

(0-1)分布参数区间估计

单侧置信区间

检验假设

正态总体均值检验假设

单个总体

两个总体(t检验)

基于成对数据(t检验)

正态总体方差检验假设

单个总体

两个总体

分布拟合检验

单个分布

分布族的 χ 2 \chi^2 χ2 拟合检验

秩和检验

p p p 值法

你可能感兴趣的:(笔记)