将随机试验 E E E 的所有可能结果组成的集合称为 E E E 的 样本空间,记为 S S S
样本空间中的元素,即 E E E 的每个结果,称为 样本点
称试验 E E E 的样本空间 S S S 的子集为 E E E 的 随机事件,简称 事件
每次试验,iff 这一子集中的一个样本点出现时,称事件发生
有一个样本点组成的单点集,称基本事件
样本空间 S S S 包含所有样本点,每次试验中总发生,称必然事件
空集 ∅ \varnothing ∅ 不包含任何样本点,每次试验都不发生,称不可能事件
若 A ⊂ B A\subset B A⊂B,称 事件B包含事件A,A发生必导致B发生
若 A ⊂ B , B ⊂ A A\subset B,B\subset A A⊂B,B⊂A,即 A = B A=B A=B,称 相等
若 A ∪ B = { x ∣ x ∈ A o r x ∈ B } A\cup B=\{x|x\in A~or~x\in B\} A∪B={ x∣x∈A or x∈B},称 和事件
若 A ∩ B = { x ∣ x ∈ A a n d x ∈ B } A\cap B=\{x|x\in A~and~x\in B\} A∩B={ x∣x∈A and x∈B},称 积事件,也记 A B AB AB
若 A − B = { x ∣ x ∈ A a n d x ∉ B } A-B=\{x|x\in A~and~x\notin B\} A−B={ x∣x∈A and x∈/B} 称为差事件,A发生B不发生
若 A ∩ B = ∅ A\cap B=\varnothing A∩B=∅,称 互斥 ,且 A ∪ B = S A\cup B=S A∪B=S,AB互为 逆事件,又称 对立事件
n次实验中,事件发生次数 n A n_A nA,称 频数, n A n \displaystyle \frac{n_A}{n} nnA称 频率
对 E E E 的每一件事 A A A 赋予一个实数,记为 P ( A ) P(A) P(A),称为事件A的 概率
满足:非负性;规范性(必然事件 S S S, P ( S ) = 1 P(S)=1 P(S)=1);可列可加性(若 A i A j = ∅ A_iA_j=\varnothing AiAj=∅,有 P ( ⋃ A i ) = ∑ P ( A i ) P(\bigcup A_i)=\sum P(A_i) P(⋃Ai)=∑P(Ai))
S S S 包含有限元素,每个事件可能性相同,称等可能概型(古典概型)(Equally Likely Outcomes Model)
在事件 A A A 发生的条件下事件 B B B 发生 ,称 条件概率(Conditional Probability), P ( B ∣ A ) = P ( A B ) P ( A ) \displaystyle P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB) (A已发生,B多大可能发生)
可得 P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(B∣A)P(A) (乘法公式)
P ( A ) = P ( A ∣ B ) P ( B ) + P ( A ∣ B ‾ ) P ( B ‾ ) P(A)=P(A|B)P(B)+P(A|\overline{B})P(\overline{B}) P(A)=P(A∣B)P(B)+P(A∣B)P(B)
P ( A ) = ∑ P ( A ∣ B i ) P ( B i ) P(A)=\sum P(A|B_i)P(B_i) P(A)=∑P(A∣Bi)P(Bi)(把每个在不同情况下目标事件发生的概率加起来就是目标事件总的发生概率)(Total Probability)
P ( B ∣ A ) = P ( A B ) A = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + p ( A ∣ B ‾ ) P ( B ‾ ) \displaystyle P(B|A)=\frac{P(AB)}{A}=\frac{P(A|B)P(B)}{P(A|B)P(B)+p(A|\overline{B})P(\overline{B})} P(B∣A)=AP(AB)=P(A∣B)P(B)+p(A∣B)P(B)P(A∣B)P(B)
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ P ( B j ) P ( A ∣ B j ) \displaystyle P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum P(B_j)P(A|B_j)} P(Bi∣A)=∑P(Bj)P(A∣Bj)P(Bi)P(A∣Bi) (已知结果,问导致这个结果的第 i i i 原因的可能性是多少)(Bayes’ Theorem)
P ( B ) P(B) P(B)为以往数据已知的 先验概率, P ( B ∣ A ) P(B|A) P(B∣A)为根据修正后的 后验概率
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称 相互独立(Independents),相互独立 与 互不相容不能同时成立
可取值或可列无限多个,称 离散型随机变量(Discrete Random Variable)
随机变量 X X X 只取0或1 , 分布律为 P { X = k } = p k ( 1 − p ) ( 1 − k ) P\{X=k\}=p^k(1-p)^{(1-k)} P{ X=k}=pk(1−p)(1−k)
E E E 只有两种结果: A , A ‾ A,\overline{A} A,A,称 E E E 为 伯努利试验(Bernoulli),将 E E E 独立重复进行 n n n 次,称 重伯努利试验
若 E E E 为 n n n 重伯努利试验,每次成功概率为 p p p , X X X 代表成功次数,则 X X X 的PF称 二项分布(Binomal Distribution),记 X ∽ B ( n , p ) X\backsim B(n,p) X∽B(n,p)
pmf为: P ( X = k ) = C n k p k ( 1 − p ) ( n − k ) P(X=k)=C_n^kp^k(1-p)^{(n-k)} P(X=k)=Cnkpk(1−p)(n−k)
伯努利分布是二项分布在 n = 1 n=1 n=1 时的特例
P { X = k } = λ k e − λ k ! , λ > 0 \displaystyle P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},\lambda > 0 P{ X=k}=k!λke−λ,λ>0 称 泊松分布(Poisson Distribution),记作 X ∼ P ( x ) X \sim P(x) X∼P(x), λ \lambda λ 是单位时间内随机事件的平均发生次数
泊松分布适合于描述单位时间内随机事件发生的次数
泊松分布的 期望 和 方差 均为 λ \lambda λ
从有限 N N N 个物件(其中包含 M M M 个指定种类的物件)中抽出 n n n 个物件,成功抽出该指定种类的物件的次数(不放回),称 超几何分布(Hypergeometic Distribution),记 X ∼ H ( N , M , n ) X \sim H(N,M,n) X∼H(N,M,n)
随机抽取 n n n 件产品抽查,发现 k k k 件中不合格的概率为 P ( X = k ) = C M k C N − M m − k C N m \displaystyle P(X=k)=\frac{C_M^kC^{m-k}_{N-M}}{C_N^m} P(X=k)=CNmCMkCN−Mm−k
数学期望为 E X = n M N \displaystyle EX=\frac{nM}{N} EX=NnM
对于 X X X 的分布函数 F ( x ) F(x) F(x),存在非负可积函数 f ( x ) f(x) f(x) ,则称 X X X 为 连续随机变量(Continuous Random Variable)
Uniform Distribution PDF:
f ( x ) = { 1 b − a a < x < b 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{b-a} &a
记作 X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b)
THe CDF is
F ( x ) = ∫ − ∞ x f ( t ) d t = { 0 x < a x − a b − a a ≤ x ≤ b 1 x > b F(x)=\int_{-\infty}^xf(t)dt= \left\{ \begin{array}{l l} 0 &xb \end{array} \right. F(x)=∫−∞xf(t)dt=⎩⎪⎨⎪⎧0b−ax−a1x<aa≤x≤bx>b
Exponential distribution PDF:
f ( x ) = { 1 θ e − x θ x > 0 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{\theta}e^{-\frac{x}{\theta}} &x>0\\ &0 &otherwise \end{array} \right. f(x)={ θ1e−θx0x>0otherwise
当 θ > 0 \theta>0 θ>0 是常数.记作 X ∼ E ( θ ) X \sim E(\theta) X∼E(θ)
The CDF is:
F ( x ) = { 1 − e − x θ x > 0 0 x > b F(x)= \left\{ \begin{array}{l l} 1-e^{-\frac{x}{\theta}} &x>0\\ 0&x>b \end{array} \right. F(x)={ 1−e−θx0x>0x>b
对于 s , t > 0 s,t>0 s,t>0,有 P ( X > s + t ∣ X > s ) = P ( X > t ) P(X>s+t|X>s)=P(X>t) P(X>s+t∣X>s)=P(X>t) .称 无记忆性(Memoryless property)
Normal Distribution PDF:
f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\displaystyle \frac{1}{\sqrt{2\pi \sigma}}exp(-\displaystyle \frac{(x-\mu)^2}{2\sigma^2}) f(x)=2πσ1exp(−2σ2(x−μ)2)
当 − ∞ < μ < + ∞ , σ > 0 -\infty<\mu<+\infty,\sigma>0 −∞<μ<+∞,σ>0 是常数.记作 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)
第一参数 μ \mu μ 是服从正态分布的随机变量的均值,描述位置参数,描述正态分布的集中趋势位置
第二个参数 σ 2 \sigma^2 σ2 是此随机变量的方差,描述离散程度,越大越分散越扁平
图像关于 x = μ x=\mu x=μ 对称,有 h > 0 h>0 h>0, P ( μ − h < X ≤ μ ) = P ( μ < x ≤ μ + h ) P(\mu-h
当 x = μ x=\mu x=μ 有最大值 f ( μ ) = 1 2 π σ f(\mu)=\displaystyle \frac{1}{\sqrt{2\pi\sigma}} f(μ)=2πσ1
σ \sigma σ 越小图形约尖
当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1 时,为 标准正态分布(standard normal distribution)
对于标准正态随机变量,若 z α z_\alpha zα 满足 P ( X > z α ) = α ( 0 < α < 1 ) P(X>z_\alpha)=\alpha(0<\alpha<1) P(X>zα)=α(0<α<1) ,称 α \alpha α 分位点
若 ( X , Y ) (X,Y) (X,Y) 是二维随机变量,对于 F ( X , Y ) = P { ( X ≤ x ) ∩ ( Y ≤ y ) } F(X,Y)=P\{(X\leq x) \cap (Y\leq y)\} F(X,Y)=P{ (X≤x)∩(Y≤y)} 称 X Y XY XY的 联合分布函数(Joint Distribution Function),称 P ( X = x i , Y = y i ) = P i j P(X=x_i,Y=y_i)=P_{ij} P(X=xi,Y=yi)=Pij 为 联合分布律
存在可积函数有 F ( x , y ) = ∫ ∫ f ( x , y ) d x d y \displaystyle F(x,y)=\int \int f(x,y)dxdy F(x,y)=∫∫f(x,y)dxdy,则称 ( X , Y ) (X,Y) (X,Y) 是 连续型二维随机变量, f ( x , y ) f(x,y) f(x,y) 称 联合密度函数
有二维随机变量 ( X , Y ) (X,Y) (X,Y) , X X X Y Y Y 各自有分布函数,分别记作 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y),称 边缘分布函数(Marginal Distribution),称 f X ( x ) , f Y ( y ) f_X(x),f_Y(y) fX(x),fY(y) 为 边缘密度函数()
令 ( y → ∞ ) (y \rightarrow \infty) (y→∞), F X ( x ) = P ( X ≤ x ) = P ( X ≤ x , Y < ∞ ) = F ( x , ∞ ) F_X(x)=P(X \leq x)=P(X\leq x,Y<\infty)=F(x,\infty) FX(x)=P(X≤x)=P(X≤x,Y<∞)=F(x,∞),同理 F Y ( y ) = F ( ∞ , y ) F_Y(y)=F(\infty,y) FY(y)=F(∞,y)
对于固定的 j j j , P ( X = x i ∣ Y = y j ) = P ( X = x i , Y = y j ) P ( Y = y j ) = p i j p j \displaystyle P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{p_j} P(X=xi∣Y=yj)=P(Y=yj)P(X=xi,Y=yj)=pjpij 为在 Y = y j Y=y_j Y=yj 条件下 X X X 的条件分布律
对于固定的 y y y , f Y ( y ) > 0 f_Y(y)>0 fY(y)>0 ,则称 f ( x , y ) f Y ( y ) \displaystyle \frac{f(x,y)}{f_Y(y)} fY(y)f(x,y) 为 Y = y Y=y Y=y 条件下 X X X 的条件概率密度,记为 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\displaystyle \frac{f(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y) ,称 ∫ − ∞ x f X ∣ Y ( x ∣ y ) d x = ∫ − ∞ x f ( x , y ) f Y ( y ) \displaystyle \int_{-\infty}^{x}f_{X|Y}(x|y)dx=\int_{-\infty}^{x}\frac{f(x,y)}{f_Y(y)} ∫−∞xfX∣Y(x∣y)dx=∫−∞xfY(y)f(x,y) 为 Y = y Y=y Y=y 条件下 X X X 的条件分布函数
The PDF is f X + Y ( z ) = f Z ( z ) = ∫ − ∞ + ∞ f ( x , z − x ) d x = ∫ − ∞ + ∞ f ( z − y , x ) d y \displaystyle f_{X+Y}(z)=f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx=\int_{-\infty}^{+\infty}f(z-y,x)dy fX+Y(z)=fZ(z)=∫−∞+∞f(x,z−x)dx=∫−∞+∞f(z−y,x)dy
The CDF is F Z ( z ) = P ( Z ≤ z ) = ∬ x + y ≤ z f ( x , y ) d x d y \displaystyle F_Z(z)=P(Z\leq z)=\iint_{x+y\leq z}f(x,y)dxdy FZ(z)=P(Z≤z)=∬x+y≤zf(x,y)dxdy
设 离散 随机变量 X X X 的分布律为 P ( X = x k ) = p k P(X=x_k)=p_k P(X=xk)=pk ,若级数 ∑ x k p k \displaystyle \sum x_kp_k ∑xkpk 绝对收敛,称其和为 X X X 的 数学期望(expectation),记 E ( X ) E(X) E(X)
设 连续 随机变量 X X X 的PDF为 f ( x ) f(x) f(x),若积分 ∫ x f ( x ) d x \displaystyle \int xf(x)dx ∫xf(x)dx 绝对收敛,则为数学期望。
称 E { [ X − E ( X ) ] 2 } E\{[X-E(X)]^2\} E{ [X−E(X)]2} 为 X X X 的方差,记为 D ( X ) D(X) D(X) 或 V a r ( X ) Var(X) Var(X)。
对于 离散 变量,有 D ( X ) = ∑ [ x k − E ( X ) 2 ] p k \displaystyle D(X)=\sum [x_k-E(X)^2]p_k D(X)=∑[xk−E(X)2]pk ,对于 连续 变量 D ( X ) = ∫ [ x − E ( X ) ] 2 f ( x ) \displaystyle D(X)=\int [x-E(X)]^2f(x) D(X)=∫[x−E(X)]2f(x)
公式: D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X)=E(X^2)-[E(X)]^2 D(X)=E(X2)−[E(X)]2
有 E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2,记 X ∗ = X − μ σ \displaystyle X^*=\frac{X-\mu}{\sigma} X∗=σX−μ为 标准化变量
满足性质:
引入 D ( X ) \sqrt{D(X)} D(X) 记为 σ ( X ) \sigma (X) σ(X),称为 标准差 或均方差
定义 C o v ( X , Y ) = E ( [ X − E ( X ) ] [ Y − E ( Y ) ] ) Cov(X,Y)=E([X-E(X)][Y-E(Y)]) Cov(X,Y)=E([X−E(X)][Y−E(Y)]) 为 协方差(Covariance)
易得 C o v ( X , Y ) = C o v ( Y , X ) , C o v ( X , X ) = D ( X ) Cov(X,Y)=Cov(Y,X)~~,~~Cov(X,X)=D(X) Cov(X,Y)=Cov(Y,X) , Cov(X,X)=D(X) ,展开定义有 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y)
有性质:
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \displaystyle \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X)D(Y)Cov(X,Y) 称 相关系数(Correlation Coefficient)
有 ∣ ρ X Y ∣ < 1 |\rho_{XY}|<1 ∣ρXY∣<1 , P ( Y = a + b X ) = 1 P(Y=a+bX)=1 P(Y=a+bX)=1
(引入 均方误差 e = E [ ( Y − ( a + b X ) ) 2 ] = ( 1 − ρ X Y 2 ) D ( Y ) e=E[(Y-(a+bX))^2]=(1-\rho^2_{XY})D(Y) e=E[(Y−(a+bX))2]=(1−ρXY2)D(Y))
当 ∣ ρ X Y ∣ |\rho_{XY}| ∣ρXY∣ 较大时, e e e 较小, X , Y X,Y X,Y 线性关系较紧密,线性相关程度较大,当 ∣ ρ X , Y ∣ = 0 |\rho_{X,Y}|=0 ∣ρX,Y∣=0,称 不相关
若 E ( X k ) E(X^k) E(Xk) 存在,称 k k k 阶原点矩,简称 k阶矩
若 E ( X k Y l ) E(X^kY^l) E(XkYl)存在,称 k + l k+l k+l 阶混合矩
若 E ( [ X − E ( X ) ] k [ Y − E ( Y ) ] l ) E([X-E(X)]^k[Y-E(Y)]^l) E([X−E(X)]k[Y−E(Y)]l) 存在,称 k + l k+l k+l 阶混合中心矩
显然期望为一阶原点矩,方差是二阶中心矩,协方差是二阶混合中心矩
若 c i j = C o v ( X i , X j ) = E ( [ X i − E ( X i ) ] [ X j − E ( X j ) ] ) c_{ij}=Cov(X_i,X_j)=E([X_i-E(X_i)][X_j-E(X_j)]) cij=Cov(Xi,Xj)=E([Xi−E(Xi)][Xj−E(Xj)]) 存在,则 C \mathbf{C} C 称协方差矩阵
简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望),而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布
设 X i X_i Xi 相互独立
若存在常数 C C C 使得 D ( X k ) ≤ C D(X_k)\leq C D(Xk)≤C 则对于任意小的正数 ϵ \epsilon ϵ ,满足
lim n → ∞ P { ∣ 1 n ∑ x k − 1 n ∑ E x k ∣ < ϵ } = 1 \displaystyle \lim_{n\rightarrow \infty} P\{ |\frac{1}{n}\sum x_k-\frac{1}{n}\sum Ex_k|<\epsilon \}=1 n→∞limP{ ∣n1∑xk−n1∑Exk∣<ϵ}=1
数学意义:算数平均值依概率收敛于数学期望;随着样本容量n的增加,样本平均数将接近于总体平均数。
设 f A f_A fA 是 n n n 次重伯努利试验中事件发生次数, p p p 是发生概率,对于任意小的正数 ϵ \epsilon ϵ ,满足
lim n → ∞ P { ∣ f A n − p ∣ < ϵ } = 1 o r 0 \displaystyle \lim_{n\rightarrow \infty} P\{|\frac{f_A}{n}-p|<\epsilon\}=1~or~0 n→∞limP{ ∣nfA−p∣<ϵ}=1 or 0
数学意义:频率依概率收敛于统计概率
律服从同一分布,且具有数学期望 E ( X k ) = μ E(X_k)=\mu E(Xk)=μ ,作前 n n n 个变量的算术平均 1 n ∑ X k \displaystyle \frac{1}{n}\sum X_k n1∑Xk ,
lim n → ∞ P { ∣ 1 n ∑ X k − μ ∣ < ϵ } = 1 \displaystyle\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum X_k-\mu|<\epsilon\}=1 n→∞limP{ ∣n1∑Xk−μ∣<ϵ}=1
数学意义:算数平均值稳定于数学期望的确切解释
设 X X X 为一非负随机变量,则 P ( X ≥ a ) ≤ E X a \displaystyle P(X\geq a)\leq \frac{EX}{a} P(X≥a)≤aEX,称 马尔可夫不等式(Markov inequality)
存在 ϵ \epsilon ϵ,s.t. P ( ∣ X − μ ∣ ≥ ϵ ) ≤ σ 2 ϵ 2 \displaystyle P(|X-\mu|\geq \epsilon)\leq\frac{\sigma^2}{\epsilon^2} P(∣X−μ∣≥ϵ)≤ϵ2σ2,称 切比雪夫不等式(chebyshev’s inequality)
设随机变量相互独立且具有数学期望 E ( x k ) = μ , D ( X k ) = σ 2 E(x_k)=\mu,D(X_k)=\sigma^2 E(xk)=μ,D(Xk)=σ2 则随机变量之和 ∑ X k \sum X_k ∑Xk的标准化变量
Y n = ∑ X k − E ( ∑ X k ) D ( ∑ X k ) = ∑ X k − n μ n σ \displaystyle Y_n=\frac{\sum X_k-E(\sum X_k)}{\sqrt{D(\sum X_k)}}=\frac{\sum X_k-n\mu }{\sqrt{n}\sigma} Yn=D(∑Xk)∑Xk−E(∑Xk)=nσ∑Xk−nμ
的PDF F n ( x ) F_n(x) Fn(x)对于任意 x x x 满足
lim n → ∞ F n ( x ) = lim n → ∞ P { ∑ X k − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t \displaystyle \lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty} P\{\frac{\sum X_k-n\mu}{\sqrt{n}\sigma}\leq x\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt n→∞limFn(x)=n→∞limP{ nσ∑Xk−nμ≤x}=∫−∞x2π1e−t2/2dt
当 n n n 足够大的时候,可以把任何一个期望方差存在的分布,搞成一个正态分布
De Moivre-Laplace 定理其实就是 Levi-Lindeberg 的特殊情况。
设 η n ∼ B ( n , p ) \eta_n \sim B(n,p) ηn∼B(n,p) ,有
lim n → ∞ P { η n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x ) \displaystyle \lim_{n\rightarrow \infty}P\{\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\}=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt=\Phi(x) n→∞limP{ np(1−p)ηn−np≤x}=∫−∞x2π1e−t2/2dt=Φ(x)
实际就是在把一个二项分布,尝试转为正态分布去研究;正态分布是二项分布的极限分布。
总体:实验全部可能的观察值
个体:每一个可能的观察值
容量:总体中所包含的个体数
有限/无限总体:容量有限/无限
D e f : Def: Def: 设 X X X 是具有分布函数 F F F 的随机变量,若 X i X_i Xi 是具有相同 F F F ,相互独立的随机变量,则称 X i X_i Xi 为从 F F F (或总体 F F F ,或总体 X X X)得到的容量为 n n n 的简单随机样本,简称样本,观察值 x i x_i xi 称 样本值,又称为 X X X 的 n n n 个 独立的观察值
由定义得:若 X i X_i Xi 为 F F F 的一个样本,则相互独立。所以PDF为 ∏ F ( x i ) \displaystyle \prod F(x_i) ∏F(xi) ,CDF为 ∏ f ( x i ) \displaystyle \prod f(x_i) ∏f(xi)
略
设 X i X_i Xi 是一个样本, g ( X i ) g(X_i) g(Xi) 是 X i X_i Xi 的一个函数,则称 g ( X i ) g(X_i) g(Xi) 是一个 统一量
定义 | 观察值 | |
---|---|---|
样本平均值 | X ‾ = 1 n ∑ X i \displaystyle \overline{X}=\frac{1}{n}\sum X_i X=n1∑Xi | x ‾ = 1 n ∑ x i \displaystyle \overline{x}=\frac{1}{n}\sum x_i x=n1∑xi |
样本方差 | S 2 = 1 n − 1 ∑ ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ ∗ X i − n X ‾ ) 2 \displaystyle S^2=\frac{1}{n-1}\sum (X_i-\overline{X})^2=\frac{1}{n-1}(\sum *X_i-n\overline{X})^2 S2=n−11∑(Xi−X)2=n−11(∑∗Xi−nX)2 | s 2 = 1 n − 1 ∑ ( x i − x ‾ ) 2 = 1 n − 1 ( ∑ x i 2 − n x ‾ 2 ) \displaystyle s^2=\frac{1}{n-1}\sum(x_i-\overline{x})^2=\frac{1}{n-1}(\sum x_i^2-n\overline{x}^2) s2=n−11∑(xi−x)2=n−11(∑xi2−nx2) |
样本标准差 | S = S 2 \displaystyle S=\sqrt{S^2} S=S2 | s = s 2 s=\sqrt{s^2} s=s2 |
样本 k k k 阶(原点)矩: | A k = 1 n ∑ X i k \displaystyle A_k=\frac{1}{n}\sum X_i^k Ak=n1∑Xik | a k = 1 n ∑ x i k \displaystyle a_k=\frac{1}{n}\sum x_i^k ak=n1∑xik |
样本 k k k 阶中心矩 | B k = 1 n ∑ ( X i − X ‾ ) k \displaystyle B_k=\frac{1}{n}\sum (X_i-\overline{X})^k Bk=n1∑(Xi−X)k | b k = 1 n ∑ ( x i − x ‾ ) k \displaystyle b_k=\frac{1}{n}\sum(x_i-\overline{x})^k bk=n1∑(xi−x)k |
定义 经验分布函数 ,用 S ( x ) S(x) S(x) 表示 X i X_i Xi 中不大于 x x x 的随机变量个数。经验分布函数 F n = 1 n S ( x ) \displaystyle F_n=\frac{1}{n}S(x) Fn=n1S(x)
设 X i X_i Xi 是来自总体 N ( 0 , 1 ) N(0,1) N(0,1) 的样本,则称统计量 χ 2 = ∑ X i 2 \displaystyle \chi^2=\sum X_i^2 χ2=∑Xi2 服从自由度为 n n n 的 χ 2 \chi^2 χ2分布,记作 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2∼χ2(n),自由度 指包含独立变量个数,PDF为
f ( x ) = { 1 2 n / 2 Γ ( n / 2 ) y n / 2 − 1 e − − y 2 y > 0 0 o t h e r w i s e f(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-\frac{-y}{2}} &y>0\\ &0 &otherwise \end{array} \right. f(x)=⎩⎨⎧2n/2Γ(n/2)1yn/2−1e−2−y0y>0otherwise
设 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0,1),Y\sim \chi^2(n) X∼N(0,1),Y∼χ2(n),且相互独立,则称 t = X Y / n \displaystyle t=\frac{X}{\sqrt{Y/n}} t=Y/nX 服从自由度为 n n n 的t分布,记作 t ∼ t ( n ) t\sim t(n) t∼t(n)又称 学生氏(Student)分布,PDF为
h ( t ) = Γ [ ( n + 1 ) / 2 ] π n Γ ( n / 2 ) ( 1 + t 2 n ) − ( n + 1 ) / 2 \displaystyle h(t)=\frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2} h(t)=πnΓ(n/2)Γ[(n+1)/2](1+nt2)−(n+1)/2
设 U ∼ χ 2 ( n 1 ) , V ∼ χ 2 ( n 2 ) U\sim \chi^2(n_1),V\sim \chi^2(n_2) U∼χ2(n1),V∼χ2(n2)且相互独立,则称 F = U / n 1 V / n 2 \displaystyle F=\frac{U/n_1}{V/n_2} F=V/n2U/n1 服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2)的 F F F 分布,记作 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2),PDF为
ψ ( x ) = { Γ [ ( n 1 + n 2 ) / 2 ] ( n 1 / n 2 ) n 1 / 2 y ( n 1 / 2 ) − 1 Γ ( n 1 / 2 ) Γ ( n 2 / 2 ) [ 1 + ( n 1 y / n 2 ) ] ( n 1 + n 2 ) / 2 y > 0 0 o t h e r w i s e \psi(x)= \left\{ \begin{array}{l l} &\displaystyle \frac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{(n_1/2)-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}} &y>0\\ &0 &otherwise \end{array} \right. ψ(x)=⎩⎨⎧Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2Γ[(n1+n2)/2](n1/n2)n1/2y(n1/2)−10y>0otherwise
可知,若 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2),则 1 F ∼ F ( n 2 , n 1 ) \displaystyle \frac{1}{F}\sim F(n_2,n_1) F1∼F(n2,n1)
设 X i X_i Xi 是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的样本, X ‾ \overline{X} X 是样本均值, S 2 S^2 S2 是样本方差。则
设 X i X_i Xi 和 Y i Y_i Yi 是来自正态总体的相互独立的样本。则
借助于总体的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。设总体的分布函数 f ( x ; θ ) f(x;\theta) f(x;θ) 的形式为已知, θ \theta θ 为待估参数。构造一个适当的统计量 θ ^ ( X i ) \hat{\theta}(X_i) θ^(Xi) ,用他的观察值 θ ^ ( x i ) \hat{\theta}(x_i) θ^(xi),作为未知参数 θ \theta θ 的估计值,称 θ ^ ( X i ) \hat{\theta}(X_i) θ^(Xi) 为 估计量,称 θ ^ ( x i ) \hat{\theta}(x_i) θ^(xi)为 估计值
简单的讲,这个原理认为样本的n阶中心钜和n阶原点矩和总体的n阶中心钜和n阶原点矩相同,当然这是一个近似。
设总体的 k k k 阶原点矩存在,是基于 θ i \theta_i θi 的函数,基于样本矩 A t = 1 n ∑ X i l \displaystyle A_t=\frac{1}{n}\sum X_i^l At=n1∑Xil 依概率收敛于相应的总体矩 μ l \mu_l μl ,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,于是就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。称为 矩估计方法
设
{ μ 1 = μ 1 ( θ 1 . . . θ k ) , ⋮ μ k = μ k ( θ 1 . . . θ k ) \left\{ \begin{array}{l l} &\mu_1=\mu_1(\theta_1...\theta_k),\\ &\vdots\\ &\mu_k=\mu_k(\theta_1...\theta_k) \end{array} \right. ⎩⎪⎨⎪⎧μ1=μ1(θ1...θk),⋮μk=μk(θ1...θk)
可以从中解出 θ k \theta_k θk得到
{ θ 1 = θ 1 ( μ 1 . . . μ k ) , ⋮ θ k = θ k ( μ 1 . . . μ k ) \left\{ \begin{array}{l l} &\theta_1=\theta_1(\mu_1...\mu_k),\\ &\vdots\\ &\theta_k=\theta_k(\mu_1...\mu_k) \end{array} \right. ⎩⎪⎨⎪⎧θ1=θ1(μ1...μk),⋮θk=θk(μ1...μk)
以 A i A_i Ai 分别替代上式 μ \mu μ,就以 θ i ^ = θ i ( A 1 . . . A i ) \hat{\theta_i}=\theta_i(A_1...A_i) θi^=θi(A1...Ai) 分别作 θ i \theta_i θi 的估计量,称 矩估计量
最大似然估计可以说是应用非常广泛的一种参数估计的方法。它的原理也很简单:利用已知的样本,找出最有可能生成该样本的参数。
???
若估计量 θ ^ = θ ^ ( X i ) \hat{\theta}=\hat{\theta}(X_i) θ^=θ^(Xi) 的期望 E ( θ ^ ) E(\hat{\theta}) E(θ^) 存在,且对于任意 θ ∈ Θ \theta \in \Theta θ∈Θ 有 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ ,则称 Θ ^ \hat{\Theta} Θ^ 是 Θ \Theta Θ 的 无偏估计量