频率派概率:一个结果发生的概率为P,则如果我们进行无数次的反复实验,有P的比例会导致这样的结果
贝叶斯概率:根据经验估计得出先验概率,随后根据数据一步步修正概率
在事件F已经发生的情况下,事件E发生的概率表示为
P ( E ∣ F ) = P ( E F ) P ( F ) P(E|F) = \frac{P(EF)}{P(F)} P(E∣F)=P(F)P(EF)
P ( E F ) = P ( E ∣ F ) P ( F ) P(EF)=P(E|F)P(F) P(EF)=P(E∣F)P(F)
全概率公式:将某一事件单独发生的概率转化为与其他事件相关的条件概率公式
P ( E ) = P ( E F ) + P ( E F ′ ) = P ( E ∣ F ) P ( F ) + P ( E ∣ F ′ ) P ( F ′ ) P(E)=P(EF)+P(EF') = P(E|F)P(F)+P(E|F')P(F') P(E)=P(EF)+P(EF′)=P(E∣F)P(F)+P(E∣F′)P(F′)
P ( E ) = ∑ i = 1 n P ( F i ) P ( E ∣ F i ) P(E)=\sum_{i=1} ^nP(F_i)P(E|F_ i) P(E)=∑i=1nP(Fi)P(E∣Fi)
贝叶斯公式:
P ( F ∣ E ) = P ( E F ) P ( E ) = P ( E F ) P ( E ∣ F ) P ( F ) + P ( E ∣ F ′ ) P ( F ′ ) P(F|E)=\frac{P(EF)}{P(E)}=\frac{P(EF)}{P(E|F)P(F)+P(E|F')P(F')} P(F∣E)=P(E)P(EF)=P(E∣F)P(F)+P(E∣F′)P(F′)P(EF)
P ( F j ∣ E ) = P ( E F j ) P ( E ) = P ( E ∣ F j ) P ( F j ) ∑ i = 1 n P ( E ∣ F i ) P ( F i ) P(F_j|E)=\frac{P(EF_j)}{P(E)}=\frac{P(E|F_j)P(F_j)}{\sum_{i=1}^nP(E|F_i)P(F_i)} P(Fj∣E)=P(E)P(EFj)=∑i=1nP(E∣Fi)P(Fi)P(E∣Fj)P(Fj)
根据条件概率公式,若两个事件独立则 P ( E ∣ F ) = P ( E ) P (E|F)=P(E) P(E∣F)=P(E)
P ( E F ) = P ( E ) P ( F ) P(EF)=P(E)P(F) P(EF)=P(E)P(F)等价于事件E与事件F独立
样本空间:一个事件的所有可能结果
样本点:事件所有可能结果中的一种结果
随机变量:对于每一个样本点,都有一个唯一的实数与之对应,则就产生了一个样本点到唯一实数之间的函数
分布律:
概率质量函数(Probablity Mass Function):随机变量中的每个取值映射到该取值的概率
P ( x ) = P ( X = x ) P(x)=P(X=x) P(x)=P(X=x)
累积分布函数(Cumulative Probablity Function):随机变量小于等于某个值的概率之和
F ( x ) = P ( X ≤ x ) F(x)=P(X\le x) F(x)=P(X≤x)
定义:一个随机变量的全部可能取值,只有有限多个或可列无穷多个
常见分布:两点分布、二项分布、几何分布、超几何分布、均匀分布、泊松分布
分布律: F ( a ) = ∑ x ≤ a p ( x ) F(a)=\sum_{x\le a} p(x) F(a)=∑x≤ap(x)
定义:随机变量的取值为连续的
常见分布:均匀分布、指数分布、正态分布
分布律:
概率密度函数(Probability Density Function):
P ( X ∈ B ) = ∫ B f ( x ) d x P(X\in B)=\int_{B}f(x)dx P(X∈B)=∫Bf(x)dx
分布函数:
联合分布函数: F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y)=P(X ≤x,Y ≤y) F(x,y)=P(X≤x,Y≤y)
边缘分布函数: F X ( x ) = F ( x , ∞ ) , F Y ( y ) = F ( ∞ , y ) F_X(x)=F(x,∞), F_Y(y)=F(∞,y) FX(x)=F(x,∞),FY(y)=F(∞,y)
联合分布质量函数: p ( x , y ) = P ( X = x , Y = y ) p(x,y) = P(X = x, Y = y) p(x,y)=P(X=x,Y=y)
独立随机变量:
P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X ∈A,Y ∈B)=P(X ∈A)P(Y ∈B) P(X∈A,Y∈B)=P(X∈A)P(Y∈B)
F ( a , b ) = F X ( a ) F Y ( b ) F(a,b)=F_X(a)F_Y(b) F(a,b)=FX(a)FY(b)
p ( x , y ) = p X ( x ) p Y ( y ) p(x, y) = p_X (x)p_Y( y) p(x,y)=pX(x)pY(y)
条件分布:
p X ∣ Y ( x ∣ y ) = P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) p_{X|Y}(x|y)=P(X =x|Y =y)= \frac{P(X = x, Y = y)}{P(Y=y)} pX∣Y(x∣y)=P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)
期望:随机变量取值的平均值
E [ X ] = ∑ x i P ( x i ) E[X]=\sum x_iP(x_i) E[X]=∑xiP(xi)
函数的期望:
离散: E [ X ] = ∑ g ( x ) p ( x ) E[X]=\sum g(x)p(x) E[X]=∑g(x)p(x)
连续: E [ X ] = ∫ g ( x ) f ( x ) E[X]=\int g(x)f(x) E[X]=∫g(x)f(x)
联合分布的期望:
离散: E [ g ( X , Y ) ] = ∑ y ∑ x g ( x , y ) p ( x , y ) E[g(X,Y)]=\sum _y\sum_xg(x,y)p(x,y) E[g(X,Y)]=∑y∑xg(x,y)p(x,y)
连续: E [ g ( X , Y ) ] = ∫ y ∫ x g ( x , y ) f ( x , y ) d x d y E[g(X,Y)]=\int _y\int_xg(x,y)f(x,y)dxdy E[g(X,Y)]=∫y∫xg(x,y)f(x,y)dxdy
方差:随机变量的取值与平均取值(期望)的偏离程度
V a r ( X ) = E [ ( X − μ ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Va r (X) = E [ ( X − μ ) ^2 ]= E [ X ^2 ] − ( E [ X ] ) ^2 Var(X)=E[(X−μ)2]=E[X2]−(E[X])2
性质:
V a r ( a X + b ) = a 2 V a r ( X ) Var(aX + b) = a^2Var(X ) Var(aX+b)=a2Var(X)
协方差:两个随机变量之间的相关程度的大小
C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] Cov(X, Y) = E [(X − μ_x )(Y − μ_y )] Cov(X,Y)=E[(X−μx)(Y−μy)]
性质:
C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y) = Cov(Y,X) Cov(X,Y)=Cov(Y,X)
C o v ( a X , Y ) = a C o v ( X , Y ) Cov(aX,Y) = a Cov(X,Y) Cov(aX,Y)=aCov(X,Y)
C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 +X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
协方差与独立性:
若两个随机变量独立,则它们的协方差为零,反之不成立
相关系数:
C o r r ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) Corr(X,Y) = \frac {Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)
P ( X ≥ a ) ≤ E [ X ] a P(X ≥ a) ≤ \frac {E[X]}{a} P(X≥a)≤aE[X]
P ( ∣ X − μ ∣ ≥ k ) ≤ σ 2 k 2 P(|X −μ|≥k)≤ \frac{σ^2}{k^2} P(∣X−μ∣≥k)≤k2σ2
P ( ∣ X − μ ∣ > k σ ) ≤ 1 / k 2 P(|X −μ|>kσ)≤1/k^2 P(∣X−μ∣>kσ)≤1/k2
在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率
X1 X2, … Xn为一系列均值相同的随机变量
P ( ∣ X 1 + . . . + X n n − μ ∣ > ϵ ) − > 0 P(|\frac{X_1+...+X_n}{n}-\mu|>\epsilon)->0 P(∣nX1+...+Xn−μ∣>ϵ)−>0 as n->∞