概率论基础2

文章目录

  • 多个random variable
    • 条件下的multi random variable 分布和independence
    • multi random variable continuous
    • **2D normal distribution**
    • two random variable independence
    • muilti random variable conditional expectional value(discrete)
    • multi random variable conditional expectional value(continued)
    • moment
    • covariance and Correlation
    • conditional PDF
    • variance
    • Joint Distribution of Discrete and Continuous Random Variables
    • CF(characteristic function)
  • sum of random variables
    • change of variable:two to one
    • Law of Large Number(LLN)
    • Central Limit Theorem(CLT)
  • statistics

多个random variable

多个random variable是什么情况呢?假设我有2个random variable X和Y,假设Xa对应的是样本空间的1,Ya对应的是样本空间的-2,这个时候我们还有一个函数是g(X,Y)他代表2个变量X和Y的关系,比如g=xy,那么样本a对应的值为g=XY=1*-2=-2

可以看成2个抽象的event相交,2个抽象的event可以实例化成具体的event,X代表其中一个抽象的event中所有的具体的event,Y代表第二个抽象event中所有具体的event值,比如2个抽象的event同时具体化成eventi和eventj,分别由X和Y代表,f(Xi,Yi)就是这eventi和eventj相交的值
XY也可以是2个event,不过X和Y是分别统计这个event出现的频率,比如抛三次硬币,X是抛三次硬币H在上面的总数,最后X={3,2,2,2,1,1,1,0},Y是H在抛三次硬币的哪一个位子出现,Y={1,1,1,2,1,2,3,0}

概率论基础2_第1张图片
相当于将样本空间的样本通过g(X,Y)映射到另一个值可以看为Z

例子假设我们抛2次色子,一共有36个结果(样本空间),此时我们X,Y可以看成样本空间中的样本经过运算后的数字(一个抽象event),比如X要求sum of two dice(假如2次抛出色子相加的值为2那么就是一个具体化的event,也是我们正真意义上的event可以记为X1),Y要求difference of two dice(假如2次抛出色子相减的值为2那么也是一个真正意义上的event,可以记为Y1),那么X和Y又各自组成了一集合(每个集合都是一个event组成),假设X=5,Y=3,这个时候X和Y是交集,此时样本空间中只有{4,1}和{1,4}满足,

多random variable下的期望值
首先单random variable的期望值为

  • 离散
    ∑ g ( x i ) f ( x i ) \sum g(x_i)f(x_i) g(xi)f(xi)
  • 连续
    ∫ g ( x ) f ( x ) d x \int g(x)f(x)dx g(x)f(x)dx

其中g为样本的值,f为PMF

那么random variable变成二维的公式如下X范围{x1,x2,…,xn},Y的range为{y1,y2…ym}
∑ i = 1 n ∑ j = 1 m g ( x i , y i ) f ( x i , y j ) \sum_{i=1}^n\sum_{j=1}^mg(x_i,y_i)f(x_i,y_j) i=1nj=1mg(xi,yi)f(xi,yj)
其中X范围{x1,x2,…,xn},Y的range为{y1,y2…ym},且f代表Xi,Yi joint的PMF

比如我们的X的范围为1,2,Y的范围也是1,2,他们的PMF值如下

x=1 x=2
y = 1 0.4 0.1
y=2 0.1 0.4

且Z=XY,那么E(Z)的期望值为
∑ i = 1 n ∑ j = 1 m x i y i f ( x i , y j ) = 1 ∗ 1 ∗ 0.4 + 1 ∗ 2 ∗ 0.1 + 2 ∗ 1 ∗ 0.1 + 2 ∗ 2 ∗ 0.4 = 1.4 \sum_{i=1}^n\sum_{j=1}^mx_iy_if(x_i,y_j)=1*1*0.4+1*2*0.1+2*1*0.1+2*2*0.4=1.4 i=1nj=1mxiyif(xi,yj)=110.4+120.1+210.1+220.4=1.4

例子2
还是抛色子的例子
我们抛2次色子,一共有36个结果(样本空间),此时我们X可以看成样本空间中的样本经过运算后的数字,Y也一样,比如X要求sum of two dice,Y要求difference of two dice,那么X和Y又各自组成了一集合,X={2,3,4,5,6,7,8,9,10,11,12},Y={0,1,2,3,4,5}

假设我们的变量是连续的期望值如下
E ( Z ) = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) f ( x , y ) d x d y E(Z)=\int_{-∞}^∞\int_{-∞}^∞g(x,y)f(x,y)dxdy E(Z)=g(x,y)f(x,y)dxdy

例子:假如我们的joint PMF f(x,y)=4xy,且样本X的范围为[0,1],Y的范围也是[0,1],Z=XY,那么
E ( Z ) = ∫ 0 1 ∫ 0 1 x y ∗ 4 x y d x d y = 4 9 E(Z)=\int_0^1\int_0^1xy*4xydxdy=\frac{4}{9} E(Z)=0101xy4xydxdy=94

我们要知道对于任意的(x,y), f(x,y) >=0 ,那么
∑ ( x , y ) ∈ R 2 f ( x , y ) = P ( ( X , Y ) ∈ R 2 ) = 1 \sum_{(x,y)∈R^2}f(x,y)=P((X,Y)∈R^2)=1 (x,y)R2f(x,y)=P((X,Y)R2)=1

证明还是扔色子的例子,我们抛2次色子,一共有36个结果(样本空间),此时我们X可以看成样本空间中的样本经过运算后的数字,Y也一样,比如X要求sum of two dice,Y要求difference of two dice,那么X和Y又各自组成了一集合,X={2,3,4,5,6,7,8,9,10,11,12},Y={0,1,2,3,4,5},那么组成的新的集合和概率如下
概率论基础2_第2张图片
这些概率相加正好等于1

我们一个event形成集合,这个集合中random variable为Y,假设这个event是连续抛2次,2次相减为0的概率,因为总共的样本空间为36,那么相减为0代表2次抛的一样,这只会出现6次,所以这个event的概率为6/36为1/6,恰好我们的2个event相交,Y不变,变X所相加的概率也是1/6,所以可以得出
f X ( x ) = P ( X = x ) = ∑ y ∈ R f X , Y ( x , y ) fX(x)=P(X=x)=\sum_{y∈R}fX,Y(x,y) fX(x)=P(X=x)=yRfX,Y(x,y)

条件下的multi random variable 分布和independence

先回顾law of total probabilities
我们由多个event{B1,B2,…,Bk},每一个event都代表一些样本空间的集合,这些event不相交,且正好将样本空间划分,假设还有一个evnetA,求A的概率为多少
P ( A ) = ∑ i = 1 k P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i=1}^kP(A|B_i)P(B_i) P(A)=i=1kP(ABi)P(Bi)
推论
∑ i = 1 k P ( A ∣ B i ) P ( B i ) = P ( A ∩ B 1 ) + P ( A ∩ B 2 ) + . . . + P ( A ∩ B n ) \sum_{i=1}^kP(A|B_i)P(B_i)=P(A∩B_1)+P(A∩B_2)+...+P(A∩B_n) i=1kP(ABi)P(Bi)=P(AB1)+P(AB2)+...+P(ABn)

在multi random variable下的conditional PMF

假设X和Y都是一个event组
PX(X)和PY(Y)都是marginal PMFS
PXY(x,y)是joint PMF
那么
P ( Y = y j ∣ X = x k ) = P ( X = x k ∩ Y = y j ) P ( X = x k ) = P X Y ( x k , y j ) P X ( x k ) P(Y=y_j|X=x_k)=\frac{P(X=x_k ∩ Y=y_j)}{P(X=x_k)}=\frac{P_{XY}(x_k,y_j)}{PX(x_k)} P(Y=yjX=xk)=P(X=xk)P(X=xkY=yj)=PX(xk)PXY(xk,yj)
上面的式子应该没啥问题,就是将假设X和Y这2个event组具体成event,其他的都一样
上述的式子还可以记为
P Y ∣ X ( y j ∣ x k ) = P X Y ( x k , y j ) P X ( x k ) P_{Y|X}(y_j|x_k)=\frac{P_{XY}(x_k,y_j)}{P_X(x_k)} PYX(yjxk)=PX(xk)PXY(xk,yj)

假设我们抛三次硬币,X是一个event,Y是一个event(不再是event组),假设X代表所有的H数量,Y代表H在第几个位子出现,得到X={3,2,2,2,1,1,1,0},Y={1,1,1,2,1,2,3,0},如下图
概率论基础2_第3张图片
进一步算出他们的概率,我们把所有Y的可能标在X轴,所有X的可能标在Y轴,也就是joint PMF
概率论基础2_第4张图片

multi random variable continuous

和连续相似,multi random variable就是一个样本空间的样本可以被同时映射到坐标轴中(x代表一个random variable,y代表一个random variable)
概率论基础2_第5张图片
我们直到PDF是测量连续random variable概率变化的函数,我们用f(x)表示这个函数,f(x1)表示样本x1的概率,样本a到b之间的概率为 ∫ a b f ( x ) d x \int_a^bf(x)dx abf(x)dx,对应的CDF也是 ∫ a b f ( x ) d x \int_a^bf(x)dx abf(x)dx,因为CDF表示PDF函数值的变化,假如求出x1这个点的CDF,可以得到CDF F(x)= ∫ − ∞ x 1 f ( x ) d x \int_{-∞}^{x1} f(x)dx x1f(x)dx
上述是一维AKA就映射到1个random variable,假如映射到2个random variable呢?就变成一个二维
简单回顾后我们回到映射,当样本空间的样本映射到一个x轴y轴后(x轴一个random variable,y轴一个random variable),所以CDF是PDF的二阶导数为 F X Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y f X Y ( u , v ) d v d u F_{XY}(x,y)=\int_{-∞}^x\int_{-∞}^yf_{XY}(u,v)dvdu FXY(x,y)=xyfXY(u,v)dvdu

此时CDF F X Y ( x , y ) = P ( X < = x , Y < = y ) F_{XY}(x,y)=P(X <=x,Y<=y) FXY(x,y)=P(X<=x,Y<=y)如下图
概率论基础2_第6张图片

F X Y ( ∞ , ∞ ) = 1 F_{XY}(∞,∞)=1 FXY(,)=1,因为把所有的可能包含进去了概率就是1

因为我们知道在连续的样本空间里面,样本空间的值被映射到一个random variabe中,这个random variable也是连续的,所以在x轴和y轴上也是连续的(样本空间的值被映射到2个random variable上)

所以!假设样本空间映射后的2个random variable都在0到1之间,那么CDF

  • F X Y ( x , y ) = 1 F_{XY}(x,y)=1 FXY(x,y)=1 when x>1 and y>1

    当x>=1或者y>=1,换句话说映射后的值都在2个random variable在范围之外,因为有效的值都在0<=x<=1,0<=y<=1之间,所以代表所有的可能,又CDF是PDF的导数换句话说就是求面积正好映射到的是一个矩形(X是一个randon variable Y是一个random variable,且X和Y的joint),所以就是1*1=1

  • F X Y ( x , y ) = x y F_{XY}(x,y)=xy FXY(x,y)=xy when x∈[0,1] and y∈[0,1]

    同上当x∈[0,1]且y∈[0,1]之间CDF就是PDF的导数(求面积),那就是xy

  • F X Y ( x , y ) = y F_{XY}(x,y)=y FXY(x,y)=y when x>1 and y∈[0,1]

    因为样本映射后到x大于1的地方,因为超出范围,超出范围就当1算,所以1*y=y

  • F X Y ( x , y ) = x F_{XY}(x,y)=x FXY(x,y)=x when x∈[0,1] and y>1

    因为样本映射后到y大于1的地方,因为超出范围,超出范围就当1算,所以1*x=x

  • F X Y ( x , y ) = 0 F_{XY}(x,y)=0 FXY(x,y)=0 when x<0 or y<0

    因为样本映射后到x或者y小于0的地方当0算,CDF求面积就是0 * x or 0 * y

因为我们已经知道了在2个random variable的情况下CDF和PDF的关系,所以PDF就是CDF的2阶导数,得到在uniform distribution(X∈[0,1],Y∈[0,1])下
P D F = 1 / 1 PDF=1/1 PDF=1/1 when x∈[0,1],y∈[0,1]
P D F = 0 PDF=0 PDF=0 other
从图像上看uniform distribution就是这样
概率论基础2_第7张图片

marginal CDF
和离散一样就是对 对应的random variable x或者random variable y累加
比如我们的 F X ( x ) = F X Y ( x , ∞ ) = P ( X < = x , y = a n y ) F_X(x)=F_{XY}(x,∞)=P(X<=x,y=any) FX(x)=FXY(x,)=P(X<=x,y=any)

marginal PDF
就是对一个维度进行累加,但是怎么累加?积分…如下multi random variable PDF x(变y)
f X ( x ) = ∫ − ∞ ∞ f X Y ( x , y ) d y f_X(x)=\int_{-∞}^∞f_{XY}(x,y)dy fX(x)=fXY(x,y)dy

2D normal distribution

我们还记得1d的时候正态分布的PDF公式是 f ( x ) = 1 2 Π σ e − 1 2 σ 2 ( x − μ ) 2 f(x)=\frac{1}{\sqrt{2Π}σ}e^{-\frac{1}{2σ^2}(x-μ)^2} f(x)= σ1e2σ21(xμ)2,有一些复杂,当我们将其扩展到二维,也就是2个random variable的时候是什么情况
在2维的情况我们有
σ x σ_x σx stand dev in x
σ y σ_y σy stand dev in y
μ x μ_x μx mean in x
μ y μ_y μy mean in y
ρ ρ ρ 定义了相关性[-1,1]之间,假如X在增加Y的均值也在增加这个就是正相关,反之[-1,0]就是负相关,如下图
概率论基础2_第8张图片
上图正相关,下图负相关
概率论基础2_第9张图片

先记一下2d normal distribution可视化网站ucla写的
http://www.distributome.org/V3/calc/2D_BivariateNormalCalculator.html

question
假设我们有2个normal random vairaible X1 and X2, Z= 2X1 * X2,其Z也是normal distribute的,那么这个是否正确?

two random variable independence

前面我们讲了2个event independ的情况如下
P ( A , B ) = P ( A ) P ( B ) P(A , B)=P(A)P(B) P(AB)=P(A)P(B)
P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(BA)=P(B)
它可以直接推广到multi random variable上,如下
if P(X∈A and Y∈ B )=P(X∈A)P(Y∈B)
A和B是任何event,则说明X和Y2个random variable independence

假如我们的PDF是这样的
f X Y ( x , y ) = 2 e − ( x + y ) f_{XY}(x,y)=2e^{-(x+y)} fXY(x,y)=2e(x+y) when 0 < = y < = x < ∞ 0<=y<=x<∞ 0<=y<=x<
f X Y ( x , y ) = 0 f_{XY}(x,y)=0 fXY(x,y)=0 otherwise
x和y是绝对相关,因为x一定要比y大,假设x比y小,那么落到一个没有概率的地方(0),

因为 P ( A , B ) = P ( A ) P ( B ) P(A , B)=P(A)P(B) P(AB)=P(A)P(B)所以换成PDF为 f X Y ( x . y ) = f X ( x ) f Y ( y ) f_{XY}(x.y)=f_X(x)f_Y(y) fXY(x.y)=fX(x)fY(y)
有了上述式子,假设我们X和Y是2个random variable且independence,所以
E ( X Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X Y ( x , y ) d x d y E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{XY}(x,y)dxdy E(XY)=xyfXY(x,y)dxdy因为上述的公式得到
E ( X Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X Y ( x , y ) d x d y = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X ( x ) f Y ( y ) d x d y E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{XY}(x,y)dxdy=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy E(XY)=xyfXY(x,y)dxdy=xyfX(x)fY(y)dxdy然后对于这个式子我们可以变成2个一重积分相乘得到 ( ∫ − ∞ ∞ x f ( X ( x ) d x ) ) ( ∫ − ∞ ∞ y f Y ( y ) d y ) = E ( X ) E ( Y ) (\int_{-∞}^∞xf(_X(x)dx))(\int_{-∞}^∞yf_Y(y)dy)=E(X)E(Y) (xf(X(x)dx))(yfY(y)dy)=E(X)E(Y)
所以最终得到假如X和Y是2个independence的random variable则 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

我们知道Covariance的公式为
C o v ( X , Y ) = E ( ( X − u X ) ( Y − u Y ) ) = E ( X Y − X u Y − Y u X + u X u Y ) = E ( X Y ) − u X E ( Y ) − u Y E ( X ) + u X u Y = E ( X Y ) − u X u Y = E ( X Y ) − E ( X ) E ( Y ) − E ( Y ) E ( X ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E((X-u_X)(Y-u_Y))=E(XY-Xu_Y-Yu_X+u_Xu_Y)=E(XY)-u_XE(Y)-u_YE(X)+u_Xu_Y=E(XY)-u_Xu_Y=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E((XuX)(YuY))=E(XYXuYYuX+uXuY)=E(XY)uXE(Y)uYE(X)+uXuY=E(XY)uXuY=E(XY)E(X)E(Y)E(Y)E(X)+E(X)E(Y)=E(XY)E(X)E(Y),因为在random variable下期望值等于我们的mean
最后推广到independence得到
因为 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
所以 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 0 Cov(X,Y)=E(XY)-E(X)E(Y)=0 Cov(X,Y)=E(XY)E(X)E(Y)=0换句话说假如X和Y independence那么他们uncorrelated

muilti random variable conditional expectional value(discrete)

这个机械学习方向会经常用

PDF用于continue random variable (PDF用f()表示)
PMF用于离散的random variable (PMF用p()表示)
他们都是为了显示样本和概率之间的关系
CDF不管你离散还是连续都有CDF (CDF用F()表示)
概率论基础2_第10张图片

假设我们抛三次硬币,X是一个event,Y是一个event(不再是event组),假设X代表所有的H数量,Y代表H在第几个位子出现,得到X={3,2,2,2,1,1,1,0},Y={1,1,1,2,1,2,3,0},如下图

概率论基础2_第11张图片
进一步算出他们的概率,我们把所有Y的可能标在X轴,所有X的可能标在Y轴,也就是joint PMF

概率论基础2_第12张图片
假设一个情况,我们抛三次硬币,发现只有一个H(此时X=1),求这个H出现在第三次抛硬币中(Y=3)的概率是多少,这个是明显的条件概率,公式如下
f Y ∣ X ( 3 ∣ 1 ) = P ( Y = 3 ∩ X = 1 ) P ( X = 1 ) = 1 8 3 8 = 1 3 f_{Y|X}(3|1)=\frac{P(Y=3∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3} fYX(3∣1)=P(X=1)P(Y=3X=1)=8381=31

假设我们想求X=1的情况下Y的期望值呢?
我们要先把 f Y ∣ X ( 0 ∣ 1 ) f_{Y|X}(0|1) fYX(0∣1), f Y ∣ X ( 1 ∣ 1 ) f_{Y|X}(1|1) fYX(1∣1), f Y ∣ X ( 2 ∣ 1 ) f_{Y|X}(2|1) fYX(2∣1), f Y ∣ X ( 3 ∣ 1 ) f_{Y|X}(3|1) fYX(3∣1)的条件概率求出来,然分别乘以0,1,2,3,如下
f Y ∣ X ( 0 ∣ 1 ) = P ( Y = 0 ∩ X = 1 ) P ( X = 1 ) = 0 3 8 = 0 f_{Y|X}(0|1)=\frac{P(Y=0∩X=1)}{P(X=1)}=\frac{0}{\frac{3}{8}}=0 fYX(0∣1)=P(X=1)P(Y=0X=1)=830=0
f Y ∣ X ( 1 ∣ 1 ) = P ( Y = 1 ∩ X = 1 ) P ( X = 1 ) = 1 8 3 8 = 1 3 f_{Y|X}(1|1)=\frac{P(Y=1∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3} fYX(1∣1)=P(X=1)P(Y=1X=1)=8381=31
f Y ∣ X ( 2 ∣ 1 ) = P ( Y = 2 ∩ X = 1 ) P ( X = 1 ) = 1 8 3 8 = 1 3 f_{Y|X}(2|1)=\frac{P(Y=2∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3} fYX(2∣1)=P(X=1)P(Y=2X=1)=8381=31
f Y ∣ X ( 3 ∣ 1 ) = P ( Y = 3 ∩ X = 1 ) P ( X = 1 ) = 1 8 3 8 = 1 3 f_{Y|X}(3|1)=\frac{P(Y=3∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3} fYX(3∣1)=P(X=1)P(Y=3X=1)=8381=31
E ( Y ∣ X = 1 ) = 0 ∗ f Y ∣ X ( 0 ∣ 1 ) + 1 ∗ f Y ∣ X ( 1 ∣ 1 ) + 2 ∗ f Y ∣ X ( 2 ∣ 1 ) + 3 ∗ f Y ∣ X ( 3 ∣ 1 ) = 0 ∗ 0 + 1 ∗ 1 3 + 2 ∗ 1 3 + 3 ∗ 1 3 = 2 E(Y|X=1)=0*f_{Y|X}(0|1)+1*f_{Y|X}(1|1)+2*f_{Y|X}(2|1)+3*f_{Y|X}(3|1)=0*0+1*\frac{1}{3}+2*\frac{1}{3}+3*\frac{1}{3}=2 E(YX=1)=0fYX(0∣1)+1fYX(1∣1)+2fYX(2∣1)+3fYX(3∣1)=00+131+231+331=2

所以muilti random variable conditional expectation的公式为
E ( Y ∣ X = x ) = ∑ j = 1 m y j f Y ∣ X ( y j ∣ x ) E(Y|X=x)=\sum_{j=1}^my_jf_{Y|X}(y_j|x) E(YX=x)=j=1myjfYX(yjx)其中x为常量

multi random variable conditional expectional value(continued)

one random variable expectional value
首先我们的expectional value就是概率的值乘以样本,这样推广到continueal就是
E ( x ) = ∫ − ∞ ∞ x f x ( t ) d t E(x)=\int_{-∞}^{∞}xf_x(t)dt E(x)=xfx(t)dt
上述的公式就非常的好理解, f X ( t ) 是 P D F f_X(t)是PDF fX(t)PDF
假设不是x是(不是样本空间的样本)是一个映射,映射到random variable那么就如下
E ( g ( X ) ) = ∫ − ∞ ∞ g ( t ) f X ( t ) d t E(g(X))=\int_{-∞}^∞g(t)f_X(t)dt E(g(X))=g(t)fX(t)dt

假设我们是多个random variable
E ( g ( X , Y ) ) = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( u , v ) f X , Y ( u , v ) d u d v E(g(X,Y))=\int_{-∞}^∞\int_{-∞}^∞g(u,v)f_{X,Y}(u,v)dudv E(g(X,Y))=g(u,v)fX,Y(u,v)dudv

假设期望值是线性的则如下
E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY)=aE(X)+bE(Y) E(aX+bY)=aE(X)+bE(Y)
推论如下所示
E ( a X + b Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( a u + b v ) f X Y ( u , v ) d u d v = E(aX+bY)=\int_{-∞}^∞\int_{-∞}^∞(au+bv)f_{XY}(u,v)dudv= E(aX+bY)=(au+bv)fXY(u,v)dudv=
∫ − ∞ ∞ ∫ − ∞ ∞ a u f X Y ( u , v ) d u d v + ∫ − ∞ ∞ ∫ − ∞ ∞ b v f X Y ( u , v ) d u d v \int_{-∞}^∞\int_{-∞}^∞auf_{XY}(u,v)dudv+\int_{-∞}^∞\int_{-∞}^∞bvf_{XY}(u,v)dudv aufXY(u,v)dudv+bvfXY(u,v)dudv
此时分别看2个积分公式发现外部的积分上下限和dv是不是相当于对dv进行marginal,所以
a ∫ − ∞ ∞ u f X ( u ) d u + b ∫ − ∞ ∞ v f Y ( v ) d v = a E ( X ) + b E ( Y ) a\int_{-∞}^∞uf_X(u)du+b\int_{-∞}^∞vf_Y(v)dv=aE(X)+bE(Y) aufX(u)du+bvfY(v)dv=aE(X)+bE(Y)

moment

PS这里插一个小知识叫做moment(矩),一阶距是期望值,2阶矩是方差,公式如下
K t h M o m e n t : E ( X k ) K^{th}Moment:E(X^k) KthMoment:E(Xk)
he nth moment of a distribution about the mean is given by E ( ( X − u ) k ) E((X-u)^k) E((Xu)k)

高阶矩的目的是去测量一个分布的重尾程度,或者说概率 p(x)是否随着值x的增大急速地减少。

我们知道 V a r [ X ] = E [ X 2 ] − E [ X ] 2 Var[X]=E[X^2]-E[X]^2 Var[X]=E[X2]E[X]2,关于这个的推论去看关于Var的章节,有详细推论,套用到这里我们可以得知 V a r [ X ] = E [ X 2 ] − E [ X ] 2 = m 2 − ( m 1 ) 2 Var[X]=E[X^2]-E[X]^2=m_2-(m_1)^2 Var[X]=E[X2]E[X]2=m2(m1)2

m 3 m_3 m3是描述一个distribution的asymmetric,假设 m 3 = 0 m_3=0 m3=0说明分布是symmetric也就是对称的,如果 m 3 < 0 m_3<0 m3<0说明distribution是不对称且顶点向右偏(顶点左边的分布缓,顶点右边的分布陡峭), m 3 > 0 m_3>0 m3>0说明顶点向左偏

moment generation function(MGF)
假设X是random variable,t是MGF中的变量如下
M X ( t ) = E ( e t x ) = ∑ X e t x f x ( x ) M_X(t)=E(e^{tx})=\sum_Xe^{tx}f_x(x) MX(t)=E(etx)=Xetxfx(x)或者 ∫ − ∞ ∞ e t x f X ( x ) d x \int_{-∞}^∞e^{tx}f_X(x)dx etxfX(x)dx
t是一个辅助变量,MGF的存在是为了让我们计算n阶moment更加的方便,X是random variable,x是random variable X中的变量
那么MGF和moment有啥具体关系呢?这里用到 e t x e^{tx} etx的泰勒公式,我们带入泰勒公式后再将泰勒公式带入E()中,最后对其求一阶导数,最后得到一阶moment,二阶导数得到二阶moment,以此类推,MGF还是要比直接算n阶moment要简单的多,再具体请看这里

假设random variable X和random variable Y是independent的那么
E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
推论如下
因为X和Y independent,所以 E [ X Y ] = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X , Y ( x , y ) d x d y = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X ( x ) f Y ( y ) d x d y = ∫ − ∞ ∞ x f X ( x ) d x ∫ − ∞ ∞ y f Y ( y ) d y = E [ X ] E [ Y ] E[XY]=\int_{-∞}^∞\int_{-∞}^∞xyf_{X,Y}(x,y)dxdy=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy=\int_{-∞}^∞xf_X(x)dx\int_{-∞}^∞yf_Y(y)dy=E[X]E[Y] E[XY]=xyfX,Y(x,y)dxdy=xyfX(x)fY(y)dxdy=xfX(x)dxyfY(y)dy=E[X]E[Y]
那么同样X和Yindependece,且Z=X+Y,那么
M Y ( t ) = E [ e t Z ] = E [ e t ( X + Y ) ] = E [ e t X e t Y ] = E [ e t X ] E [ e t Y ] = M X [ t ] M Y [ t ] M_Y(t)=E[e^{tZ}]=E[e^{t(X+Y)}]=E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]=M_X[t]M_Y[t] MY(t)=E[etZ]=E[et(X+Y)]=E[etXetY]=E[etX]E[etY]=MX[t]MY[t]

covariance and Correlation

covariance和correlation是描述2个random variable随着一个variable变化另一个变化情况的,这里请会议二阶正态分布中的rho也就是2个random variable的正相关和负相关
先给出covariance的公式 C o v ( X , Y ) = E ( ( X − u X ) ( Y − u Y ) ) Cov(X,Y)=E((X-u_X)(Y-u_Y)) Cov(X,Y)=E((XuX)(YuY))

u X u_X uX u Y u_Y uY指的是mean(中值) of two random variable ,换句话说我们的样本是一个正态分布那么mean就是最中间的那个值(当然样本要经过排序)

假设正相关(随着X的增长Y也在增长),且X> u X u_X uX,那么Y> u Y u_Y uY所以最终期望值内的值为正,假设X< u X u_X uX,那么Y< u Y u_Y uY所以最终期望值内的值为正

假设负相关(随着X的增长Y减少),且X> u X u_X uX,那么Y< u Y u_Y uY所以最终期望值内的值为负,假设X< u X u_X uX,那么Y> u Y u_Y uY所以最终期望值内的值为负

假设2个random variable independence那么COV(X,Y)=0,推论如下
假设2个random variable independence那么 f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y)=f_X(x)f_Y(y) fX,Y(x,y)=fX(x)fY(y)所以
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)其中 E ( X Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X , Y ( x , y ) d x d y E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{X,Y}(x,y)dxdy E(XY)=xyfX,Y(x,y)dxdy因为 f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y)=f_X(x)f_Y(y) fX,Y(x,y)=fX(x)fY(y)所以 E ( X Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x y f X ( x ) f Y ( y ) d x d y = ∫ − ∞ ∞ x f X ( x ) d x ∫ − ∞ ∞ y f Y ( y ) d y = E ( X ) E ( Y ) E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy=\int_{-∞}^∞xf_X(x)dx\int_{-∞}^∞yf_Y(y)dy=E(X)E(Y) E(XY)=xyfX(x)fY(y)dxdy=xfX(x)dxyfY(y)dy=E(X)E(Y)
所以当random variable X和Y independent所以 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y),且 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 0 Cov(X,Y)=E(XY)-E(X)E(Y)=0 Cov(X,Y)=E(XY)E(X)E(Y)=0
但是当 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0不代表一定independent
当2个random variable X和Y 的Cov为0,代表2个random variable没有线性关系(我们用线性回归也不好预测其后续结果)

假设a是一常数,我们球random variable X和a的cov为0,公式是如下
C o v ( X , a ) = E ( ( X − u x ) ( a − a ) ) = 0 Cov(X,a)= E((X-u_x)(a-a))=0 Cov(X,a)=E((Xux)(aa))=0

假设我们有2个random variable,求这2个randoom variable分别经过线性函数后的covariance,如下
C o v ( a X + b , c Y + d ) = E ( ( a X + b − E ( a X + b ) ) ( c Y + d − E ( c Y + d ) ) ) = E ( ( a X + b − a u x − b ) ( c Y + d − c u y − d ) ) = a c E ( ( X − u x ) ( Y − u y ) ) = a c C o v ( X , Y ) Cov(aX+b, cY+d)=E((aX+b-E(aX+b))(cY+d-E(cY+d)))=E((aX+b-au_x-b)(cY+d-cu_y-d))=acE((X-u_x)(Y-u_y))=acCov(X,Y) Cov(aX+b,cY+d)=E((aX+bE(aX+b))(cY+dE(cY+d)))=E((aX+bauxb)(cY+dcuyd))=acE((Xux)(Yuy))=acCov(X,Y)

因为 E ( a X + b ) = E ( a X ) + E ( b ) = a E ( X ) + b E(aX+b)=E(aX)+E(b)=aE(X)+b E(aX+b)=E(aX)+E(b)=aE(X)+b

我们知道 C o v ( X , Y ) = E ( ( X − u X ) ( Y − u Y ) ) Cov(X,Y)=E((X-u_X)(Y-u_Y)) Cov(X,Y)=E((XuX)(YuY))可推 C o v ( X , Y ) = E ( X Y − X u Y − Y u X + u X u Y ) = E ( X Y ) − E ( X u Y ) − E ( Y u X ) + E ( u X u Y ) = E ( X Y ) − u Y E ( X ) − u X E ( Y ) + E ( u X u Y ) = E ( X Y ) − E ( Y ) E ( X ) − E ( X ) E ( Y ) + E ( u X u Y ) = E ( X Y ) − E ( Y ) E ( X ) Cov(X,Y)=E(XY-Xu_Y-Yu_X+u_Xu_Y)=E(XY)-E(Xu_Y)-E(Yu_X)+E(u_Xu_Y)=E(XY)-u_YE(X)-u_XE(Y)+E(u_Xu_Y)=E(XY)-E(Y)E(X)-E(X)E(Y)+E(u_Xu_Y)=E(XY)-E(Y)E(X) Cov(X,Y)=E(XYXuYYuX+uXuY)=E(XY)E(XuY)E(YuX)+E(uXuY)=E(XY)uYE(X)uXE(Y)+E(uXuY)=E(XY)E(Y)E(X)E(X)E(Y)+E(uXuY)=E(XY)E(Y)E(X)

假设我们有一个PDF f X , Y ( x , y ) = 1 2 f_{X,Y}(x,y)=\frac{1}{2} fX,Y(x,y)=21 when x =3, y=4, f X , Y ( x , y ) = 1 3 f_{X,Y}(x,y)=\frac{1}{3} fX,Y(x,y)=31 when x =3,y=6, f X , Y ( x , y ) = 1 6 f_{X,Y}(x,y)=\frac{1}{6} fX,Y(x,y)=61 when x =5,y=6, f X , Y ( x , y ) = 0 f_{X,Y}(x,y)=0 fX,Y(x,y)=0 when other得到以下
E ( X ) = 3 ∗ 1 2 + 3 ∗ 1 3 + 5 ∗ 1 6 + 0 = 10 3 E(X)=3*\frac{1}{2}+3*\frac{1}{3}+5*\frac{1}{6}+0=\frac{10}{3} E(X)=321+331+561+0=310
E ( Y ) = 4 ∗ 1 2 + 6 ∗ 1 3 + 6 ∗ 1 6 + 0 = 5 E(Y)=4*\frac{1}{2}+6*\frac{1}{3}+6*\frac{1}{6}+0=5 E(Y)=421+631+661+0=5
E X ( Y ) = 3 ∗ 4 ∗ 1 2 + 3 ∗ 6 ∗ 1 3 + 5 ∗ 6 ∗ 1 6 + 0 = 17 EX(Y)=3*4*\frac{1}{2}+3*6*\frac{1}{3}+5*6*\frac{1}{6}+0=17 EX(Y)=3421+3631+5661+0=17
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 1 3 > 0 Cov(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{3}>0 Cov(X,Y)=E(XY)E(X)E(Y)=31>0

但是我们的covariance非常的难判断,但是我们可以用方差去进行标准化,则得到correlation公式如下
ρ = C o v ( X , Y ) V a r ( X ) V a r ( Y ) = C o v ( X , Y ) σ X σ Y ρ=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}=\frac{Cov(X,Y)}{{σ_Xσ_Y}} ρ=Var(X)Var(Y) Cov(X,Y)=σXσYCov(X,Y),因为Var就是variance方差
为什么说covariance好判断?因为ρ总是在-1到1之间,0到1代表正相关,0到-1代表负相关

ρ X Y = 0 = > C o v ( X , Y ) = 0 ρ_{XY}=0=>Cov(X,Y)=0 ρXY=0=>Cov(X,Y)=0

corelation只表示一个线性关系,假如概率分布是一个指数样的,我们correlation就不合适了

I n d e p e n d e n t = > u n c o r r e l a t i o n Independent=>uncorrelation Independent=>uncorrelation BUT u n c o r r e l a t i o n uncorrelation uncorrelation not => I n d e p e n d e n t Independent Independent

关于covariance matrix,这个在机器学习中用的非常多

conditional PDF

首先我们都知道2个event A,B

P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B)=\frac{P(A,B)}{P(B)} P(AB)=P(B)P(A,B)图形如下

概率论基础2_第13张图片
告诉了我们B happen,那么A happen的概率是多少

我们知道了在离散的情况下,multiple random variable的conditional PMF公式如下
P Y ∣ X ( y j ∣ x k ) = P X Y ( x k , y . j ) P X ( x k ) = J o i n t m a r g i n a l P_{Y|X}(y_j|x_k)=\frac{P_{XY}(x_k,y.j)}{P_X(x_k)}=\frac{Joint}{marginal} PYX(yjxk)=PX(xk)PXY(xk,y.j)=marginalJoint
关于marginal,还有conditional PMF的例子看上面,这里都是回顾

值得注意的是conditional PMFs are just another type of PMF,啥意思?我们的conditional PMFs比如 P X ∣ Y ( x ∣ 1 ) P_{X|Y}(x|1) PXY(x∣1)是另一种PMF,我们通过 P X ∣ Y ( x ∣ y ) P_{X|Y}(x|y) PXY(xy)可以画出一个二维图,当X等于1的时候意味着就只有一行,此时我们可以标准化将这一行根据概率分割(相加为1),比如我原本的multi random variable如下
概率论基础2_第14张图片
然后取 P X ∣ Y ( x ∣ 1 ) P_{X|Y}(x|1) PXY(x∣1)的那一行,再标准化如下
概率论基础2_第15张图片

在连续的世界中公式和离散一样,都是 c o n d i t i o n a l = j o i n t m a r g i n a l conditional=\frac{joint}{marginal} conditional=marginaljoint,所以连续的PDF公式如下和离散PMF一样
f Y ∣ X ( y ∣ x ) = f X Y ( x , y ) f X ( x ) f_{Y|X}(y|x)=\frac{f_{XY}(x,y)}{f_X{(x)}} fYX(yx)=fX(x)fXY(x,y)

if X and Y are independent then f X Y ( x , y ) = f X ( x ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) = > f Y ∣ X ( y ∣ x ) = f Y ( y ) f_{XY}(x,y)=f_X(x)f_Y(y)=f_{Y|X}(y|x)f_X(x)=>f_{Y|X}(y|x)=f_Y(y) fXY(x,y)=fX(x)fY(y)=fYX(yx)fX(x)=>fYX(yx)=fY(y)这里和离散没有什么不同

真实例子:bayes decision rule
贝叶斯决策理论是模式识别(Pattern-classification)里面重要的概率统计方法之一,首先解释几个名词

  • prior probability
    就是我们一些意外事件发生之前的概率,假设我们从布袋拿球,布袋中一共由3个黄球,2个红球,那么取出红球的概率是 P ( p i c k _ r e d ) = 2 5 P(pick\_red)=\frac{2}{5} P(pick_red)=52,这个是prior概率,但是当我们已经取出一个黄球了,那么取出红球的概率还能是 2 5 \frac{2}{5} 52吗?
  • likelihood probability
    此时我们应该想到概率论中有一个叫做condition probability的东西,所以这个时候我们表达式应该这样 P ( p i c k r e d ∣ p i c k _ y e l l o w ) P(pick_red|pick\_yellow) P(pickredpick_yellow),并且她也叫作likelihood probability
  • 贝叶斯公式如下
    P ( A ∣ B ) P ( B ) = P ( A , B ) = P ( B , A ) = P ( A ) P ( B ∣ A ) − > P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B)P(B)=P(A,B)=P(B,A)=P(A)P(B|A)->P(A|B)=\frac{P(A)P(B|A)}{P(B)} P(AB)P(B)=P(A,B)=P(B,A)=P(A)P(BA)>P(AB)=P(B)P(A)P(BA)
    其中 P ( A ∣ B ) P(A|B) P(AB)posterior P ( A ) P(A) P(A)prior P ( B ∣ A ) P(B|A) P(BA)likelihood

此时根据贝叶斯决策得到,假如我们要识别狗和猫,X是我们待识别的样本,那么决定为狗
P ( 狗 ∣ X ) > P ( 猫 ∣ X ) − − − > > > f X ( x ∣ 狗 ) P ( 狗 ) P ( X ) > f X ( x ∣ 猫 ) P ( 猫 ) P ( X ) P(狗|X)>P(猫|X)--->>>\frac{f_X(x|狗)P(狗)}{P(X)}>\frac{f_X(x|猫)P(猫)}{P(X)} P(X)>P(X)>>>P(X)fX(x)P()>P(X)fX(x)P()
决定为猫那么
P ( 猫 ∣ X ) > P ( 狗 ∣ X ) − − − > > > 与上同理 P(猫|X)>P(狗|X)--->>>与上同理 P(X)>P(X)>>>与上同理

假如 P ( 猫 ) = P ( 狗 ) = 1 2 P(猫)=P(狗)=\frac{1}{2} P()=P()=21,那么我们只能看likelihood,比谁的大(在给定的X)

variance

variance就是标准差的平方,也就是方差,离散情况太简单就不说了,直接说连续情况,公式如下
V a r ( x ) = ∫ − ∞ ∞ ( x − E ( x ) ) 2 f x ( X ) d x Var(x)=\int_{-∞}^∞(x-E(x))^2f_x(X)dx Var(x)=(xE(x))2fx(X)dx
E(x)可以看成mean, f x ( x ) f_x(x) fx(x)可以看成PDF
2个random variable如下
V a r ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − E ( x ) ) 2 f x , y ( X , Y ) d x d y Var(X,Y)=\int_{-∞}^∞\int_{-∞}^∞(x-E(x))^2f_{x,y}(X,Y)dxdy Var(X,Y)=(xE(x))2fx,y(X,Y)dxdy

conditional variance
V a r ( X ∣ Y = y ) = ∫ − ∞ ∞ ( x − E ( X ∣ Y = y ) ) 2 f X ∣ Y ( x ∣ y ) d x Var(X|Y=y)=\int_{-∞}^∞(x-E(X|Y=y))^2f_{X|Y}(x|y)dx Var(XY=y)=(xE(XY=y))2fXY(xy)dx
因为是y固定,而x在变,所以是x的积分

首先E(X)可以看成mean,那么我们可以得到
V a r [ X ] = E [ ( X − E [ X ] ) 2 ] Var[X]=E[(X-E[X])^2] Var[X]=E[(XE[X])2]
因为 E [ ( X − E [ X ] ) 2 ] = ∫ − ∞ ∞ ( x − E ( x ) ) 2 f x ( X ) d x E[(X-E[X])^2]=\int_{-∞}^∞(x-E(x))^2f_x(X)dx E[(XE[X])2]=(xE(x))2fx(X)dx
进一步推论
V a r [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 − 2 X E [ X ] + E [ X ] 2 ] Var[X]=E[(X-E[X])^2]=E[X^2-2XE[X]+E[X]^2] Var[X]=E[(XE[X])2]=E[X22XE[X]+E[X]2]此时我们令 E [ X ] = u E[X]=u E[X]=u E [ X 2 − 2 X E [ X ] + E [ X ] 2 ] = E [ X 2 − 2 X u + u 2 ] = E [ X 2 ] − 2 u E [ X ] + u 2 = E [ X 2 ] − 2 u 2 + u 2 = E [ X 2 ] − u 2 = E [ X 2 ] − E [ X ] 2 E[X^2-2XE[X]+E[X]^2]=E[X^2-2Xu+u^2]=E[X^2]-2uE[X]+u^2=E[X^2]-2u^2+u^2=E[X^2]-u^2=E[X^2]-E[X]^2 E[X22XE[X]+E[X]2]=E[X22Xu+u2]=E[X2]2uE[X]+u2=E[X2]2u2+u2=E[X2]u2=E[X2]E[X]2
所以…
V a r [ X ] = E [ X 2 ] − E [ X ] 2 Var[X]=E[X^2]-E[X]^2 Var[X]=E[X2]E[X]2
因为 E [ x ] = m e a n = μ E[x]=mean=\mu E[x]=mean=μ,所以 V a r [ X ] = E [ X 2 ] − μ 2 = σ 2 Var[X]=E[X^2]-\mu^2=\sigma^2 Var[X]=E[X2]μ2=σ2,因为 σ \sigma σ是标准差,var是方差

进一步假设random variable X的所有sample相加除以n(aka平均数aka X ˉ \bar{X} Xˉ),那么 V a r [ X ˉ ] = V a r [ X 1 + X 2 + . . . + X n n ] = 1 n V a r [ X 1 + . . . + X n ] = 1 n ( V a r [ X 1 ] + V a r [ X 2 ] + . . . + V a r [ X n ] ) = σ 2 n = E [ X ˉ 2 ] − μ 2 Var[\bar{X}]=Var[\frac{X1+X2+...+Xn}{n}]=\frac{1}{n}Var[X1+...+Xn]=\frac{1}{n}(Var[X1]+Var[X2]+...+Var[Xn])=\frac{\sigma^2}{n}=E[\bar{X}^2]-\mu^2 Var[Xˉ]=Var[nX1+X2+...+Xn]=n1Var[X1+...+Xn]=n1(Var[X1]+Var[X2]+...+Var[Xn])=nσ2=E[Xˉ2]μ2

Joint Distribution of Discrete and Continuous Random Variables

顾名思义就是我们的概率模型中有离散random variables也有连续random variables

定义如下
假设d为离散的random variable,c为连续的random variable,他们定义在一个相同的概率空间中,样本空间中的w,可以映射到d(w),c(w),那么joint pmf和joint pdf是多少?

啥意思?就是我们样本空间Ω中的样本通过某种映射(某种函数之类的东西)映射成1,2,3,4,5这种离散的样本统称为w给d,同样 样本空间Ω中的样本通过某种映射(某种函数之类的东西)映射成一个连续的样本给c

其实单独的joint discrete and continued pdf和pmf是dosen’t make sense的,但是他们的marginal pdf,marginal condition是make sense的

CF(characteristic function)

CF是一个复杂的方程,这个方程彻底的识别了一个random variable的分布,一些random variable没有MGF,但是每一个random variable都有CF

sum of random variables

假设我们有多个random variable,我们想把多个random variable相加,为什么相加?多个random variable相加意义就是形成一个新的randon variable,假设我们有一个random vairable表示1月份所有天数,盈亏情况(x轴是return百分比,y轴是这个return百分比发生的频率),因为有1月就有2月,3月…12月,所以我们可以有12个random variable,年度统计的时候我们要将这12个月的情况都相加,所以此时我们需要用到sum of random variable
假设X1是random variable1,X2是random variable2…Xn是random variablen那么
s u m : X 1 + X 2 + . . . + X N = S n = ∑ i = 1 N X i sum:X_1+X_2+...+X_N=S_n=\sum_{i=1}^NX_i sum:X1+X2+...+XN=Sn=i=1NXi
M e a n : 1 n ∑ i = 1 N X i = M n Mean:\frac{1}{n}\sum_{i=1}^NX_i=M_n Mean:n1i=1NXi=Mn
E ( S N ) = E ( X 1 + X 2 + . . . + X n ) = E ( X 1 ) + E ( X 2 ) + . . . + E ( X n ) = ∑ i = 1 n E ( X i ) E(S_N)=E(X_1+X_2+...+X_n)=E(X_1)+E(X_2)+...+E(X_n)=\sum_{i=1}^nE(X_i) E(SN)=E(X1+X2+...+Xn)=E(X1)+E(X2)+...+E(Xn)=i=1nE(Xi)
E ( M n ) = 1 n ∑ i = 1 n E ( X i ) E(M_n)=\frac{1}{n}\sum_{i=1}^nE(X_i) E(Mn)=n1i=1nE(Xi)
V a r ( S n ) = E ( S n 2 ) − ( E ( S n ) ) 2 Var(S_n)=E(S_n^2)-(E(S_n))^2 Var(Sn)=E(Sn2)(E(Sn))2
variance有些奇怪,这里我们推论一下
E ( S n 2 ) = E ( ( X 1 + X 2 + . . . + X n ) ( X 1 + X 2 + . . . + X n ) ) = ∑ i = 1 n ∑ j = 1 n E ( X i X j ) E(S_n^2)=E((X_1+X_2+...+X_n)(X_1+X_2+...+X_n))=\sum_{i=1}^n\sum_{j=1}^nE(X_iX_j) E(Sn2)=E((X1+X2+...+Xn)(X1+X2+...+Xn))=i=1nj=1nE(XiXj)
( E ( S n ) ) 2 = ( E ( X 1 ) + . . . + E ( X n ) ) 2 (E(S_n))^2=(E(X_1)+...+E(X_n))^2 (E(Sn))2=(E(X1)+...+E(Xn))2
所以
V a r ( S n ) = E ( S n 2 ) − ( E ( S n ) ) 2 = ∑ i = 1 n ∑ j = 1 n ( E ( X i X j ) − E ( X i ) E ( X j ) ) = ∑ i = 1 n ∑ j = 1 n C o v ( X i , X j ) Var(S_n)=E(S_n^2)-(E(S_n))^2=\sum_{i=1}^n\sum_{j=1}^n(E(X_iX_j)-E(X_i)E(X_j))=\sum_{i=1}^n\sum_{j=1}^nCov(X_i,X_j) Var(Sn)=E(Sn2)(E(Sn))2=i=1nj=1n(E(XiXj)E(Xi)E(Xj))=i=1nj=1nCov(Xi,Xj)

我们知道一个random X的normal distribution要这样表达 X X X~ N ( μ x , ( σ x ) 2 ) N(μ_x,(σ_x)^2) N(μx,(σx)2),其中μ代表mean,σ代表标准差,那么我们有2个independent的random variable X和Y,分别由 X X X~ N ( μ x , ( σ x ) 2 ) N(μ_x,(σ_x)^2) N(μx,(σx)2) Y Y Y~ N ( μ y , ( σ y ) 2 ) N(μ_y,(σ_y)^2) N(μy,(σy)2),此时由一个Z=aX+bY,那么Z也是normal distribution的,记为 Z Z Z~ N ( a μ x + b μ y , a 2 σ x 2 + b 2 σ y 2 ) N(aμ_x+bμ_y,a^2σx^2+b^2σy^2) N(aμx+bμy,a2σx2+b2σy2),假如更多个independence 的random variable这是可以推广的假设X1,…Xn是independent的那么 Z = ∑ a i X i Z=\sum a_iX_i Z=aiXi~ N ( ∑ i a i μ i , ∑ ( a i ) 2 ( σ i ) 2 ) N(\sum_ia_iμ_i,\sum (a_i)^2(σ_i)^2) N(iaiμi,(ai)2(σi)2)
怎么推论呢?如下

假设我们有2个random variable X和Y independence,Z=aX+bY
设Z的MGF为 M Z ( t ) = M a X + b Y ( t ) = E ( e t ( a X + b Y ) ) = E ( e a t X e b t Y ) M_Z(t)=M_{aX+bY}(t)=E(e^{t(aX+bY)})=E(e^{atX}e^{btY}) MZ(t)=MaX+bY(t)=E(et(aX+bY))=E(eatXebtY)
因为X和Y independence
原式= E ( e a t X ) E ( e b t Y ) = M X ( a t ) M Y ( b t ) = M X ( t ) E(e^{atX})E(e^{btY})=M_X(at)M_Y(bt)=M_X(t) E(eatX)E(ebtY)=MX(at)MY(bt)=MX(t)
因为X和Y是normal distribute的所以
原式= e a μ 1 t + σ 1 2 ( a t ) 2 2 e b μ 2 t + σ 2 2 ( b t ) 2 2 = e t ( a μ 1 + b μ 2 ) + t 2 2 ( a 2 σ 1 2 + b 2 σ 2 2 ) e^{aμ_1t+\frac{σ_1^2(at)^2}{2}}e^{bμ_2t+\frac{σ_2^2(bt)^2}{2}}=e^{t(aμ_1+bμ_2)+\frac{t^2}{2}(a^2σ_1^2+b^2σ_2^2)} eaμ1t+2σ12(at)2ebμ2t+2σ22(bt)2=et(aμ1+bμ2)+2t2(a2σ12+b2σ22)
此时Z可以看成 Z Z Z~ N ( a μ 1 + b μ 2 , a 2 σ 1 2 + b 2 σ 2 2 ) N(aμ_1+bμ_2,a^2σ_1^2+b^2σ_2^2) N(aμ1+bμ2,a2σ12+b2σ22),此时Z也是正态分布的

假设X为正态分布,那么其PDF为
PDF= 1 σ 2 Π e − 1 2 ( x − μ σ ) 2 \frac{1}{σ\sqrt{2Π}}e^{-\frac{1}{2}(\frac{x-μ}{σ})^2} σ 1e21(σxμ)2
对应的MGF为
MGF= e μ t + σ 2 t 2 2 e^{μt+\frac{σ^2t^2}{2}} eμt+2σ2t2

change of variable:two to one

假设我们有2个random variableX和Y,此时我们有一个新的random variable Z等于g(x,y)
我们已知X和Y的joint PDF f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y),求Z的PDF f Z ( z ) f_Z(z) fZ(z)

例如:我们有2个random variableX和Y,X~EXPO(lambda),Y ~ EXPO(lanbda),所以X和Y是independence,此时我们有一个新的random variable Z等于g(x,y),
g(z,y)=MAX(X,Y)
我们可以先求Z的CDF,如下
F Z ( 3 ) = P ( Z < = 3 ) = P ( M A X ( X , Y ) < = 3 ) = P ( X < = 3 , Y < = 3 ) F_Z(3)=P(Z<=3)=P(MAX(X,Y)<=3)=P(X<=3,Y<=3) FZ(3)=P(Z<=3)=P(MAX(X,Y)<=3)=P(X<=3,Y<=3)因为indpendent
原式= P ( X < = 3 ) P ( Y < = 3 ) P(X<=3)P(Y<=3) P(X<=3)P(Y<=3)
因为X和Y都是指数分布,所以其PDF为,当x>0时 f X ( x ) = λ e − λ x f_X(x)=λe^{-λx} fX(x)=λeλx,other f X ( x ) = 0 f_X(x)=0 fX(x)=0,然后其对应的CDF是 F X ( u ) = 1 − e − λ u F_X(u)=1-e^{-λu} FX(u)=1eλu,when u >0
所以原式= ( 1 − e − 3 λ ) 2 (1-e^{-3λ})^2 (1e3λ)2,最后先对λ求导再带入3即可

Law of Large Number(LLN)

假设我们有N个Random variable X 1 . . . X m X_1...X_m X1...Xm 且他们是independent,且 E ( X i ) = u E(X_i)=u E(Xi)=u v a r ( X i ) = σ 2 var(X_i)=\sigma^2 var(Xi)=σ2 ,i为1到m之间任意一个数
那么我们可以得到,假如
S = X 1 + . . . + X m S=X_1+...+X_m S=X1+...+Xm
sample mean(SM)= X 1 + . . . + X m m \frac{X_1+...+X_m}{m} mX1+...+Xm

E ( S ) = m u E(S)=mu E(S)=mu

这个好理解因为independent所以 E ( X 1 + X 2 + . . . + X n ) = E ( X 1 ) + E ( X 2 ) + . . . + E ( X n ) E(X_1+X_2+...+X_n)=E(X_1)+E(X_2)+...+E(X_n) E(X1+X2+...+Xn)=E(X1)+E(X2)+...+E(Xn)

v a r ( S ) = V a r ( X 1 ) + V a r ( X 2 ) + . . . + V a r ( X n ) = m σ 2 var(S)=Var(X_1)+Var(X_2)+...+Var(X_n)=m\sigma^2 var(S)=Var(X1)+Var(X2)+...+Var(Xn)=mσ2

E ( S M ) = m u m = u E(SM)=\frac{mu}{m}=u E(SM)=mmu=u
V a r ( S M ) = 1 m 2 ( V a r ( X 1 ) + . . . + V a r ( X m ) ) = m σ 2 m 2 = σ 2 m Var(SM)=\frac{1}{m^2}(Var(X_1)+...+Var(X_m))=\frac{m\sigma^2}{m^2}=\frac{\sigma^2}{m} Var(SM)=m21(Var(X1)+...+Var(Xm))=m2mσ2=mσ2

因为 V a r ( a X ) = E ( ( a X ) 2 ) − E ( a X ) 2 = a 2 E ( X 2 ) − a 2 E ( X ) 2 = a 2 ( E ( X 2 ) − E ( X ) 2 ) = a 2 V a r ( X ) Var(aX)=E((aX)^2)-E(aX)^2=a^2E(X^2)-a^2E(X)^2=a^2(E(X^2)-E(X)^2)=a^2Var(X) Var(aX)=E((aX)2)E(aX)2=a2E(X2)a2E(X)2=a2(E(X2)E(X)2)=a2Var(X)

Central Limit Theorem(CLT)

if X1…Xn independent并且这些random variable是independent and identically distributed(都是同一个分布,且independent)
当S=X1+…+Xm时,m趋于无穷,则S是一个正态分布 N ( m u , m σ 2 ) N(mu,m\sigma^2) N(mu,mσ2),其中E(Xi)=u,Var(Xi)= σ 2 \sigma^2 σ2

假设X1…Xn的期望值和方差都相等,且X1=0
既然是正态分布,那么我们就要求其中的mean和方差,所以如下
u = E [ S n ] = E [ X 1 + X 2 + . . . + X n ] = E [ X 1 ] + E [ X 2 ] + . . . + E [ X n ] = n E [ X 1 ] u=E[S_n]=E[X_1+X_2+...+X_n]=E[X_1]+E[X_2]+...+E[X_n]=nE[X_1] u=E[Sn]=E[X1+X2+...+Xn]=E[X1]+E[X2]+...+E[Xn]=nE[X1]
σ = V a r [ S n ] = V a r [ X 1 + X 2 + . . . + X n ] = V a r [ X 1 + X 2 + . . . + X n ] = ( V a r [ X 1 ] + V a r [ X 2 ] + . . . + V a r [ X n ] ) = n V a r [ X 1 ] \sigma=Var[S_n]=Var[{X_1+X_2+...+X_n}]=Var[X_1+X_2+...+X_n]=(Var[X_1]+Var[X_2]+...+Var[X_n])=nVar[X_1] σ=Var[Sn]=Var[X1+X2+...+Xn]=Var[X1+X2+...+Xn]=(Var[X1]+Var[X2]+...+Var[Xn])=nVar[X1]

我们还可以对random variable求平均数,如 X ˉ = X 1 + X 2 + . . . + X n n \bar{X}=\frac{X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn,然后对 X ˉ \bar{X} Xˉ求mean和 σ \sigma σ(为了求normal distribution),如下
u = E [ X ˉ n ] = E [ S n n ] = n E [ X 1 ] n = E [ X 1 ] u=E[\bar{X}_n]=E[\frac{S_n}{n}]=\frac{nE[X_1]}{n}=E[X_1] u=E[Xˉn]=E[nSn]=nnE[X1]=E[X1]
σ 2 = V a r [ X n ˉ ] = V a r [ S n n ] = 1 n 2 V a r [ S n ] = 1 n 2 n V a r [ X 1 ] = V a r [ X 1 ] n \sigma^2=Var[\bar{X_n}]=Var[\frac{S_n}{n}]=\frac{1}{n^2}Var[S_n]=\frac{1}{n^2}nVar[X_1]=\frac{Var[X_1]}{n} σ2=Var[Xnˉ]=Var[nSn]=n21Var[Sn]=n21nVar[X1]=nVar[X1]
σ = S D [ X ˉ ] = S D [ X 1 ] n \sigma=SD[\bar{X}]=\frac{SD[X_1]}{\sqrt{n}} σ=SD[Xˉ]=n SD[X1]
当我们n趋于无穷,意思是random variable越来越多, σ = 0 \sigma=0 σ=0,意味着样本无穷大,样本平均值的方差趋于0,而mean等于E[X1]

random variable 的方差等于0代表,random variable是一个常量,random variable是一个常量说明不管random variable的X是多少,都等于一个常数结果,这个常数就是 E [ X 1 ] E[X_1] E[X1]

statistics

statistics其实和概率论没有多大的区别,很多概念相通
3

你可能感兴趣的:(概率论和统计学,概率论)