随机过程 Class 3 条件期望

在开始本节课之前,本着概率论的逻辑,我们首先来定义概率空间 ( Ω , F , P ) (\Omega,\mathscr{F},P) (Ω,FP),其中 A ∈ F A\in \mathscr{F} AF为样本空间中的事件。


随机变量关于随机变量的条件期望

下面给出条件概率和条件期望的定义:
定义:条件概率,条件分布函数,条件期望

  1. X , Y X,Y X,Y离散型随机变量,对给定的 y y y,若 P { Y = y } > 0 P\{Y=y\}>0 P{ Y=y}>0,则称
    P { X = x ∣ Y = y } = P { X = x , Y = y } P { Y = y } P\{X=x|Y=y\}=\frac{P\{X=x,Y=y\}}{P\{Y=y\}} P{ X=xY=y}=P{ Y=y}P{ X=x,Y=y}
    为给定 Y = y Y=y Y=y X X X的条件概率。

    此时 Y = y Y=y Y=y, X X X的分布函数为:
    F ( x ∣ y ) = P { X ≤ x ∣ Y = y } , x ∈ R F(x|y)=P\{X\le x|Y=y\},x\in R F(xy)=P{ XxY=y},xR
    X的条件期望为:
    E [ X ∣ Y = y ] = ∫ x d F ( x ∣ y ) = ∑ x x P { X = x ∣ Y = y } E[X|Y=y]=\int xdF(x|y)=\sum_x xP\{X=x|Y=y\} E[XY=y]=xdF(xy)=xxP{ X=xY=y}
  2. X , Y X,Y X,Y是连续型随机变量,
    其联合概率密度为 f ( x , y ) f(x,y) f(x,y)
    则对一切使 f Y ( y ) > 0 f_Y(y)>0 fY(y)>0 y y y,给定 Y = y Y=y Y=y时,
    X X X的条件概率密度定义为:
    f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x|y)=\frac{f(x,y)}{f_Y(y)} f(xy)=fY(y)f(x,y)
    给定 Y = y Y=y Y=y时, X X X的条件分布函数为:
    F ( x ∣ y ) = P { X ≤ x ∣ Y = y } = ∫ − ∞ x f ( u ∣ y ) d u , F(x|y)=P\{X\le x|Y=y\}=\int_{-\infty}^xf(u|y)du, F(xy)=P{ XxY=y}=xf(uy)du,
    而给定 Y = y Y=y Y=y时, X X X的条件分布期望定义为:
    E [ X ∣ Y = y ] = ∫ x d F ( x ∣ y ) = ∫ x f ( x ∣ y ) d x E[X|Y=y]=\int xdF(x|y)=\int xf(x|y)dx E[XY=y]=xdF(xy)=xf(xy)dx

注:

  1. X , Y X,Y X,Y都是随机变量,实则是从样本空间 Ω \Omega Ω到实数轴 R R R上的映射。而 x , y x,y x,y是什么呢?是映射的像值,是 R R R上的一个定值。
    随机过程 Class 3 条件期望_第1张图片
  2. E ( X ∣ Y ) E(X|Y) E(XY)对于每一个随机变量 Y Y Y的取值 y y y有一个取值,因而我可以将 E ( X ∣ Y ) E(X|Y) E(XY)看做是有关随机变量Y 取值 y y y的函数 h ( y ) h(y) h(y)
    ( h ( Y ) h(Y) h(Y) h ( y ) h(y) h(y)不太一样, h ( Y ) h(Y) h(Y)是由 Y Y Y h h h复合而成的从样本空间 F F F R R R上的映射,而 h ( y ) h(y) h(y)仅仅是从 R R R R R R上的映射。)
    h ( Y ) : F ⟶ Y R ⟶ E ( X ∣ Y ) R A ⟶ Y y ⟶ E ( X ∣ Y ) E ( X ∣ Y = y ) \begin{aligned} h(Y):&F\stackrel{Y}{\longrightarrow} R \stackrel{E(X|Y)}{\longrightarrow} R\\ &A\stackrel{Y}{\longrightarrow} y \stackrel{E(X|Y)}{\longrightarrow} E(X|Y=y) \end{aligned} h(Y):FYRE(XY)RAYyE(XY)E(XY=y)
    h ( y ) : R ⟶ E ( X ∣ Y ) R y ⟶ E ( X ∣ Y ) E ( X ∣ Y = y ) \begin{aligned} h(y):&R \stackrel{E(X|Y)}{\longrightarrow} R\\ &y \stackrel{E(X|Y)}{\longrightarrow} E(X|Y=y) \end{aligned} h(y):RE(XY)RyE(XY)E(XY=y)
  3. X , Y X,Y X,Y为连续型随机变量时,对 y y y要求 f Y ( y ) > 0 f_Y(y)>0 fY(y)>0,目的是为了使得条件概率密度函数 f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x|y)=\frac{f(x,y)}{f_Y(y)} f(xy)=fY(y)f(x,y)有意义。但是其实如果 f Y ( y ) = 0 f_Y(y)=0 fY(y)=0,我们也能够有计算的方法:
    但是这要用到测度论的内容,这个因为还没有学到严谨的定义,因而日后在开 这个

在上面注记2中,我们注意到 h ( Y ) = E ( X ∣ Y ) h(Y)=E(X|Y) h(Y)=E(XY)其实也是一个随机变量,在这里我们给这个特殊的随机变量一个名字,称之为X对Y的条件数学期望。(注意 h ( y ) h(y) h(y)本身并不是一个随机变量)。

对于多元情形 h ( Y 1 , Y 2 , . . . , Y n ) E ( X ∣ Y 1 , Y 2 , . . . , Y n ) h(Y_1,Y_2,...,Y_n)E(X|Y_1,Y_2,...,Y_n) h(Y1,Y2,...,Yn)E(XY1,Y2,...,Yn)和刚刚的一元情形实际上是类似的,记
h ( y 1 , y 2 , . . . , y n ) = E ( X ∣ Y 1 = y 1 , Y 2 = y 2 , . . . Y n = y n ) h(y_1,y_2,...,y_n)=E(X|Y_1=y_1,Y_2=y_2,...Y_n=y_n) h(y1,y2,...,yn)=E(XY1=y1,Y2=y2,...Yn=yn)


随机变量关于子 σ − \sigma- σ代数的条件期望

随机过程 Class 3 条件期望_第2张图片
Questions:

  1. 什么叫做 A \mathscr{A} A-可测?
    实数上的任何博雷尔可测集在 X X X下的原像属于 A \mathscr{A} A,那么就称 X X X A \mathscr{A} A可测的。
  2. 什么叫做可积随机变量?
    R R R上任意 B o r e l Borel Borel集在随机变量 ξ \xi ξ的映射原像为 F \mathscr{F} F σ − \sigma- σ代数中的事件,那么称随机变量 ξ \xi ξ可测。
    通过该映射我们可以建立起对应于 ( Ω , F , P ) 的 (\Omega,\mathscr{F},P)的 (Ω,F,P) ( R , ξ ) (R,\xi) (R,ξ)上的度量 ( R , B , P ( ⋅ ) ) (R,\mathscr{B},P(\cdot)) (R,B,P())
    我们之前考虑的概率分布函数 F ( x ) = P ( ξ ≤ x ) F(x)=P(\xi\le x) F(x)=P(ξx)其实就生成了 ( R , B ) (R,\mathscr{B}) (R,B)上的度量 P ( ⋅ ) P(\cdot) P(),有了度量空间 ( R , B , P ( ⋅ ) ) (R,\mathscr{B},P(\cdot)) (R,B,P()),我们就能够在其上计算积分 ∑ x P ( x ) = ∫ x d F ( x ) \sum xP(x)=\int x dF(x) xP(x)=xdF(x),所谓可积随机变量,其实是随机变量可积。也就是指其期望存在。
  3. E [ ξ ∣ B ] = E [ η ∣ B ] E[\xi|B]=E[\eta|B] E[ξB]=E[ηB]这个数学表述的具体含义用文字表述是什么?
  4. ( Ω , F , P ( ⋅ ) ) ⟶ X ( r . v . ) ( R , B , F X ) ⟶ g ( ⋅ ) : R → R ( R , B , F g ( X ) ) (\Omega,\mathscr{F},P(\cdot)) \stackrel{X(r.v.)}{\longrightarrow}(R,\mathscr{B},F_X )\stackrel{g(\cdot):R\rightarrow R}{\longrightarrow}(R,\mathscr{B},F_{g(X)}) (Ω,F,P())X(r.v.)(R,B,FX)g():RR(R,B,Fg(X))
    在这个映射作用下,那些信息被保留了下来,作为整个传递过程的不变量?那些信息在传递过程中流失了?
    (在映射过程中,只要求像空间中 σ − \sigma- σ代数中元素的原像是原像空间中的 σ − \sigma- σ代数中元素,但是原像空间中的 σ − \sigma- σ代数中元素的像未必是像空间中 σ − \sigma- σ代数中元素。例子:可测函数中,原像中的可测集可能映射为像空间中的不可测集,比如常值函数。)

注:
1) ξ \xi ξ关于 A \mathscr{A} A的条件数学期望 E [ ξ ∣ A ] E[\xi|\mathscr{A}] E[ξA]是一个随机变量
2) A \mathscr{A} A是一个 σ − \sigma- σ代数,同时其本体也就是一个集族。

你可能感兴趣的:(随机过程)