一些数学理论,感觉在用到的时候才方显胸中无墨,大学时学习的知识早就已原封不动的还给老师了,况且那个时候更多是用于通过期末考试。偶然看到一篇很好的文章,在这里copy一份,方便自己和广大同胞今后翻阅!
首先得在此非常感谢原创博主黄海广博士整理出了如此详细的技术文章,鄙人在原文的基础上做了些微改动(修改了一些符号上的小错误)。原文出处:
首发:吴恩达的 CS229的数学基础(概率论),有人把它做成了在线翻译版本!
为了定义集合上的概率,我们需要一些基本元素:
n
个事件发生的概率等于这些事件单独发生时概率的加和):以上三条性质被称为概率公理。
举例:
考虑投掷六面骰子的事件。样本空间为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω = \{1, 2, 3, 4, 5, 6\} Ω={1,2,3,4,5,6}
。最简单的事件空间是平凡事件空间 F = { ∅ , Ω } \mathcal{F} = \{\emptyset, Ω\} F={∅,Ω} 。另一个事件空间是 Ω Ω Ω 的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率度量由 P ( ∅ ) = 0 , P ( Ω ) = 1 P(\emptyset) = 0, P(Ω) = 1 P(∅)=0,P(Ω)=1 给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事件的概率分配为 i / 6 i/6 i/6 ,这里 i i i 是这个事件集合中元素的数量;例如 P ( { 1 , 2 , 3 , 4 } ) = 4 / 6 , P ( { 1 , 2 , 3 } ) = 3 / 6 P(\{1, 2, 3, 4\}) = 4/6, P(\{1, 2, 3\}) = 3/6 P({1,2,3,4})=4/6,P({1,2,3})=3/6 。
性质:
假设 B B B 是一个概率非 0 的事件,我们定义在给定 B B B 的条件下 A A A 的条件概率为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
换句话说, P ( A ∣ B ) P(A|B) P(A∣B) 是度量已经观测到事件 B B B 发生的情况下事件 A A A 发生的概率,两个事件被称为独立事件当且仅当 P ( A ∩ B ) = P ( A ) P ( B ) P(A \cap B) = P(A)P(B) P(A∩B)=P(A)P(B) (或等价地, P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A))。因此,独立性相当于是说观察到事件 B B B 对于事件 A A A 的概率没有任何影响。
考虑一个实验,我们翻转 10
枚硬币,我们想知道正面硬币的数量。这里,样本空间 Ω Ω Ω 的元素是长度为 10
的序列。例如,我们可能有 ω 0 = { H , H , T , H , T , H , H , T , T , T } ∈ Ω \omega_0 = \{ H, H, T, H, T, H, H, T, T, T\} \in Ω ω0={H,H,T,H,T,H,H,T,T,T}∈Ω。然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10
次投掷中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。
更正式地说,随机变量 X X X 是一个 Ω → R Ω \rightarrow \mathbb{R} Ω→R 的函数。通常,我们将使用大写字母 X ( ω ) X(\omega) X(ω) 或更简单的 X X X (其中隐含对随机结果 ω \omega ω 的依赖)来表示随机变量。我们将使用小写字母 x x x 来表示随机变量的值。
举例:
在我们上面的实验中,假设 X ( ω ) X(\omega) X(ω) 是在投掷序列 ω \omega ω 中出现的正面的数量。假设投掷的硬币只有 10
枚,那么 X ( ω ) X(\omega) X(ω) 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 X X X 相关联的集合取某个特定值 k k k 的概率为:
P ( X = k ) ≔ P ( { ω : X ( ω ) = k } ) P(X=k) \coloneqq P(\{\omega \colon X(\omega) = k\}) P(X=k):=P({ω:X(ω)=k})
举例:
假设 X ( ω ) X(\omega) X(ω) 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, X ( ω ) X(\omega) X(ω) 具有无限多的可能值,因此它被称为连续随机变量。我们将 X X X 在两个实常数 a a a 和 b b b 之间取值的概率(其中 a < b a \lt b a<b )表示为:
P ( a ≤ X ≤ b ) ≔ P ( { ω : a ≤ X ( ω ) ≤ b } ) P(a \leq X \leq b) \coloneqq P(\{\omega \colon a \leq X(\omega) \leq b\}) P(a≤X≤b):=P({ω:a≤X(ω)≤b})
为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数( CDF
、PDF
和 PMF
),在本节和接下来的两节中,我们将依次描述这些类型的函数。
累积分布函数(Cumulative Distribution Function
)是函数 F X : R → [ 0 , 1 ] F_X \colon \mathbb{R} \rightarrow [0, 1] FX:R→[0,1] ,它将概率度量指定为:
F X ( x ) = P ( X ≤ x ) F_X(x) = P(X \leq x) FX(x)=P(X≤x)
通过使用这个函数,我们可以计算任意事件发生的概率。图 1
显示了一个样本 CDF
函数。
性质:
当随机变量 X X X 取有限种可能值(即, X X X 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数( Probability Mass Function
)是函数 p X : Ω → R p_X \colon Ω \rightarrow \mathbb{R} pX:Ω→R ,这样:
p X ( x ) = P ( X = x ) p_X(x) = P(X = x) pX(x)=P(X=x)
在离散随机变量的情况下,我们使用符号 V a l ( X ) Val(X) Val(X) 表示随机变量 X X X 可能假设的一组可能值。例如,如果 X ( ω ) X(\omega) X(ω) 是一个随机变量,表示十次投掷硬币中的正面数,那么:
V a l ( X ) = { 0 , 1 , 2 , . . . , 10 } Val(X) = \{0, 1, 2, ..., 10\} Val(X)={0,1,2,...,10}
性质:
对于一些连续随机变量,在累积分布函数 F X ( x ) F_X(x) FX(x) 处可微。在这些情况下,我们将概率密度函数( Probability Density Function
)定义为累积分布函数的导数,即:
f X ( x ) = d F X ( x ) d x f_X(x) = \frac{dF_X(x)}{dx} fX(x)=dxdFX(x)
请注意,连续随机变量的概率密度函数可能并不总是存在的(即,如果它不是处处可微)。
根据微分的性质,对于很小的 Δ x \Delta x Δx ,有:
P ( x ≤ X ≤ x + Δ x ) ≈ f X ( x ) Δ x P(x \leq X \leq x + \Delta x) \approx f_X(x)\Delta x P(x≤X≤x+Δx)≈fX(x)Δx
CDF
和 PDF
(当它们存在时!)都可用于计算不同事件的概率。但是应该强调的是,任意给定点的概率密度函数(PDF
)的值不是该事件的概率,即 f X ( x ) ≠ P ( X = x ) f_X(x) \neq P(X = x) fX(x)=P(X=x)。例如, f X ( x ) f_X(x) fX(x) 可以取大于 1
的值(但是 f X ( x ) f_X(x) fX(x) 在 R \mathbb{R} R 的任何子集上的积分最多为 1
)。
性质:
假设 X X X 是一个离散随机变量,其PMF为 p X ( x ) p_X(x) pX(x) , g : R → R g \colon \mathbb{R} \rightarrow \mathbb{R} g:R→R 是一个任意函数。在这种情况下, g ( X ) g(X) g(X) 可以被视为随机变量,我们将 g ( X ) g(X) g(X) 的期望值定义为:
E [ g ( X ) ] = ∑ x ∈ V a l ( X ) g ( x ) p X ( x ) E[g(X)] = \sum_{x \in Val(X)} g(x)p_X(x) E[g(X)]=x∈Val(X)∑g(x)pX(x)
如果 X X X 是一个连续的随机变量,其PDF为 f X ( x ) f_X(x) fX(x) ,那么 g ( X ) g(X) g(X) 的期望值被定义为:
E [ g ( X ) ] = ∫ − ∞ + ∞ g ( x ) f X ( x ) d x E[g(X)] = \int_{-\infty}^{+\infty} g(x)f_X(x)dx E[g(X)]=∫−∞+∞g(x)fX(x)dx
直觉上, g ( X ) g(X) g(X) 的期望值可以被认为是 g ( x ) g(x) g(x) 对于不同的 x x x 值可以取的值的“加权平均值”,其中权重由 p X ( x ) p_X(x) pX(x) 或 f X ( x ) f_X(x) fX(x) 给出。作为上述情况的特例,请注意,随机变量本身的期望值,是通过令 g ( x ) = x g(x) = x g(x)=x 得到的,这也被称为随机变量的平均值。
性质:
随机变量 X X X 的方差是随机变量 X X X 的分布围绕其平均值集中程度的度量。形式上,随机变量 X X X 的方差定义为:
V a r [ X ] = E [ ( X − E [ X ] ) 2 ] Var[X] = E[(X - E[X])^2] Var[X]=E[(X−E[X])2]
使用上一节中的性质,我们可以导出方差的替代表达式:
E [ ( X − E [ X ] ) 2 ] = E [ X 2 − 2 E [ X ] X + E [ X ] 2 ] E[(X - E[X])^2] = E[X^2 -2E[X]X + E[X]^2] E[(X−E[X])2]=E[X2−2E[X]X+E[X]2]
= E [ X 2 ] − 2 E [ X ] E [ X ] + E [ X ] 2 = E[X^2] - 2E[X]E[X] + E[X]^2 =E[X2]−2E[X]E[X]+E[X]2
= E [ X 2 ] − E [ X ] 2 = E[X^2] - E[X]^2 =E[X2]−E[X]2
其中第二个等式来自期望的线性,以及 E [ X ] E[X] E[X] 相对于外层期望实际上是常数的事实。
性质:
举例:
计算均匀随机变量 X X X 的平均值和方差,任意 x ∈ [ 0 , 1 ] x \in [0, 1] x∈[0,1] ,其PDF为 p X ( x ) = 1 p_X(x) = 1 pX(x)=1 ,其他地方为 0
。如:
E [ X ] = ∫ − ∞ + ∞ x f X ( x ) d x = ∫ 0 1 x d x = 1 2 E[X] = \int_{-\infty}^{+\infty} xf_X(x)dx = \int_{0}^{1} xdx = \frac{1}{2} E[X]=∫−∞+∞xfX(x)dx=∫01xdx=21
E [ X 2 ] = ∫ − ∞ + ∞ x 2 f X ( x ) d x = ∫ 0 1 x 2 d x = 1 3 E[X^2] = \int_{-\infty}^{+\infty} x^{2}f_X(x)dx = \int_{0}^{1} x^{2}dx = \frac{1}{3} E[X2]=∫−∞+∞x2fX(x)dx=∫01x2dx=31
V a r [ X ] = E [ X 2 ] − E [ X ] 2 = 1 3 − ( 1 2 ) 2 = 1 12 Var[X] = E[X^2] - E[X]^2 = \frac{1}{3} - (\frac{1}{2})^2 = \frac{1}{12} Var[X]=E[X2]−E[X]2=31−(21)2=121
举例:
假设对于一些子集 A ⊆ Ω A \subseteq Ω A⊆Ω ,有 g ( x ) = 1 { x ∈ A } g(x) = 1\{x \in A\} g(x)=1{x∈A},计算 E [ g ( X ) ] E[g(X)] E[g(X)] ?
离散情况:
E [ g ( X ) ] = ∑ x ∈ V a l ( X ) 1 { x ∈ A } p X ( x ) d x = ∑ x ∈ A p X ( x ) d x = P ( x ∈ A ) E[g(X)] = \sum_{x \in Val(X)} 1\{x \in A\}p_X(x)dx = \sum_{x \in A} p_X(x)dx = P(x \in A) E[g(X)]=x∈Val(X)∑1{x∈A}pX(x)dx=x∈A∑pX(x)dx=P(x∈A)
连续情况:
E [ g ( X ) ] = ∫ − ∞ + ∞ 1 { x ∈ A } f X ( x ) d x = ∫ x ∈ A f X ( x ) d x = P ( x ∈ A ) E[g(X)] = \int_{-\infty}^{+\infty} 1\{x \in A\}f_X(x)dx = \int_{x \in A} f_X(x)dx = P(x \in A) E[g(X)]=∫−∞+∞1{x∈A}fX(x)dx=∫x∈AfX(x)dx=P(x∈A)
1
,否则为 0
。一些随机变量的概率密度函数和累积分布函数的形状如图 2
所示:
下表总结了这些分布的一些特性:
到目前为止,我们已经考虑了单个随机变量。然而,在许多情况下,在随机实验中,我们可能有不止一个感兴趣的量。例如,在一个我们掷硬币 10
次的实验中,我们可能既关心 X ( ω ) X(\omega) X(ω) 出现的正面数量,也关心 Y ( ω ) Y(\omega) Y(ω) 连续最长出现正面的长度。在本节中,我们考虑两个随机变量的设置。
假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 F X ( x ) F_X(x) FX(x) 和 F Y ( y ) F_Y(y) FY(y) 。但是如果我们想知道在随机实验的结果中, X X X 和 Y Y Y 同时假设的值,我们需要一个更复杂的结构,称为 X X X 和 Y Y Y 的联合累积分布函数,定义如下:
F X Y ( x , y ) = P ( X ≤ x , Y ≤ y ) F_{XY}(x, y) = P(X \leq x, Y \leq y) FXY(x,y)=P(X≤x,Y≤y)
可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 X X X 和 Y Y Y 的事件的概率。
联合CDF: F X Y ( x , y ) F_{XY}(x, y) FXY(x,y) 和每个变量的联合分布函数 F X ( x ) F_X(x) FX(x) 和 F Y ( y ) F_Y(y) FY(y) 分别由下式关联:
F X ( x ) = lim y → ∞ F X Y ( x , y ) d y F_X(x) = \lim_{y \to \infty} F_{XY}(x, y)dy FX(x)=y→∞limFXY(x,y)dy
F Y ( y ) = lim x → ∞ F X Y ( x , y ) d x F_Y(y) = \lim_{x \to \infty} F_{XY}(x, y)dx FY(y)=x→∞limFXY(x,y)dx
这里我们称 F X ( x ) F_X(x) FX(x) 和 F Y ( y ) F_Y(y) FY(y) 为 F X Y ( x , y ) F_{XY}(x, y) FXY(x,y) 的边缘累积概率分布函数。
性质:
如果 X X X 和 Y Y Y 是两个离散随机变量,那么联合概率质量函数 p X Y : R × R → [ 0 , 1 ] p_{XY} \colon \mathbb{R} \times \mathbb{R} \rightarrow [0, 1] pXY:R×R→[0,1] 由下式定义:
p X Y ( x , y ) = P ( X = x , Y = y ) p_{XY}(x, y) = P(X = x, Y = y) pXY(x,y)=P(X=x,Y=y)
这里, 对于任意 x x x, y y y, 0 ≤ p X Y ( x , y ) ≤ 1 0 \leq p_{XY}(x, y) \leq 1 0≤pXY(x,y)≤1, 并且 ∑ x ∈ V a l ( X ) ∑ y ∈ V a l ( Y ) p X Y ( x , y ) = 1 \sum_{x \in Val(X)} \sum_{y \in Val(Y)} p_{XY}(x, y) = 1 ∑x∈Val(X)∑y∈Val(Y)pXY(x,y)=1 。
两个变量上的联合 PMF分别与每个变量的概率质量函数有什么关系?事实上:
p X ( x ) = ∑ y p X Y ( x , y ) p_X(x) = \sum_{y} p_{XY}(x, y) pX(x)=y∑pXY(x,y)
对于 p Y ( y ) p_Y(y) pY(y) 类似。在这种情况下,我们称 p X ( x ) p_X(x) pX(x) 为 X X X 的边缘概率质量函数。在统计学中,将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。
假设 X X X 和 Y Y Y 是两个连续的随机变量,具有联合分布函数 F X Y F_{XY} FXY 。在 F X Y ( x , y ) F_{XY}(x, y) FXY(x,y) 在 x x x 和 y y y 中处处可微的情况下,我们可以定义联合概率密度函数:
f X Y ( x , y ) = ∂ 2 F X Y ( x , y ) ∂ x ∂ y f_{XY}(x, y) = \frac{\partial^2 F_{XY}(x, y)}{\partial{x} \partial{y}} fXY(x,y)=∂x∂y∂2FXY(x,y)
如同在一维情况下, F X Y ( x , y ) ≠ P ( X = x , Y = y ) F_{XY}(x, y) \neq P(X = x, Y = y) FXY(x,y)=P(X=x,Y=y) ,而是:
∫ y ∈ A ∫ x ∈ A f X Y ( x , y ) d x d y = P ( ( X , Y ) ∈ A ) \int_{y \in A} \int_{x \in A} f_{XY}(x, y)dxdy = P((X, Y) \in A) ∫y∈A∫x∈AfXY(x,y)dxdy=P((X,Y)∈A)
请注意,概率密度函数 f X Y ( x , y ) f_{XY}(x, y) fXY(x,y) 的值总是非负的,但它们可能大于 1
。尽管如此,可以肯定的是 ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X Y ( x , y ) d x d y = 1 \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f_{XY}(x, y)dxdy = 1 ∫−∞+∞∫−∞+∞fXY(x,y)dxdy=1 。
与离散情况相似,我们定义:
f X ( x ) = ∫ − ∞ + ∞ f X Y ( x , y ) d y f_X(x) = \int_{-\infty}^{+\infty} f_{XY}(x, y)dy fX(x)=∫−∞+∞fXY(x,y)dy
作为 X X X 的边缘概率密度函数(或边缘密度),对于 f Y ( y ) f_Y(y) fY(y) 也类似。
条件概率分布试图回答这样一个问题:当我们知道 X X X 必须取某个值 x x x 时, Y Y Y 上的概率分布是什么?在离散情况下,给定 Y Y Y 的条件概率质量函数是简单的:
p Y ∣ X ( y ∣ x ) = p X Y ( x , y ) p X ( x ) p_{Y|X}(y|x) = \frac{p_{XY}(x, y)}{p_X(x)} pY∣X(y∣x)=pX(x)pXY(x,y)
假设分母不等于 0
。
在连续的情况下,在技术上要复杂一点,因为连续随机变量的概率等于零。忽略这一技术点,我们通过类比离散情况,简单地定义给定 X = x X = x X=x 的条件概率密度为:
f Y ∣ X ( y ∣ x ) = f X Y ( x , y ) f X ( x ) f_{Y|X}(y|x) = \frac{f_{XY}(x, y)}{f_X(x)} fY∣X(y∣x)=fX(x)fXY(x,y)
假设分母不等于 0
。
当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理。
对于离散随机变量 X X X 和 Y Y Y :
P Y ∣ X ( y ∣ x ) = P X Y ( x , y ) P X ( x ) = P X ∣ Y ( x ∣ y ) P Y ( y ) ∑ y ′ ∈ Y P X ∣ Y ( x ∣ y ′ ) P Y ( y ′ ) d y ′ P_{Y|X}(y|x) = \frac{P_{XY}(x, y)}{P_X(x)} = \frac{P_{X|Y}(x|y)P_Y(y)}{\sum_{y^{'} \in Y} P_{X|Y}(x|y^{'})P_Y(y^{'})dy^{'}} PY∣X(y∣x)=PX(x)PXY(x,y)=∑y′∈YPX∣Y(x∣y′)PY(y′)dy′PX∣Y(x∣y)PY(y)
对于连续随机变量和 X X X 和 Y Y Y :
f Y ∣ X ( y ∣ x ) = f X Y ( x , y ) f X ( x ) = f X ∣ Y ( x ∣ y ) f Y ( y ) ∫ − ∞ + ∞ f X ∣ Y ( x ∣ y ′ ) f Y ( y ′ ) d y ′ f_{Y|X}(y|x) = \frac{f_{XY}(x, y)}{f_X(x)} = \frac{f_{X|Y}(x|y)f_Y(y)}{\int_{-\infty}^{+\infty} f_{X|Y}(x|y^{'})f_Y(y^{'})dy^{'}} fY∣X(y∣x)=fX(x)fXY(x,y)=∫−∞+∞fX∣Y(x∣y′)fY(y′)dy′fX∣Y(x∣y)fY(y)
如果对于 X X X 和 Y Y Y 的所有值, F X Y ( x , y ) = F X ( x ) F Y ( y ) F_{XY}(x, y) = F_X(x)F_Y(y) FXY(x,y)=FX(x)FY(y) ,则两个随机变量 X X X 和 Y Y Y 是独立的。等价地:
非正式地说,如果“知道”一个变量的值永远不会对另一个变量的条件概率分布有任何影响,那么两个随机变量和是独立的,也就是说,你只要知道 f ( x ) f(x) f(x) 和 f ( y ) f(y) f(y) 就知道关于这对变量 X X X 和 Y Y Y 的所有信息。以下引理将这一观察形式化:
引理:
如果 X X X 和 Y Y Y 是独立的,那么对于任何 A , B ⊆ R A, B \subseteq \mathbb{R} A,B⊆R ,我们有:
P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X \in A, Y \in B) = P(X \in A)P(Y \in B) P(X∈A,Y∈B)=P(X∈A)P(Y∈B)
利用上述引理,我们可以证明如果 X X X 与 Y Y Y 无关,那么 X X X 的任何函数都与 Y Y Y 的任何函数无关。
假设我们有两个离散的随机变量 X X X 和 Y Y Y ,并且 g : R 2 → R g \colon \mathbf{R}^2 \rightarrow \mathbf{R} g:R2→R 是这两个随机变量的函数。那么 g g g 的期望值以如下方式定义:
E [ g ( X , Y ) ] = ∑ x ∈ V a l ( X ) ∑ y ∈ V a l ( Y ) g ( x , y ) p X Y ( x , y ) E[g(X, Y)] = \sum_{x \in Val(X)} \sum_{y \in Val(Y)} g(x, y)p_{XY}(x, y) E[g(X,Y)]=x∈Val(X)∑y∈Val(Y)∑g(x,y)pXY(x,y)
对于连续随机变量 X X X 和 Y Y Y ,类似的表达式是:
E [ g ( X , Y ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f X Y ( x , y ) d x d y E[g(X, Y)] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y)f_{XY}(x, y)dxdy E[g(X,Y)]=∫−∞+∞∫−∞+∞g(x,y)fXY(x,y)dxdy
我们可以用期望的概念来研究两个随机变量之间的关系。特别地,两个随机变量的协方差定义为:
C o v [ X , Y ] = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] Cov[X, Y] = E[(X - E[X])(Y - E[Y])] Cov[X,Y]=E[(X−E[X])(Y−E[Y])]
使用类似于方差的推导,我们可以将它重写为:
C o v [ X , Y ] = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] Cov[X, Y] = E[(X - E[X])(Y - E[Y])] Cov[X,Y]=E[(X−E[X])(Y−E[Y])]
= E [ X Y − X E [ Y ] − E [ X ] Y + E [ X ] E [ Y ] ] = E[XY - XE[Y] - E[X]Y + E[X]E[Y]] =E[XY−XE[Y]−E[X]Y+E[X]E[Y]]
= E [ X Y ] − E [ X ] E [ Y ] − E [ X ] E [ Y ] + E [ X ] E [ Y ] = E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] =E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]
= E [ X Y ] − E [ X ] E [ Y ] = E[XY] - E[X]E[Y] =E[XY]−E[X]E[Y]
在这里,说明两种协方差形式相等的关键步骤是第三个等号,在这里我们使用了这样一个事实,即 E [ X ] E[X] E[X] 和 E [ Y ] E[Y] E[Y] 实际上是常数,可以被提出来。当 C o v [ X , Y ] = 0 Cov[X, Y] = 0 Cov[X,Y]=0 时,我们说 X X X 和 Y Y Y 不相关。
性质:
上一节介绍的概念和想法可以推广到两个以上的随机变量。特别是,假设我们有个 n n n 连续随机变量 X 1 ( ω ) , X 2 ( ω ) , X 3 ( ω ) , . . . , X n ( ω ) X_1(\omega), X_2(\omega), X_3(\omega), ..., X_n(\omega) X1(ω),X2(ω),X3(ω),...,Xn(ω) 。在本节中,为了表示简单,我们只关注连续的情况,对离散随机变量的推广工作类似。
我们可以定义 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn 的联合累积分布函数、联合概率密度函数,以及给定 X 2 , X 3 , . . . , X n X_2, X_3, ..., X_n X2,X3,...,Xn 时 X 1 X_1 X1 的边缘概率密度函数为:
F X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , . . . , X n ≤ x n ) F_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n) = P(X_1 \leq x_1, X_2 \leq x_2, ..., X_n \leq x_n) FX1,X2,...,Xn(x1,x2,...,xn)=P(X1≤x1,X2≤x2,...,Xn≤xn)
f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) = ∂ n F X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) ∂ x 1 ∂ x 2 . . . ∂ x n f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n) = \frac{\partial^n F_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)}{\partial{x_1} \partial{x_2} ... \partial{x_n}} fX1,X2,...,Xn(x1,x2,...,xn)=∂x1∂x2...∂xn∂nFX1,X2,...,Xn(x1,x2,...,xn)
f X 1 ( x 1 ) = ∫ − ∞ + ∞ . . . ∫ − ∞ + ∞ f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) d x 2 d x 3 . . . d x n f_{X_1}(x_1) = \int_{-\infty}^{+\infty} ... \int_{-\infty}^{+\infty} f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_2dx_3...dx_n fX1(x1)=∫−∞+∞...∫−∞+∞fX1,X2,...,Xn(x1,x2,...,xn)dx2dx3...dxn
f X 1 ∣ X 2 , X 3 , . . . , X n ( x 1 , x 2 , . . . , x n ) = f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) f X 2 , X 3 , . . . , X n ( x 2 , x 3 , . . . , x n ) f_{X_1 | X_2, X_3, ..., X_n}(x_1, x_2, ..., x_n) = \frac{f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)}{f_{X_2, X_3, ..., X_n}(x_2, x_3, ..., x_n)} fX1∣X2,X3,...,Xn(x1,x2,...,xn)=fX2,X3,...,Xn(x2,x3,...,xn)fX1,X2,...,Xn(x1,x2,...,xn)
为了计算事件 A ⊆ R A \subseteq \mathbb{R} A⊆R 的概率,我们有:
P ( ( x 1 , x 2 , . . . , x n ) ∈ A ) = ∫ ( x 1 , x 2 , . . . , x n ) ∈ A f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) d x 1 d x 2 . . . d x n P((x_1, x_2, ..., x_n) \in A) = \int_{(x_1, x_2, ..., x_n) \in A} f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_1dx_2...dx_n P((x1,x2,...,xn)∈A)=∫(x1,x2,...,xn)∈AfX1,X2,...,Xn(x1,x2,...,xn)dx1dx2...dxn
链式法则:
从多个随机变量的条件概率的定义中,可以看出:
f ( x 1 , x 2 , . . . , x n ) = f ( x n ∣ x 1 , x 2 , . . . , x n − 1 ) f ( x 1 , x 2 , . . . , x n − 1 ) f(x_1, x_2, ..., x_n) = f(x_n | x_1, x_2, ..., x_{n-1}) f(x_1, x_2, ..., x_{n-1}) f(x1,x2,...,xn)=f(xn∣x1,x2,...,xn−1)f(x1,x2,...,xn−1)
= f ( x n ∣ x 1 , x 2 , . . . , x n − 1 ) f ( x n − 1 ∣ x 1 , x 2 , . . . , x n − 2 ) f ( x 1 , x 2 , . . . , x n − 2 ) = f(x_n | x_1, x_2, ..., x_{n-1}) f(x_{n-1} | x_1, x_2, ..., x_{n-2}) f(x_1, x_2, ..., x_{n-2}) =f(xn∣x1,x2,...,xn−1)f(xn−1∣x1,x2,...,xn−2)f(x1,x2,...,xn−2)
= . . . = f ( x 1 ) ∏ i = 2 n f ( x i ∣ x 1 , x 2 , . . . , x i − 1 ) = ... = f(x_1) \prod_{i = 2}^{n} f(x_i | x_1, x_2, ..., x_{i - 1}) =...=f(x1)i=2∏nf(xi∣x1,x2,...,xi−1)
独立性:对于多个事件, A 1 , A 2 , . . . , A k A_1, A_2, ..., A_k A1,A2,...,Ak ,我们说 A 1 , A 2 , . . . , A k A_1, A_2, ..., A_k A1,A2,...,Ak 是相互独立的,当对于任何子集 S ⊆ { 1 , 2 , . . . , k } S \subseteq \{1, 2, ..., k\} S⊆{1,2,...,k} ,我们有:
P ( ∩ i ∈ S A i ) = ∏ i ∈ S P ( A i ) P(\cap_{i \in S} A_i) = \prod_{i \in S} P(A_i) P(∩i∈SAi)=i∈S∏P(Ai)
同样,我们说随机变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn 是独立的,如果:
f ( x 1 , x 2 , . . . , x n ) = f ( x 1 ) f ( x 2 ) . . . f ( x n ) f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)...f(x_n) f(x1,x2,...,xn)=f(x1)f(x2)...f(xn)
这里,相互独立性的定义只是从两个随机变量的独立性到多个随机变量的自然推广。
独立随机变量经常出现在机器学习算法中,其中我们假设属于训练集的训练样本代表来自某个未知概率分布的独立样本。为了明确独立性的重要性,考虑一个“坏的”训练集,我们首先从某个未知分布中抽取一个训练样本 ( x ( 1 ) , y ( 1 ) ) (x^{(1)}, y^{(1)}) (x(1),y(1)) ,然后将完全相同的训练样本的 m − 1 m - 1 m−1 个副本添加到训练集中。在这种情况下,我们有:
P ( ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , . . . , ( x ( m ) , y ( m ) ) ) ≠ ∏ i = 1 m P ( x ( i ) , y ( i ) ) P\bigl((x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ..., (x^{(m)}, y^{(m)})\bigr) \neq \prod_{i = 1}^{m} P(x^{(i)}, y^{(i)}) P((x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)))=i=1∏mP(x(i),y(i))
尽管训练集的大小为 m m m ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集的“有效大小”的效果。
假设我们有 n
个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向量中是很方便的…我们称结果向量为随机向量(更正式地说,随机向量是从 Ω Ω Ω 到 R n \mathbb{R}^n Rn 的映射)。应该清楚的是,随机向量只是处理 n
个随机变量的一种替代符号,因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。
期望:
考虑 g : R n → R g \colon \mathbb{R}^n \rightarrow \mathbb{R} g:Rn→R 中的任意函数,这个函数的期望值被定义为:
E [ g ( X ) ] = ∫ R n g ( x 1 , x 2 , . . . , x n ) f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) d x 1 d x 2 . . . d x n E[g(X)] = \int_{\mathbb{R}^n} g(x_1, x_2, ..., x_n) f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n)dx_{1}dx_{2}...dx_{n} E[g(X)]=∫Rng(x1,x2,...,xn)fX1,X2,...,Xn(x1,x2,...,xn)dx1dx2...dxn
其中, ∫ R n \int_{\mathbb{R}^n} ∫Rn 是从 − ∞ -\infty −∞ 到 + ∞ +\infty +∞ 的 n
个连续积分。如果 g g g 是从 R n \mathbb{R}^n Rn 到 R m \mathbb{R}^m Rm 的函数,那么 g g g 的期望值是输出向量的元素期望值,即,如果 g g g 是:
g ( x ) = [ g 1 ( x ) g 2 ( x ) . . . g m ( x ) ] g(x) = \begin{bmatrix} g_1(x)\\ g_2(x)\\ .\\ .\\ .\\ g_m(x) \end{bmatrix} g(x)=⎣⎢⎢⎢⎢⎢⎢⎡g1(x)g2(x)...gm(x)⎦⎥⎥⎥⎥⎥⎥⎤
那么:
E [ g ( x ) ] = [ E [ g 1 ( x ) ] E [ g 2 ( x ) ] . . . E [ g m ( x ) ] ] E[g(x)] = \begin{bmatrix} E[g_1(x)]\\ E[g_2(x)]\\ .\\ .\\ .\\ E[g_m(x)] \end{bmatrix} E[g(x)]=⎣⎢⎢⎢⎢⎢⎢⎡E[g1(x)]E[g2(x)]...E[gm(x)]⎦⎥⎥⎥⎥⎥⎥⎤
协方差矩阵: 对于给定的随机向量 X : Ω → R n X \colon Ω \rightarrow \mathbb{R}^n X:Ω→Rn ,其协方差矩阵 Σ \Sigma Σ 是 n × n n \times n n×n 方阵,其输入由 Σ i j = C o v [ X i , X j ] \Sigma_{ij} = Cov[X_i, X_j] Σij=Cov[Xi,Xj] 给出。从协方差的定义来看,我们有:
Σ = [ C o v [ X 1 , X 1 ] ⋯ C o v [ X 1 , X n ] ⋮ ⋱ ⋮ C o v [ X n , X 1 ] ⋯ C o v [ X n , X n ] ] = [ E [ X 1 2 ] − E [ X 1 ] E [ X 1 ] ⋯ E [ X 1 X n ] − E [ X 1 ] E [ X n ] ⋮ ⋱ ⋮ E [ X n X 1 ] − E [ X n ] E [ X 1 ] ⋯ E [ X n 2 ] − E [ X n ] E [ X n ] ] \Sigma = \begin{bmatrix} Cov[X_1, X_1] & \cdots & Cov[X_1, X_n]\\ \vdots & \ddots & \vdots \\ Cov[X_n, X_1] & \cdots & Cov[X_n, X_n] \end{bmatrix} = \begin{bmatrix} E[X_{1}^2] - E[X_1]E[X_1] & \cdots & E[X_{1}X_{n}] - E[X_1]E[X_n]\\ \vdots & \ddots & \vdots \\ E[X_{n}X_{1}] - E[X_n]E[X_1] & \cdots & E[X_{n}^2] - E[X_n]E[X_n] \end{bmatrix} Σ=⎣⎢⎡Cov[X1,X1]⋮Cov[Xn,X1]⋯⋱⋯Cov[X1,Xn]⋮Cov[Xn,Xn]⎦⎥⎤=⎣⎢⎡E[X12]−E[X1]E[X1]⋮E[XnX1]−E[Xn]E[X1]⋯⋱⋯E[X1Xn]−E[X1]E[Xn]⋮E[Xn2]−E[Xn]E[Xn]⎦⎥⎤
= [ E [ X 1 2 ] ⋯ E [ X 1 X n ] ⋮ ⋱ ⋮ E [ X n X 1 ] ⋯ E [ X n 2 ] ] − [ E [ X 1 ] E [ X 1 ] ⋯ E [ X 1 ] E [ X n ] ⋮ ⋱ ⋮ E [ X n ] E [ X 1 ] ⋯ E [ X n ] E [ X n ] ] = \begin{bmatrix} E[X_{1}^2] & \cdots & E[X_{1}X_{n}]\\ \vdots & \ddots & \vdots \\ E[X_{n}X_{1}] & \cdots & E[X_{n}^2] \end{bmatrix} - \begin{bmatrix} E[X_1]E[X_1] & \cdots & E[X_1]E[X_n]\\ \vdots & \ddots & \vdots \\ E[X_n]E[X_1] & \cdots & E[X_n]E[X_n] \end{bmatrix} =⎣⎢⎡E[X12]⋮E[XnX1]⋯⋱⋯E[X1Xn]⋮E[Xn2]⎦⎥⎤−⎣⎢⎡E[X1]E[X1]⋮E[Xn]E[X1]⋯⋱⋯E[X1]E[Xn]⋮E[Xn]E[Xn]⎦⎥⎤
= E [ X X T ] − E [ X ] E [ X T ] = ⋯ = E [ ( X − E [ X ] ) ( X − E [ X ] ) T ] = E[XX^T] - E[X]E[X^T] = \cdots = E[(X - E[X])(X - E[X])^T] =E[XXT]−E[X]E[XT]=⋯=E[(X−E[X])(X−E[X])T]
其中矩阵期望以明显的方式定义。协方差矩阵有许多有用的属性:
随机向量上概率分布的一个特别重要的例子叫做多元高斯或多元正态分布。随机向量 X ∈ R n X \in \mathbb{R}^n X∈Rn 被认为具有多元正态(或高斯)分布,当其具有均值 μ ∈ R n \mu \in \mathbb{R}^n μ∈Rn 和协方差矩阵 Σ ∈ S + + n \Sigma \in \mathbb{S}_{++}^n Σ∈S++n (其中 S + + n \mathbb{S}_{++}^n S++n 指对称正定 n × n n \times n n×n 矩阵的空间)时,有:
f X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ; μ , Σ ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f_{X_1, X_2, ..., X_n}(x_1, x_2, ..., x_n; \mu , \Sigma) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} exp^{\bigl(-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)\bigr)} fX1,X2,...,Xn(x1,x2,...,xn;μ,Σ)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
我们把它写成 X ∼ N ( μ , Σ ) X \sim \mathcal{N}(\mu , \Sigma) X∼N(μ,Σ) 。请注意,在 n = 1 n = 1 n=1 的情况下,它将降维成普通正态分布,其中均值参数为 μ 1 \mu_1 μ1 ,方差为 Σ 1 \Sigma_1 Σ1 。
一般来说,高斯随机变量在机器学习和统计中非常有用,主要有两个原因:
一本关于 CS229
所需概率水平的好教科书是谢尔顿·罗斯
的《概率第一课》(A First Course on Probability by Sheldon Ross
)。
① 原始文件下载:http://cs229.stanford.edu/summer2019/cs229-prob.pdf
② 石振宇:https://github.com/szy2120109
③ 黄海广:https://github.com/fengdu78
④ github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math