数学基础 | (3) cs229概率论基础

目录

1. 概率的基本要素

2. 随机变量

3. 两个随机变量

4. 多个随机变量


1. 概率的基本要素

为了定义集合上的概率,我们需要一些基本元素:

样本空间\Omega:随机实验的所有结果的集合(所有样本点的集合)。在这里,每个结果(样本点)w \in \Omega可以被认为是实验结束时现实世界状态的完整描述。

事件集(事件空间) F:事件A \in F,事件A是\Omega的子集,即A \subseteq \Omega 是一个实验可能结果的集合(包含一些样本点)。

F需要满足以下三个条件:

数学基础 | (3) cs229概率论基础_第1张图片

概率(度量)P:函数P是一个F \rightarrow R(事件集到实数集的映射),满足:

数学基础 | (3) cs229概率论基础_第2张图片

以上三条性质被称为概率公理

  • 例子

数学基础 | (3) cs229概率论基础_第3张图片

  • 性质

数学基础 | (3) cs229概率论基础_第4张图片

  • 条件概率与独立性

数学基础 | (3) cs229概率论基础_第5张图片

 

2. 随机变量

考虑一个实验,我们翻转 10 枚硬币,我们想知道正面硬币的数量。这里,样本空间\Omega的元素是长度为 10 的序列。例如,我们可能有:

然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10 次投掷中出现的正面数。在某些技术条件下,这些函数被称为随机变量

更正式地说,随机变量X是一个\Omega\rightarrow R(样本空间/样本集到实数集的映射)的函数。通常,我们将使用大写字母X(\omega)或更简单的X(其中隐含对随机结果\omega的依赖)来表示随机变量。我们将使用小写字母x来表示随机变量的值。

  • 例子

在我们上面的实验中,假设X(\omega)是在投掷序列\omega中出现的正面的数量。假设投掷的硬币只有 10 枚,那么X(\omega)只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量X相关联的集合取某个特定值k的概率为:

假设X(\omega)是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下,X(\omega)具有无限多的可能值,因此它被称为连续随机变量。我们将X在两个实常数a和b之间取值的概率(其中a

  • 累积分布函数(分布函数)

为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数(CDFPDFPMF),接下来我们将依次描述这些类型的函数。

性质:

  • 概率质量函数(离散型随机变量的分布律)

当随机变量X取有限种可能值(即,X是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数p_X:\Omega\rightarrow R ,这样:

在离散随机变量的情况下,我们使用符号Val(X)表示随机变量X可能假设的一组可能值。例如,如果X(\omega)是一个随机变量,表示十次投掷硬币中的正面数,那么:

性质:

  • 概率密度函数(连续型随机变量)

对于一些连续随机变量,累积分布函数F_X(x)处处可微。在这些情况下,我们将概率密度函数(PDF)定义为累积分布函数的导数,即:

请注意,连续随机变量的概率密度函数可能并不总是存在的(即,如果F_X(x)不是处处可微)。

根据微分的性质,对于很小的\Delta x:

CDFPDF(当它们存在时!)都可用于计算不同事件的概率。但是应该强调的是,任意给定点的概率密度函数(PDF)的值不是该事件的概率,即f_X(x) \neq P\{X=x\}。例如,f_X(x)可以取大于 1 的值(但是f_X(x)在R的任何子集上的积分最多为 1)。

性质:

  • 期望

假设X是一个离散随机变量,其PMFp_X(x) ,g:R\rightarrow R是一个任意函数。在这种情况下,g(X)可以被视为随机变量,我们将g(X)的期望值定义为:

如果X是一个连续的随机变量,其PDF 为f_X(x),那么g(X)的期望值被定义为:

数学基础 | (3) cs229概率论基础_第6张图片

直觉上,g(X)的期望值可以被认为是g(x)对于不同的x值可以取的值的“加权平均值”,其中权重由p_X(x)f_X(x)给出。作为上述情况的特例,请注意,随机变量本身的期望值,是通过令g(x) = x得到的,这也被称为随机变量的平均值。

性质:

数学基础 | (3) cs229概率论基础_第7张图片

  • 方差

随机变量X的方差是随机变量X的分布围绕其平均值集中程度的度量。形式上,随机变量X的方差定义为:

使用上一节中的性质,我们可以导出方差的替代表达式:

数学基础 | (3) cs229概率论基础_第8张图片

其中第二个等式来自期望的线性,以及E(X)相对于外层期望实际上是常数的事实。

性质:

例子:

  • 常见的随机变量

离散型随机变量:

连续型随机变量:

数学基础 | (3) cs229概率论基础_第9张图片

数学基础 | (3) cs229概率论基础_第10张图片

 

3. 两个随机变量

到目前为止,我们已经考虑了单个随机变量。然而,在许多情况下,在随机实验中,我们可能有不止一个感兴趣的量。例如,在一个我们掷硬币十次的实验中,我们可能既关心X(\omega)=出现的正面数量,也关心Y(\omega)=连续最长出现正面的长度。在本节中,我们考虑两个随机变量的设置。

  • 联合分布和边缘分布

数学基础 | (3) cs229概率论基础_第11张图片

性质:

数学基础 | (3) cs229概率论基础_第12张图片

  • 联合概率和边缘概率质量函数(联合分布律和边缘分布律)

  • 联合概率和边缘概率密度函数

  •  条件概率分布

数学基础 | (3) cs229概率论基础_第13张图片

  • 贝叶斯定理

当试图推导给定一个变量求另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理

数学基础 | (3) cs229概率论基础_第14张图片

  • 独立性

数学基础 | (3) cs229概率论基础_第15张图片

数学基础 | (3) cs229概率论基础_第16张图片

  • 期望和协方差

数学基础 | (3) cs229概率论基础_第17张图片

性质:

4. 多个随机变量

上一节介绍的概念和想法可以推广到两个以上的随机变量。特别是,假设我们有n个连续随机变量,X_1(\omega),X_2(\omega),...,X_n(\omega)。在本节中,为了表示简单,我们只关注连续的情况,对离散随机变量的推广工作类似。

  • 基本性质

数学基础 | (3) cs229概率论基础_第18张图片

  • 随机向量

假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向量中是很方便的...我们称结果向量为随机向量(更正式地说,随机向量是从\Omega\rightarrow R^n的映射)。应该清楚的是,随机向量只是处理n个随机变量的一种替代符号,因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。

期望:

协方差矩阵:

 

数学基础 | (3) cs229概率论基础_第19张图片

数学基础 | (3) cs229概率论基础_第20张图片

 

  • 多元高斯分布

数学基础 | (3) cs229概率论基础_第21张图片

 

 

 

你可能感兴趣的:(数学基础)