《深度学习》同步学习笔记 第三章——概率与信息论

《深度学习》同步学习笔记 第三章——概率与信息论

  • 3.1 为什么要使用概率
  • 3.2 随机变量
  • 3.3 概率分布
    • 3.3.1 离散型变量和概率质量函数
    • 3.3.2 连续型变量和概率密度函数
  • 3.4 边缘概率
  • 3.5 条件概率
  • 3.6 条件概率的链式法则
  • 3.7 独立性和条件独立性
  • 3.8 期望、方差、和协方差
  • 3.9 常用概率分布
    • 3.9.1 Bernoulli 分布
    • 3.9.2 Multinoulli(范畴) 分布
    • 3.9.3 高斯分布(正态分布)
    • 3.9.4 指数分布和 Laplace 分布
    • 3.9.5 Dirac 分布和经验分布
    • 3.9.6 分布的混合
  • 3.10 常用函数的有用性质
  • 3.11 贝叶斯规则
  • 3.12 连续型变量的技术细节
  • 3.13 信息论
  • 3.14 结构化概率模型

3.1 为什么要使用概率

1. 被建模系统内在的随机性
2. 不完全观测
3. 不完全建模
频率派概率:概率直接与事件发生的频率相联系
贝叶斯概率:概率涉及到确定性水平

3.2 随机变量

3.3 概率分布

用于描述随机变量或一簇随机变量在每一
个可能取到的状态的可能性大小。

3.3.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。
P为随机变量x的PMF的条件:
《深度学习》同步学习笔记 第三章——概率与信息论_第1张图片

3.3.2 连续型变量和概率密度函数

连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示
P为概率密度函数的条件:
《深度学习》同步学习笔记 第三章——概率与信息论_第2张图片
概率密度函数 p ( x ) p(x) p(x)并没有直接对特定的状态给出概率,而是给出落在面积为 δ x δx δx 的无限小的区域内的概率为 p ( x ) δ x p(x)δx p(x)δx

3.4 边缘概率

知道了一组变量的联合概率分布,想要了解其中一个子集的概率分布
对于离散型:
在这里插入图片描述
对于连续型:
在这里插入图片描述

3.5 条件概率

《深度学习》同步学习笔记 第三章——概率与信息论_第3张图片
不要和计算当采用某动作后悔发生什么相混淆(这是因果模型的干预查询)

3.6 条件概率的链式法则

《深度学习》同步学习笔记 第三章——概率与信息论_第4张图片

3.7 独立性和条件独立性

相互独立:
在这里插入图片描述
条件独立:
《深度学习》同步学习笔记 第三章——概率与信息论_第5张图片

3.8 期望、方差、和协方差

离散型:
在这里插入图片描述
连续型:
在这里插入图片描述

方差:(平方根为标准差)
在这里插入图片描述

协方差:给出了两个变量线性相关性的强度以及这些变量的尺度
在这里插入图片描述
绝对值很大:变化很大,离均值较远
协方差为正:两个变量倾向于较大
为负数:一个大一个小

协方差为0说明没有线性关系,不一定互相独立(独立性要求更强)

协方差矩阵:在这里插入图片描述
对角元为方差在这里插入图片描述

3.9 常用概率分布

3.9.1 Bernoulli 分布

单个二值随机变量的分布

《深度学习》同步学习笔记 第三章——概率与信息论_第6张图片

3.9.2 Multinoulli(范畴) 分布

用向量 P ∈ [ 0 , 1 ] k − 1 \mathit{P}\in \left [ 0,1 \right ]^{k-1} P[0,1]k1参数化,每一个向量 P i P_i Pi表示第 i i i个状态的概率
最后的k状态由 1 − 1 T P 1-1^{T}\mathit{P} 11TP给出
必须限制 1 T P ≤ 1 1^{T}\mathit{P} \leq 1 1TP1

3.9.3 高斯分布(正态分布)

《深度学习》同步学习笔记 第三章——概率与信息论_第7张图片
概率密度函数图象:
µ = 0 , σ = 1 µ = 0, σ = 1 µ=0,σ=1(标准正态分布)
《深度学习》同步学习笔记 第三章——概率与信息论_第8张图片
µ µ µ给出中心峰值坐标 σ 2 σ^{2} σ2为方差
需要经常对不同参数下的概率密度函数求值时
用参数 β > 0 \beta >0 β>0 来控制分布的精度
在这里插入图片描述
正态分布是默认的比较好的选择:

  1. 建模的很多分布的真实情况比较接近正态分布
  2. 是对模型加入的先验知识量最少的分布

3.9.4 指数分布和 Laplace 分布

指数分布:在x=0处取得边界点
在这里插入图片描述
Laplace分布: 在 μ \mu μ 处设置峰值

3.9.5 Dirac 分布和经验分布

概率分布中的所有质量集中在一个点上
在这里插入图片描述
除了0以外所有点的值为0,但积分为1
经常在经验分布出现:
《深度学习》同步学习笔记 第三章——概率与信息论_第9张图片

3.9.6 分布的混合

混合分布:各个组件由Multinoulli分布采样
在这里插入图片描述
高斯混合模型:组件是高斯分布,指明了每个组件的先验概率,可以逼近任何平滑的概率密度

3.10 常用函数的有用性质

回归函数

softplus 函数
在这里插入图片描述
《深度学习》同步学习笔记 第三章——概率与信息论_第10张图片

3.11 贝叶斯规则

在这里插入图片描述
在这里插入图片描述

3.12 连续型变量的技术细节

1.注意 零测度
2. 在这里插入图片描述

3.13 信息论

量化单个信息输出
自信息
I ( x ) = − l o g P ( x ) I(x)= - logP(x) Ix=logPxe为底数 单位为(nats)一奈特是以 1 e \frac{1}{e} e1 的概率观测到一个事件时获得的信息量。
2为底数单位为比特或香农

对整个概率分布中的不确定性总量进行量化
香农熵在这里插入图片描述
对同一随机变量两个概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Qx的差异的衡量:
KL散度(非负,当且仅当P和Q在离散情况下相同,或连续情况下几乎相同时为0)
在这里插入图片描述
交叉熵
《深度学习》同步学习笔记 第三章——概率与信息论_第11张图片

3.14 结构化概率模型

将概率分布分解成多因子乘机形式以减少参数。
用图来表示这种分解即为结构化概率模型
有向图:在这里插入图片描述
无向图:分解表示成一组函数
随机变量的联合概率与所有这些因子的乘积成比例
需要除以一个归一化常数 Z 来得到归一化的概率分布
概率分布为
在这里插入图片描述

你可能感兴趣的:(学习笔记,人工智能,深度学习,学习笔记,人工智能,深度学习,概率与信息论)