深度学习笔记(三)第三章 概率论和信息论

在AI领域,概率论告诉我们什么样的算法是合理的。可以用概率、统计理论分析AI系统的行为。
为什么要用概率论?
1. 目标固有的随机性。
2. 不完全的观测。
3. 不完全的建模。(比如考虑计算性能)

随机数
概率分布
离散数和概率质量函数(PMF)
连续变量和概率密度函数(PDF)
边缘概率
离散数的边缘概率公式3.3
连续变量的边缘概率公式3.4
条件概率公式3.5
条件概率的链式规则
链式规则
独立
独立
条件独立
公式3.8
期望
深度学习笔记(三)第三章 概率论和信息论_第1张图片
方差
公式3.12
协方差
公式3.13
深度学习笔记(三)第三章 概率论和信息论_第2张图片
泊松分布(抛硬币)
多项式分布(掷骰子)
高斯分布(正态分布)
公式3.21
深度学习笔记(三)第三章 概率论和信息论_第3张图片
多元正态分布
公式3.23
多元正态分布,另一种写法:
公式3.24
指数分布和拉普拉斯分布
狄拉克分布和经验分布
混合分布

常用函数

logistic sigmoid 泊松分布用它
公式3.30
深度学习笔记(三)第三章 概率论和信息论_第4张图片
softplus 2001年
公式3.31
正态分布用它来生成β或者σ。
深度学习笔记(三)第三章 概率论和信息论_第5张图片

贝叶斯公式
公式3.42
公式中的P(y)可以这样得到公式说明

连续变量的技术细节
信息论
深度学习笔记(三)第三章 概率论和信息论_第6张图片
图中的函数为:(p −1)log(1−p)−p log p
越接近0,随机变量为0的几率越大,所以熵越小。约接近1,随机变量为1的几率越大,所以熵也越小。当p=0.5时,随机变量为0,1的可能性一样,所以熵最大。

KL距离,用来衡量对同一随机变量的两种概率分布方法的差异。交叉熵

结构化概率模型(图模型)
三个随机变量a,b,c a影响b,b影响c,a和c是独立随机变量。
那么可以用下面的公式来分解概率模型:
公式3.52
有向图表示的概率模型:
深度学习笔记(三)第三章 概率论和信息论_第7张图片
公式3.54

无向图表示的概率模型:
深度学习笔记(三)第三章 概率论和信息论_第8张图片
公式3.56

你可能感兴趣的:(机器学习)