机器学习中的数学——概率论与信息论笔记

概率论与信息论

1.概率论

概率论用于表示不确定性声明的数学框架,不仅提供量化不确定的方法,提供用于导出新的不确定声明的公理。

作用:①设计算法计算或估算由概率论导出的表达式;②用概率与统计从理论上分析AI系统的行为。

不确定性的三种可能来源:

①、被建模系统内在的随机性。

②、不完全观测;不能观测到所有驱动系统行为的变量时,该系统会变得随机。

③、不完全建模。使用必须舍弃某些观测信息的模型时,舍弃的信息会导致预测出现不确定性。

1.1随机变量

随机变量只是对可能状态该的描述;必须伴随一个概率分布来指定某个状态的可能性。

1.2 概率分布

概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小。

1.2.1 概率质量函数

概率质量函数将随机变量能取得的每个状态映射到随机变量取得该状态的概率。PMF可同时作用于多个随机变量,称为联合概率分布。

函数p是随机变量x的概率质量函数满足以下条件:

①、P的定义域是随机变量x所有可能状态的集合;

②、 ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x \in {\bf x}, 0 \leq P(x)\leq 1 xx,0P(x)1

③、 ∑ x ∈ x P ( x ) = 1 \sum_{x \in {\bf x}} P(x)=1 xxP(x)=1归一化性质。

1.2.2 概率密度函数

概率密度函数满足以下条件:

①、p的定义域必须是 x {\bf x} x所有可能状态的集合;

②、 ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in {\bf x}, p(x) \geq 0 xx,p(x)0,并不要求 p ( x ) ≤ 1 p(x) \leq 1 p(x)1;

③、 ∫ p ( x ) d x = 1 \int p(x) dx=1 p(x)dx=1

概率密度函数并未直接给出特定状态的的概率,而是落在面积为 δ x \delta x δx的无限小区域内的概率为 p ( x ) δ x p(x)\delta x p(x)δx

1.3 边缘概率

已知联合概率,对其中某一随机变量的所有状态求和,即可得到该分布的边缘概率分布。
∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) p ( x ) = ∫ p ( x , y ) d y \forall x \in {\bf x}, P(x={\bf x})=\sum_yP(x={\bf x},y={\bf y}) \\ p(x)=\int p(x,y) dy xx,P(x=x)=yP(x=x,y=y)p(x)=p(x,y)dy

1.4 条件概率

某个事件给定的情况下,其他事件发生的概率。
P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(y={\bf y} |x={\bf x})=\dfrac{P(x={\bf x},y={\bf y})}{P(x={\bf x})} P(y=yx=x)=P(x=x)P(x=x,y=y)

注意:避免混淆条件概率和干预查询。干预查询是指计算一个行动的后果,属于因果模型的范畴。

1.4.1 条件概率的链式法则

P ( x ( 1 ) , ⋯   , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) ∣ x ( 1 ) , ⋯   , x ( i − 1 ) ) P({\bf x}^{(1)},\cdots ,{\bf x}^{(n)})=P({\bf x}^{(1)})\prod_{i=2}^nP({\bf x}^{(i)}|{\bf x}^{(1)},\cdots ,{\bf x}^{(i-1)}) P(x(1),,x(n))=P(x(1))i=2nP(x(i)x(1),,x(i1))

1.5 独立性和条件独立性

两随机变量相互独立是指其概率分布可以表示为因子乘积的形式。

∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x \in {\bf x}, y \in {\bf y},p(x={\bf x},y={\bf y})=p(x={\bf x})p(y={\bf y}) xx,yy,p(x=x,y=y)=p(x=x)p(y=y)
条件独立是指

p ( x = x , y = y ∣ z ∈ z , ) = p ( x = x ∣ z ∈ z ) p ( y = y ∣ ∣ z ∈ z ) ∀ x ∈ x , y ∈ y , z ∈ z p(x={\bf x},y={\bf y}|z \in {\bf z},)=p(x={\bf x}|z \in {\bf z})p(y={\bf y}||z \in {\bf z}) \\ \forall x \in {\bf x}, y \in {\bf y},z \in {\bf z} p(x=x,y=yzz,)=p(x=xzz)p(y=yzz)xx,yy,zz

1.6 期望、方差和协方差

期望
E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x \mathbb E_{\bf {x} \sim P[f(x)]}=\sum_x P(x)f(x) \\ \mathbb E_{\bf {x} \sim p[f(x)]}=\int p(x)f(x)dx ExP[f(x)]=xP(x)f(x)Exp[f(x)]=p(x)f(x)dx
期望的线性性质
E x [ α f ( x ) + β g ( x ) ] = E x [ α f ( x ) ] + E x [ β g ( x ) ] \mathbb E_{\bf {x}}[\alpha f(x)+\beta g(x)]=\mathbb E_{\bf {x}}[\alpha f(x)]+\mathbb E_{\bf {x}}[\beta g(x)] Ex[αf(x)+βg(x)]=Ex[αf(x)]+Ex[βg(x)]

方差:是衡量对x依据概率分布进行采样时,随机变量x的函数会呈现多大的差异。
V a r ( x ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(x)=\mathbb E[(f(x)-\mathbb E[f(x)])^2] Var(x)=E[(f(x)E[f(x)])2]
方差很小时, f ( x ) f(x) f(x)的值形成的簇接近其期望值。

协方差:给出两个变量线性相关性的强度以及变量的尺度:

C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y))=\mathbb E[(f(x)-\mathbb E[f(x)])(g(y)-\mathbb E[g(y)])] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]
协方差绝对值很大,意味着变量的变化值很大,并且距离各自的均值很远。协方差为正表明两个变量倾向于同时取得较大的值;若为负,表明一个变量倾向取得较大的值,另一个变量取得较小的值。

随机变量的协方差矩阵是 n × n n \times n n×n矩阵,满足
C o v ( x ) i , j = C o v ( x i , x j ) Cov({\bf x})_{i,j}=Cov({\bf x}_i,{\bf x}_j) Cov(x)i,j=Cov(xi,xj)
协方差的对角元素是方差:
C o v ( x i , x j ) = V a r ( x i ) Cov({\bf x}_i,{\bf x}_j)=Var({\bf x}_i) Cov(xi,xj)=Var(xi)
当缺乏对某个实数分布的的先验知识,通常选择正态分布,原因如下:

①、建模的很多分布的真实情况是比较接近正态分布的。中心极限定理表明很多独立随机变量的和近似服从正态分布。很多复杂系统可以被成功建模成正态分布的噪声,即使系统被分解为更结构化的部分。

②、具有相同方差的所有可能概率分布中,正态分布在实数上具有最大不确定性,可以认为正态分布对模型加入先验知识量最小的分布。

隐藏变量:不能直接观测的随机变量,隐藏变量的分布以及关联隐藏变量和观测变量的条件分布共同决定 P ( x ) P(x) P(x)的形状。

高斯混合模型组件是高斯分布,每个组件具有各自的参数,均值和协方差矩阵。高斯混合模型会限制每个组件的协方差矩阵为对角或各向同性的。

任何平滑的概率密度可以用足够多的高斯混合模型以任意精度逼近。

1.7贝叶斯规则

贝叶斯定理:
P ( x ∣ y ) = P ( x ) P ( y ∣ x ) ∑ x    P ( y ∣ x ) P ( x ) P(x|y)=\dfrac{P(x)P(y|x)}{\sum_x \; P(y|x)P(x)} P(xy)=xP(yx)P(x)P(x)P(yx)

1.8 连续型变量的技术细节

连续型变量落在某个集合 S \mathbb S S的概率是用过 p ( x ) p(x) p(x)对集合 S \mathbb S S积分得到。但是对于集合 S \mathbb S S的选择会引起概率的悖论。这些集合大量使用实数的无限精度构造。

零测度:零测度集在度量空间中不占有任何体积。多个零测度集的并仍然是零测度(所有有理数构成的集合的测度为零)

几乎处处某个性质是几乎处处成立的,那么在整个空间中除了一个测度为零的集合外都是成立的。

连续型随机变量的另一技术细节是:相互之间具有确定性处理关系的连续型随机变量。存在函数关系的两随机变量并不具有概率之间的函数关系,可能在映射过程中会造成空间变形。

高维空间中,微分运算扩展为Jacobian矩阵的行列式——矩阵的每个元素为 J i , j = ∂ x i ∂ y j J_{i,j}=\dfrac{\partial x_i}{\partial y_j} Ji,j=yjxi。对于实值向量,
p x ( x ) = p y ( g ( x ) ) ∣ d e t ( ∂ g ( x ) ∂ x ) ∣ p_x(\boldsymbol x)=p_y(g(\boldsymbol x))\left| det\biggl(\dfrac{\partial g(\boldsymbol x)}{\partial \boldsymbol x}\biggr) \right| px(x)=py(g(x))det(xg(x))

2.信息论

机器学习中主要利用信息论的思想描述概率分布或量化概率分布的相似性。

①、非常可能发生的时间信息量比较少;

②、较不可能发生的事件具有更高的信息量;

③、独立事件应具有增量的信息;

熵: H ( p ) = − ∑ x p ( x ) l o g 2 p ( x ) H(p)=-\sum_x p(x)log_2 p(x) H(p)=xp(x)log2p(x)熵衡量事件不确定性的大小,表示传输一个随机变量状态所需比特位的下界。

KL散度、相对熵

对于随机变量的两个概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x),用KL散度衡量两个分布之间的差异

D K L ( P ∣ ∣ Q ) = E [ l o g P ( x ) Q ( x ) ] = − ∫ P ( x ) l n    Q ( x ) d x − ( − ∫ P ( x ) l n    Q ( x ) d x ) = − ∫ P ( x ) l n    Q ( x ) P ( x ) d x \begin {aligned} D_{KL}(P||Q) &=\mathbb E \left[ log \dfrac{P(x)}{Q(x)}\right] \\ &=-\int P(x)ln \;Q(x) dx-\biggl(-\int P(x)ln \; Q(x)dx\biggr) \\ &=-\int P(x)ln \;\dfrac{Q(x)}{P(x)}dx \end {aligned} DKL(PQ)=E[logQ(x)P(x)]=P(x)lnQ(x)dx(P(x)lnQ(x)dx)=P(x)lnP(x)Q(x)dx

3 结构化概率模型

机器学习算法涉及在非常多的随机变量上的概率分布,其相互之间的直接作用是结余非常少的变量之间的。利用单个函数描述整个联合概率分布是非常低效的;因此将概率分布分解成许多因子乘积的形式。这种分解极大减少用来描述分布的参数数量;一般而言利用图模型描述这种分解。图模型使用图 G \mathcal G G,图的每个节点对应对应一个随机变量,连接两个随机变量意味着概率分布可以表示为两个随机变量之间的直接作用。

有向图用条件概率分布描述分解;其中对于分布的每一个随机变量 x i x_i xi包含一个影响因子称为当前节点的父节点 P a G ( x i ) Pa_{\mathcal G}(x_i) PaG(xi)

p ( x ) = ∏ i p ( x i ∣ P a G ( x i ) ) p(x)=\prod_ip(x_i|Pa_{\mathcal G}(x_i)) p(x)=ip(xiPaG(xi))

无向图将分解表示为一组函数,这些函数通常不是任何类型的概率分布。 G \mathcal G G中任何满足两两之间有边连接的顶点的集合称为。无向模型的每个团 C ( i ) \mathcal C^{(i)} C(i)都伴随着一个因子 ϕ ( i ) ( C ( i ) ) \phi^{(i)}(\mathcal C^{(i)}) ϕ(i)(C(i)),因子的输出是非负的,但并不要求因子的和或积分为1.

随机变量的联合概率与所有因子的乘积成比例:这意味着因子取值越大,可能性越大。

p ( x ) = 1 z ∏ i ϕ ( i ) ( C ( i ) ) p(x)=\dfrac{1}{z}\prod_i \phi^{(i)}(\mathcal C^{(i)}) p(x)=z1iϕ(i)(C(i))

你可能感兴趣的:(机器学习)