机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记

视频如下:

机器学习-白板推导系列(二)-数学基础_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com
机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第1张图片

一、概率-高斯分布1-极大似然估计

高斯分布在统计机器学习中占据重要的地位。

本节内容主要是利用极大似然估计计算高斯分布下的最优参数。

Data:

假设数据
中有
个样本,每个样本
维数据(含有
个feature)

所有的样本都独立同分布于高斯分布

MLE:

极大似然估计MLE:求最优的
使得对于这部分数据来说,出现的概率最大

下面计算在一维情况下高斯分布的最优参数

[注] 高维情况下的高斯分布密度函数:

先对
去对数,使得后续求导计算更加方便。

因为
在同一
处取到极值

首先求最优的
,如下:

第二步将P带入后,只需要保留含有
的项,常数项与优化无关故舍去

接下来对其求导,找出极大值

求出最优的
是样本均值,此结果为无偏估计 因为

接下来求
的最优解

求导,找出最优解

此结果为有偏估计,因为

无偏估计为:

二、概率-高斯分布2-极大似然估计(无偏估计 VS 有偏估计)

本节内容主要是证明

的无偏与有偏性,并计算无偏的

假设与第一节一致,在一维情况下:

无偏估计

有偏估计
则无偏

若不相等,则有偏

因此
无偏

其中
因为
是无偏估计

此外

因此
是有偏的

因此
为无偏估计

三、概率-高斯分布3-从概率密度函数角度观察

本节将从高维角度来看高斯分布

高维高斯分布的公式,右部分是二次型

维随机变量
(random variable)

通常来说,
是半正定的(对称的),本节内容假设
是正定的(特征值
),便于叙述

首先从概率密度函数来看,
是自变量,因此
前面的内容为常数

(是一个数) ————马氏距离(
之间)
(单位矩阵)时,马氏距离
欧氏距离

特征值分解
(正交)
(对角阵)

Then:

使用特征值分解可以将矩阵拆成连乘形式

的结果如上,因为特征向量矩阵
是正交的,因此

将此结果带入


马氏距离经过变换,成为了
在特征向量
上的投影长度

则上式便是令
取不同值时的同心椭圆

时,椭圆如下图所示:

机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第2张图片
每当
取不同值,椭圆就相当于对这一高度的等高线,也对应一个固定的概率值

(常量)时,上图便是一个圆

四、概率-高斯分布4-局限性

继上节内容,将

带入
:

每当
取为某个概率值时,都对应一个固定的
值,即对应一个椭圆曲线,因此取满所有的
,对应的图像是一个小山状(如下图所示)

机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第3张图片
每当
取为某个概率值时,相当于横切小山,投影到
平面便是一个椭圆曲线,也是等高线

局限性:

的参数个数是
计算复杂度太高,因此经常对
进行简化,假设其为对角矩阵,则其对应的椭圆曲线为正的,如下图所示:

机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第4张图片

中的
都相等,则上图便为一个正的圆,此情况称为
各向同性
各向同性矩阵
[ Example] factor analysis:
为对角矩阵
(概率PCA):因子分析的特殊情况,
为各向同性

②高斯分布本身的局限性

有些数据无法用一个高斯分布表示

因此在GMM中提出了混合模型:使用多个高斯分布进行混合


五、概率-高斯分布5-已知联合概率求边缘概率及条件概率

本节内容是推导最多最复杂的部分

已知一个多维高斯分布的联合概率,求其边缘概率分布及条件概率分布

分为两部分,一部分为
,一部分为
,
同理:

已知:

看为
的联合概率分布

求:

同理可由对称性得知

通用方法:配方法(RPML)
今天使用另一种方法,比配方法简便

引入如下定理(概率论与数理统计中的):

已知:

结论:

证明:

①首先计算

使用上述定理的结论,则:

因此:

②计算

首先引入3个量:

这里
的Schur Complementary
的线性组合,故其服从高斯分布

下面求

的概率分布函数

先对

进行变换,使其能够应用上述定理直接得出结果

使用上述定理得:

因此

由第一个引入的量可以得到:

此处同样利用上述定理,其中
,
,

可以求得:

因此

这里直接使用
的表达式计算了
,原因是条件概率的含义为在已知
的条件下求
的概率,因此这里假设
已知,作为常量处理了

很容易可以证明,若计算
,则结果应为
,
同理

③利用对称性求另外两个量


六、概率-高斯分布6-已知边缘和条件概率求联合概率分布

上节内容是已知一个多维高斯分布的联合概率,求其边缘概率分布及条件概率分布

本节内容是:

已知:

,为了计算方便

求:

有点像贝叶斯中的后验

同时有假设
有线性关系:

PRML中依然用的配方法,非常繁琐
以下依旧使用构造性证明
本节比上节更重要

假设

其中
都是随机变量

其中
独立

①求解

此处使用上一节的定理求得

因此

所以

②求解

对于此问题,使用上一节的结论进行求解。
即先求出联合概率分布,再求此条件概率
故引入

其中:

因为
独立,所以
独立

因此

所以

由对称性得:

因此:

所以:

使用上一节结论

可得:

因此:


七、概率-不等式1-杰森不等式(Jensen's Inequality)

本节开始介绍一些小知识点

杰森不等式在机器学习的推导中经常被用到,因此单独拿出来介绍

杰森不等式是什么?

假设

(凸函数)

证明:

证明方法有很多,本次采用一个构造性证明

机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第5张图片

如上图所示,根据

点找到
点,然后做切线

因此

对上式结论两边同时取期望

证毕

实际上我们在机器学习中使用的更多的是杰森不等式的变式,如下推导

机器学习实战 梯度上升 数学推导_机器学习-白板推导系列(二)-数学基础笔记_第6张图片

如上图所示,令

然后连接

作一条新的线为

因为

所以

因此如上图所示,可利用相似三角形性质求得:

因此

所以

此式非常常用,非常重要!

你可能感兴趣的:(机器学习实战,梯度上升,数学推导)