白板推导机器学习-开篇

频率派 VS 贝叶斯派

机器学习中引入概率很自然,把数据当做是一个概率模型。
X:表示数据 data ——> 有 N 个样本,每个样本维度为 P: X = ( x 1 x 2 . . . x N ) N × P T X = (x_{1} x_{2} ... x_{N})^{T}_{N \times P} X=(x1x2...xN)N×PT
θ \theta θ:表示参数 parameter

频率派:认为模型的参数 θ \theta θ 是一个未知的常量。数据 X 是一个随机变量,关心的是数据。需要将未知的常量 θ \theta θ 给估计出来。常用的方法是最大似然估计:

MLE:极大似然估计
θ M L E = a r g m a x θ l o g P ( X ∣ θ ) \theta_{MLE} = argmax_{\theta} log P(X|\theta) θMLE=argmaxθlogP(Xθ)

x i ∼ i i d p ( x ∣ θ ) x_{i} \sim^{iid} p(x|\theta) xiiidp(xθ)

贝叶斯派:和频率派不同,贝叶斯派认为参数 θ \theta θ 不是常量, θ \theta θ 本身也是一个随机变量,服从一个概率分布。 θ ∼ p ( θ ) \theta \sim p(\theta) θp(θ) 称为先验

借助贝叶斯定理把参数的先验和后验用似然将其连接起来:
p ( θ ∣ X ) = p ( X ∣ θ ) ∗ p ( θ ) p ( X ) ∝ p ( X ∣ θ ) ∗ p ( θ ) p(\theta|X) = \frac{p(X|\theta) * p(\theta)}{p(X)} \propto p(X|\theta) * p(\theta) p(θX)=p(X)p(Xθ)p(θ)p(Xθ)p(θ)

分母 p ( X ) = ∫ θ p ( X ∣ θ ) ∗ p ( θ ) d θ p(X) = \int_{\theta}p(X|\theta)*p(\theta)d\theta p(X)=θp(Xθ)p(θ)dθ

MAP:最大后验估计
从严格意义上讲,MAP并不是标准的贝叶斯方法。标准的贝叶斯方法就是要求积分!

贝叶斯估计:标准的贝叶斯估计就是要求解 ——> p ( θ ∣ X ) = p ( X ∣ θ ) ∗ p ( θ ) ∫ θ p ( X ∣ θ ) ∗ p ( θ ) d θ p(\theta|X) = \frac{p(X|\theta) * p(\theta)}{\int_{\theta}p(X|\theta)*p(\theta)d\theta} p(θX)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
贝叶斯估计的目的就是要求概率分布 p ( θ ∣ X ) p(\theta|X) p(θX)整体,那么求出这个后验概率分布能够做什么呢?可以引入一个贝叶斯预测!

贝叶斯预测:已知数据X,若引入一个新数据 x ~ \widetilde{x} x ,这个预测问题就是要求 p ( x ~ ∣ X ) = ∫ θ p ( x ~ , θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ ) p ( θ ∣ X ) d θ p(\widetilde{x}|X) = \int_{\theta}p(\widetilde{x}, \theta|X)d\theta = \int_{\theta}p(\widetilde{x}|\theta)p(\theta|X)d\theta p(x X)=θp(x ,θX)dθ=θp(x θ)p(θX)dθ(此时,需要引入参数 θ \theta θ作为已知数据X和未知数据 x ~ \widetilde{x} x 之间的桥梁)
所以在做预测问题时,我们必须要先求解出后验概率 p ( θ ∣ X ) p(\theta|X) p(θX)

我们可以发现在求后验的过程中其实是一个积分问题,要在整个参数空间中对其进行求积分,这个计算是非常复杂的,或者说有时候根本无法求解。所以就引申出很多新的计算方法。

贝叶斯 ——> 概率图模型
贝叶斯本质上 ——> 求积分 ——> (若解析解无法求解,可以用数值积分,用蒙特卡洛的方法MCMC采样方法来求积分)

频率派 ——> 统计机器学习
实际上是一个优化问题:
1.设计模型:可以是一个概率模型,或者一个非概率模型
2.导出一个Loss Function
3.Algorithm:梯度下降、拟牛顿法等
起本质上是一个优化问题。

你可能感兴趣的:(人工智能,机器学习,深度学习)