【系列一】频率派v.s.贝叶斯派

1. 资料介绍

1.1 书籍推荐

注:每本书各有侧重点,并没有一本书能全方位覆盖
侧重于频率派——统计机器学习:

  1. 李航《统计学习方法》
  2. 周志华《机器学习》
  3. 《elements of statistical learning》

侧重于贝叶斯派——概率图模型

  1. 周志华《机器学习》
  2. 《pattern recognition and machine learning》(PRML)
  3. 《machine learning:a probabilistic perspective》MLAPP

另有一本”圣经“:《deep learning》

1.2 视频推荐

  • 台大林轩田 基石+技法
  • 张志华:机器学习导论+统计机器学习
  • Ng:CS229
  • 徐亦达:概率模型
  • 台大李宏毅:机器学习

2. 频率派v.s.贝叶斯派

datas: X = ( x 1 , x 2 , … , x n ) n × p T = ( x 11 , x 12 … , x 1 p x 21 , x 22 … , x 2 p ⋮ x n 1 , x n 2 … , x n p ) X=(x_1,x_2,\dotsc,x_n)^T_{n\times p}=\begin{pmatrix}x_{11},x_{12}\dotsc,x_{1p}\\x_{21},x_{22}\dotsc,x_{2p}\\ \vdots\\x_{n1},x_{n2}\dotsc,x_{np}\end{pmatrix} X=(x1,x2,,xn)n×pT=x11,x12,x1px21,x22,x2pxn1,xn2,xnp
parameter: θ \theta θ
x i ∽ p ( x i ∣ θ ) x_i\backsim p(x_i|\theta) xip(xiθ)
频率派的观点:参数 θ \theta θ是未知常量,数据 X X X是一个随机变量(r.v.)。
对参数 θ \theta θ进行极大似然估计: θ M L E = a r g max ⁡ θ ℓ ( θ ) = a r g max ⁡ θ log ⁡ P ( x ∣ θ ) = a r g max ⁡ θ log ⁡ ∏ i = 1 n p ( x i ∣ θ ) = a r g max ⁡ θ ∑ i = 1 n log ⁡ p ( x i ∣ θ ) \theta_{MLE}=arg\max_{\theta}\ell(\theta)=arg\max_{\theta}\log P(x|\theta)=\\arg\max_{\theta}\log\prod_{i=1}^{n} p(x_i|\theta)=arg\max_{\theta}\sum_{i=1}^{n} \log p(x_i|\theta) θMLE=argθmax(θ)=argθmaxlogP(xθ)=argθmaxlogi=1np(xiθ)=argθmaxi=1nlogp(xiθ)
贝叶斯派的观点:参数 θ \theta θ不是常量,而是一个服从某种概率分布的随机变量(r.v.)
θ ∽ p ( θ ) \theta\backsim p(\theta) θp(θ)称之为先验概率。
借助贝叶斯定理将参数的先验和后验通过似然连接起来: P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) P(\theta|X)=\frac{P(X|\theta) \cdot P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ) P ( θ ∣ X ) P(\theta|X) P(θX)称为后验概率, P ( X ∣ θ ) P(X|\theta) P(Xθ)为‘似然’, P ( X ) P(X) P(X)实际上是随机变量X的分布函数,可以写成积分 ∫ θ P ( X ∣ θ ) P ( θ ) d θ \int_\theta P(X|\theta)P(\theta)d\theta θP(Xθ)P(θ)dθ

引入另一种估计方法(maximum a posteriori, MAP, 最大后验概率估计) θ M A P = a r g max ⁡ θ P ( θ ∣ X ) = a r g max ⁡ θ P ( X ∣ θ ) ⋅ P ( θ ) \theta_{MAP}=arg\max_{\theta}P(\theta|X)=arg\max_\theta P(X|\theta) \cdot P(\theta) θMAP=argθmaxP(θX)=argθmaxP(Xθ)P(θ)

贝叶斯预测:已知样本X与一个新样本 x ^ \hat x x^,求 P ( x ^ ∣ X ) = ∫ θ P ( x ^ ∣ θ ) P ( X ) d θ = ∫ θ P ( x ^ ∣ θ ) P ( θ ∣ X ) d θ P(\hat x|X)=\int_\theta P(\hat x|\theta)P(X)d\theta=\int_\theta P(\hat x|\theta)P(\theta|X)d\theta P(x^X)=θP(x^θ)P(X)dθ=θP(x^θ)P(θX)dθ

总结
频率派的问题根本上是一个优化问题,设计一个模型,计算loss,降低loss的优化方法。
贝叶斯派的问题根本上是一个求积分的问题,通过蒙特卡洛采样等方法求解。

原视频链接

【机器学习】【白板推导系列】【合集 1~23】

你可能感兴趣的:(机器学习-白板推导系列笔记,机器学习,人工智能,概率论,统计模型,统计学)