机器学习-白板推导入门-概率图模型

前言

博主刚开始入门机器学习时,总是没法把各个模型串在一起,这几个月断断续续看完B站的白板推导(1-23节),然后觉得视频里模型关系的导图还挺清晰的,于是记录一下,给自己存个笔记。

目前主要以概率图模型为主,后期如果复习到,会不断补充前面的模型和问题。欢迎各位批评指正~

模型关系

  • 机器学习到深度学习
  • 贝叶斯派-概率图模型
  • 分类问题
  • 聚类问题
  • 非线性问题
  • 采样问题-MCMC蒙特卡洛
  • 推断问题

机器学习到深度学习

ML-to-DL { 频 率 派 ( 统 计 学 习 ) { 正 则 化 { L 1 − L a s s o L 2 − R i d g e = 回 归 函 数 L o s s f u n c t i o n + 惩 罚 + 梯 度 S G D 核 化 k e r n e l − S V M = 分 类 优 化 问 题 − E M = 学 习 / 参 数 估 计 集 成 化 − A d a B o o s t 、 R a n d o m F o r e s t 层 次 化 − N e u r a l N e t w o r k { M L P 多 层 感 知 机 A u t o E n c o d e r C N N R N N → Deep Neural Network 贝 叶 斯 派 ( P G M ) { 后 验 概 率 计 算 ( 采 样 ) → 积 分 推 断 → 预 测 问 题 有 向 图 : B a y e s 网 络 → Deep Direct Network { sigmoid belief network Variational AutoEncoder-VAE G A N 对 抗 生 成 网 络 无 向 图 : M a r k o v 网 络 → Deep Botlzman Machine 混 合 图 : M i x t u r e 网 络 → Deep Belief Network → Deep Generalize Model \text{ML-to-DL}\begin{cases}频率派(统计学习) \begin{cases} 正则化\begin{cases} L1-Lasso \\L2-Ridge \end{cases}=回归函数_{Lossfunction}+惩罚+梯度SGD \\核化kernel-SVM=分类 \\优化问题-EM=学习/参数估计 \\集成化-AdaBoost、RandomForest \\层次化-NeuralNetwork\begin{cases} MLP多层感知机 \\AutoEncoder \\CNN \\RNN \end{cases}\rightarrow\text{Deep Neural Network} \end{cases} \\贝叶斯派(PGM) \begin{cases} 后验概率计算(采样)\rightarrow积分推断\rightarrow预测问题 \\有向图:Bayes网络\rightarrow\text{Deep Direct Network} \begin{cases} \text{sigmoid belief network} \\\text{Variational AutoEncoder-VAE} \\GAN对抗生成网络 \end{cases} \\无向图:Markov网络\rightarrow\text{Deep Botlzman Machine} \\混合图:Mixture网络\rightarrow\text{Deep Belief Network} \end{cases} \rightarrow\text{Deep Generalize Model} \end{cases} ML-to-DL(){L1LassoL2Ridge=Lossfunction++SGDkernelSVM=EM=/AdaBoostRandomForestNeuralNetworkMLPAutoEncoderCNNRNNDeep Neural Network(PGM)():BayesDeep Direct Networksigmoid belief networkVariational AutoEncoder-VAEGAN:MarkovDeep Botlzman Machine:MixtureDeep Belief NetworkDeep Generalize Model

Deep Neural Network+Deep Generalize Model=DeepLearning,这里再附上一个很不错的大纲图
机器学习-白板推导入门-概率图模型_第1张图片
图片来源

贝叶斯派-概率图模型

概率图模型的五个要素:方向、节点、条件、隐变量、指数簇分布

P G M { 有 向 图 { N B 朴 素 贝 叶 斯 : 朴 素 贝 叶 斯 ( 独 立 ) 假 设 G M M 高 斯 混 合 模 型 { 观 测 x 高 斯 分 布 , 隐 变 量 离 散 分 布 概 率 生 成 模 型 , 独 立 同 分 布 + T i m e S S M 状 态 空 间 模 型 { 条 件 : 隐 变 量 , 两 假 设 ( 齐 次 M a r k o v ; 观 测 独 立 ) , 有 向 图 动 态 系 统 { H M M 隐 马 尔 可 夫 模 型 : 变 量 离 散 分 布 , 概 率 生 成 模 型 − 求 P ( X , Y ) K a l m a n − F i l t e r 卡 尔 曼 滤 波 : 变 量 ( 连 续 ) 高 斯 分 布 连 续 线 性 动 态 系 统 : 使 用 P − P C A 概 率 主 成 分 求 解 P r e d i c t i o n P a r t i c l e − F i l t e r 粒 子 滤 波 : 变 量 ( 连 续 ) 非 高 斯 分 布 连 续 非 线 性 动 态 系 统 : 使 用 S I S 顺 序 重 要 性 采 样 求 解 F i l t e r i n g 问 题 { L e a r n i n g − E M 算 法 I n f e r e n c e { D e c o d i n g − V i t e r b i 算 法 E v a l u a t i o n − F o r w a r d / B a c k w a r d F i l t e r i n g − F o r w a r d − o n l i n e 学 习 S m o o t h i n g − ( F o r w a r d − B a c k w a r d ) − o f f l i n e 学 习 P r e d i c t i o n − F o r w a r d M E M M 最 大 熵 马 尔 可 夫 模 型 : 概 率 判 别 模 型 − 求 P ( Y ∣ X ) , 打 破 观 测 独 立 假 设 无 向 图 { C R F 条 件 随 机 场 : 无 向 图 , 打 破 观 测 独 立 假 设 , 打 破 齐 次 M a r k o v 假 设 L C − C R F 线 性 链 条 件 随 机 场 : 隐 变 量 符 合 马 尔 可 夫 随 机 场 M R F B M 玻 尔 兹 曼 机 : 无 向 图 , 隐 变 量 , 变 量 指 数 簇 分 布 R B M 受 限 玻 尔 兹 曼 机 : B M + 条 件 独 立 性 混 合 − 高 斯 图 { 特 点 : 观 测 变 量 x 是 连 续 的 G B N 高 斯 贝 叶 斯 网 络 : 有 向 图 , 基 于 线 性 高 斯 模 型 G M N 高 斯 马 尔 可 夫 网 络 : 无 向 图 , 基 于 高 斯 马 尔 可 夫 随 机 场 G P R 高 斯 过 程 回 归 : 无 限 维 的 高 斯 分 布 , 基 于 K e r n e l − B L R 贝 叶 斯 线 性 回 归 \\PGM\begin{cases} 有向图\begin{cases} NB朴素贝叶斯:朴素贝叶斯(独立)假设 \\GMM高斯混合模型\begin{cases} 观测x高斯分布,隐变量离散分布 \\概率生成模型,独立同分布+Time \end{cases} \\SSM状态空间模型\begin{cases} 条件:隐变量,两假设(齐次Markov;观测独立),有向图 \\动态系统\begin{cases} HMM隐马尔可夫模型:变量离散分布,概率生成模型-求P(X,Y) \\Kalman-Filter卡尔曼滤波:变量(连续)高斯分布 \\连续线性动态系统:使用P-PCA概率主成分求解Prediction \\Particle-Filter粒子滤波:变量(连续)非高斯分布 \\连续非线性动态系统:使用SIS顺序重要性采样求解Filtering \end{cases} \\问题\begin{cases} Learning-EM算法 \\Inference\begin{cases} Decoding-Viterbi算法 \\Evaluation-Forward/Backward \\Filtering-Forward-online学习 \\Smoothing-(Forward-Backward)-offline学习 \\Prediction-Forward \end{cases} \end{cases} \end{cases} \\MEMM最大熵马尔可夫模型:概率判别模型-求P(Y|X),打破观测独立假设 \end{cases}\\无向图\begin{cases} CRF条件随机场:无向图,打破观测独立假设,打破齐次Markov假设 \\LC-CRF线性链条件随机场:隐变量符合马尔可夫随机场MRF \\BM玻尔兹曼机:无向图,隐变量,变量指数簇分布 \\RBM受限玻尔兹曼机:BM+条件独立性 \end{cases}\\混合-高斯图\begin{cases} 特点:观测变量x是连续的 \\GBN高斯贝叶斯网络:有向图,基于线性高斯模型 \\GMN高斯马尔可夫网络:无向图,基于高斯马尔可夫随机场 \\GPR高斯过程回归:无限维的高斯分布,基于Kernel-BLR贝叶斯线性回归 \end{cases} \end{cases} PGMNB:()GMM{x,,+TimeSSM:,(Markov;),HMM:,P(X,Y)KalmanFilter:()线使PPCAPredictionParticleFilter:()线使SISFilteringLearningEMInferenceDecodingViterbiEvaluationForward/BackwardFilteringForwardonlineSmoothing(ForwardBackward)offlinePredictionForwardMEMM:P(YX),CRF:,,MarkovLCCRF线:MRFBM:,,RBM:BM+xGBN:,线GMN:,GPR:,KernelBLR线

分类问题

  • 硬分类:SVM支持向量机,PLA感知机模型,LDA线性判别分析

  • 软分类

    • Logistics Regression逻辑回归-概率判别模型-对P(Y|X)建模-EM算法
    • Naive Bayes朴素贝叶斯-概率生成模型-对P(X,Y)建模-HMM算法

聚类问题

聚 类 问 题 { c o m p a c t n e r ( 凸 域 ) { G M M 高 斯 混 合 模 型 K − M e a n s : Kernel Method c o n n e c t i v i t y ( 非 凸 域 ) : 谱 聚 类 ∽ 主 成 分 分 析 聚类问题\begin{cases} compactner(凸域) \begin{cases} GMM高斯混合模型 \\K-Means:\text{Kernel Method} \end{cases} \\connectivity(非凸域):谱聚类 \backsim 主成分分析 \end{cases} compactner(){GMMKMeans:Kernel Methodconnectivity():

非线性问题

非 线 性 问 题 的 三 种 解 决 方 案 { N o n − T r a n s f o r m a t i o n 手 动 非 线 性 转 换 − 高 维 映 射 − 维 数 灾 难 kernel Method:隐藏了非线性转换,仅计算内积 神 经 网 络 非线性问题的三种解决方案\begin{cases} Non-Transformation手动非线性转换-高维映射-维数灾难 \\\text{kernel Method:隐藏了非线性转换,仅计算内积} \\神经网络 \end{cases} 线NonTransformation线kernel Method:隐藏了非线性转换,仅计算内积

采样问题-MCMC蒙特卡洛

  • 基本的采样方法:概率分布采样;拒绝采样;重要性采样;重要性重采样;
  • 存在的问题:高维样本使得采样困难,样本间不是相合独立的
  • 马氏链采样:Gibbs采样:任意固定第i维度,再进行采样计算。
    • 求出状态转移矩阵    ⟺    \iff 马氏链平稳分布
    • 预设平稳分布 ∽ \backsim 目标分布

推断问题

  • 变分推断:应用于Encoder/Decoder问题;为了求解后验概率,可以应用在EM算法的E步
  • SGVI随机梯度变分推断:将映射和假设分布的关系解耦,使得可以采样MCMC计算期望(求和/积分)

你可能感兴趣的:(机器学习(学习笔记),机器学习)