前言
博主刚开始入门机器学习时,总是没法把各个模型串在一起,这几个月断断续续看完B站的白板推导(1-23节),然后觉得视频里模型关系的导图还挺清晰的,于是记录一下,给自己存个笔记。
目前主要以概率图模型为主,后期如果复习到,会不断补充前面的模型和问题。欢迎各位批评指正~
ML-to-DL { 频 率 派 ( 统 计 学 习 ) { 正 则 化 { L 1 − L a s s o L 2 − R i d g e = 回 归 函 数 L o s s f u n c t i o n + 惩 罚 + 梯 度 S G D 核 化 k e r n e l − S V M = 分 类 优 化 问 题 − E M = 学 习 / 参 数 估 计 集 成 化 − A d a B o o s t 、 R a n d o m F o r e s t 层 次 化 − N e u r a l N e t w o r k { M L P 多 层 感 知 机 A u t o E n c o d e r C N N R N N → Deep Neural Network 贝 叶 斯 派 ( P G M ) { 后 验 概 率 计 算 ( 采 样 ) → 积 分 推 断 → 预 测 问 题 有 向 图 : B a y e s 网 络 → Deep Direct Network { sigmoid belief network Variational AutoEncoder-VAE G A N 对 抗 生 成 网 络 无 向 图 : M a r k o v 网 络 → Deep Botlzman Machine 混 合 图 : M i x t u r e 网 络 → Deep Belief Network → Deep Generalize Model \text{ML-to-DL}\begin{cases}频率派(统计学习) \begin{cases} 正则化\begin{cases} L1-Lasso \\L2-Ridge \end{cases}=回归函数_{Lossfunction}+惩罚+梯度SGD \\核化kernel-SVM=分类 \\优化问题-EM=学习/参数估计 \\集成化-AdaBoost、RandomForest \\层次化-NeuralNetwork\begin{cases} MLP多层感知机 \\AutoEncoder \\CNN \\RNN \end{cases}\rightarrow\text{Deep Neural Network} \end{cases} \\贝叶斯派(PGM) \begin{cases} 后验概率计算(采样)\rightarrow积分推断\rightarrow预测问题 \\有向图:Bayes网络\rightarrow\text{Deep Direct Network} \begin{cases} \text{sigmoid belief network} \\\text{Variational AutoEncoder-VAE} \\GAN对抗生成网络 \end{cases} \\无向图:Markov网络\rightarrow\text{Deep Botlzman Machine} \\混合图:Mixture网络\rightarrow\text{Deep Belief Network} \end{cases} \rightarrow\text{Deep Generalize Model} \end{cases} ML-to-DL⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧频率派(统计学习)⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧正则化{L1−LassoL2−Ridge=回归函数Lossfunction+惩罚+梯度SGD核化kernel−SVM=分类优化问题−EM=学习/参数估计集成化−AdaBoost、RandomForest层次化−NeuralNetwork⎩⎪⎪⎪⎨⎪⎪⎪⎧MLP多层感知机AutoEncoderCNNRNN→Deep Neural Network贝叶斯派(PGM)⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧后验概率计算(采样)→积分推断→预测问题有向图:Bayes网络→Deep Direct Network⎩⎪⎨⎪⎧sigmoid belief networkVariational AutoEncoder-VAEGAN对抗生成网络无向图:Markov网络→Deep Botlzman Machine混合图:Mixture网络→Deep Belief Network→Deep Generalize Model
Deep Neural Network+Deep Generalize Model=DeepLearning,这里再附上一个很不错的大纲图
图片来源
概率图模型的五个要素:方向、节点、条件、隐变量、指数簇分布
P G M { 有 向 图 { N B 朴 素 贝 叶 斯 : 朴 素 贝 叶 斯 ( 独 立 ) 假 设 G M M 高 斯 混 合 模 型 { 观 测 x 高 斯 分 布 , 隐 变 量 离 散 分 布 概 率 生 成 模 型 , 独 立 同 分 布 + T i m e S S M 状 态 空 间 模 型 { 条 件 : 隐 变 量 , 两 假 设 ( 齐 次 M a r k o v ; 观 测 独 立 ) , 有 向 图 动 态 系 统 { H M M 隐 马 尔 可 夫 模 型 : 变 量 离 散 分 布 , 概 率 生 成 模 型 − 求 P ( X , Y ) K a l m a n − F i l t e r 卡 尔 曼 滤 波 : 变 量 ( 连 续 ) 高 斯 分 布 连 续 线 性 动 态 系 统 : 使 用 P − P C A 概 率 主 成 分 求 解 P r e d i c t i o n P a r t i c l e − F i l t e r 粒 子 滤 波 : 变 量 ( 连 续 ) 非 高 斯 分 布 连 续 非 线 性 动 态 系 统 : 使 用 S I S 顺 序 重 要 性 采 样 求 解 F i l t e r i n g 问 题 { L e a r n i n g − E M 算 法 I n f e r e n c e { D e c o d i n g − V i t e r b i 算 法 E v a l u a t i o n − F o r w a r d / B a c k w a r d F i l t e r i n g − F o r w a r d − o n l i n e 学 习 S m o o t h i n g − ( F o r w a r d − B a c k w a r d ) − o f f l i n e 学 习 P r e d i c t i o n − F o r w a r d M E M M 最 大 熵 马 尔 可 夫 模 型 : 概 率 判 别 模 型 − 求 P ( Y ∣ X ) , 打 破 观 测 独 立 假 设 无 向 图 { C R F 条 件 随 机 场 : 无 向 图 , 打 破 观 测 独 立 假 设 , 打 破 齐 次 M a r k o v 假 设 L C − C R F 线 性 链 条 件 随 机 场 : 隐 变 量 符 合 马 尔 可 夫 随 机 场 M R F B M 玻 尔 兹 曼 机 : 无 向 图 , 隐 变 量 , 变 量 指 数 簇 分 布 R B M 受 限 玻 尔 兹 曼 机 : B M + 条 件 独 立 性 混 合 − 高 斯 图 { 特 点 : 观 测 变 量 x 是 连 续 的 G B N 高 斯 贝 叶 斯 网 络 : 有 向 图 , 基 于 线 性 高 斯 模 型 G M N 高 斯 马 尔 可 夫 网 络 : 无 向 图 , 基 于 高 斯 马 尔 可 夫 随 机 场 G P R 高 斯 过 程 回 归 : 无 限 维 的 高 斯 分 布 , 基 于 K e r n e l − B L R 贝 叶 斯 线 性 回 归 \\PGM\begin{cases} 有向图\begin{cases} NB朴素贝叶斯:朴素贝叶斯(独立)假设 \\GMM高斯混合模型\begin{cases} 观测x高斯分布,隐变量离散分布 \\概率生成模型,独立同分布+Time \end{cases} \\SSM状态空间模型\begin{cases} 条件:隐变量,两假设(齐次Markov;观测独立),有向图 \\动态系统\begin{cases} HMM隐马尔可夫模型:变量离散分布,概率生成模型-求P(X,Y) \\Kalman-Filter卡尔曼滤波:变量(连续)高斯分布 \\连续线性动态系统:使用P-PCA概率主成分求解Prediction \\Particle-Filter粒子滤波:变量(连续)非高斯分布 \\连续非线性动态系统:使用SIS顺序重要性采样求解Filtering \end{cases} \\问题\begin{cases} Learning-EM算法 \\Inference\begin{cases} Decoding-Viterbi算法 \\Evaluation-Forward/Backward \\Filtering-Forward-online学习 \\Smoothing-(Forward-Backward)-offline学习 \\Prediction-Forward \end{cases} \end{cases} \end{cases} \\MEMM最大熵马尔可夫模型:概率判别模型-求P(Y|X),打破观测独立假设 \end{cases}\\无向图\begin{cases} CRF条件随机场:无向图,打破观测独立假设,打破齐次Markov假设 \\LC-CRF线性链条件随机场:隐变量符合马尔可夫随机场MRF \\BM玻尔兹曼机:无向图,隐变量,变量指数簇分布 \\RBM受限玻尔兹曼机:BM+条件独立性 \end{cases}\\混合-高斯图\begin{cases} 特点:观测变量x是连续的 \\GBN高斯贝叶斯网络:有向图,基于线性高斯模型 \\GMN高斯马尔可夫网络:无向图,基于高斯马尔可夫随机场 \\GPR高斯过程回归:无限维的高斯分布,基于Kernel-BLR贝叶斯线性回归 \end{cases} \end{cases} PGM⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧有向图⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧NB朴素贝叶斯:朴素贝叶斯(独立)假设GMM高斯混合模型{观测x高斯分布,隐变量离散分布概率生成模型,独立同分布+TimeSSM状态空间模型⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧条件:隐变量,两假设(齐次Markov;观测独立),有向图动态系统⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧HMM隐马尔可夫模型:变量离散分布,概率生成模型−求P(X,Y)Kalman−Filter卡尔曼滤波:变量(连续)高斯分布连续线性动态系统:使用P−PCA概率主成分求解PredictionParticle−Filter粒子滤波:变量(连续)非高斯分布连续非线性动态系统:使用SIS顺序重要性采样求解Filtering问题⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧Learning−EM算法Inference⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧Decoding−Viterbi算法Evaluation−Forward/BackwardFiltering−Forward−online学习Smoothing−(Forward−Backward)−offline学习Prediction−ForwardMEMM最大熵马尔可夫模型:概率判别模型−求P(Y∣X),打破观测独立假设无向图⎩⎪⎪⎪⎨⎪⎪⎪⎧CRF条件随机场:无向图,打破观测独立假设,打破齐次Markov假设LC−CRF线性链条件随机场:隐变量符合马尔可夫随机场MRFBM玻尔兹曼机:无向图,隐变量,变量指数簇分布RBM受限玻尔兹曼机:BM+条件独立性混合−高斯图⎩⎪⎪⎪⎨⎪⎪⎪⎧特点:观测变量x是连续的GBN高斯贝叶斯网络:有向图,基于线性高斯模型GMN高斯马尔可夫网络:无向图,基于高斯马尔可夫随机场GPR高斯过程回归:无限维的高斯分布,基于Kernel−BLR贝叶斯线性回归
硬分类:SVM支持向量机,PLA感知机模型,LDA线性判别分析
软分类
聚 类 问 题 { c o m p a c t n e r ( 凸 域 ) { G M M 高 斯 混 合 模 型 K − M e a n s : Kernel Method c o n n e c t i v i t y ( 非 凸 域 ) : 谱 聚 类 ∽ 主 成 分 分 析 聚类问题\begin{cases} compactner(凸域) \begin{cases} GMM高斯混合模型 \\K-Means:\text{Kernel Method} \end{cases} \\connectivity(非凸域):谱聚类 \backsim 主成分分析 \end{cases} 聚类问题⎩⎪⎨⎪⎧compactner(凸域){GMM高斯混合模型K−Means:Kernel Methodconnectivity(非凸域):谱聚类∽主成分分析
非 线 性 问 题 的 三 种 解 决 方 案 { N o n − T r a n s f o r m a t i o n 手 动 非 线 性 转 换 − 高 维 映 射 − 维 数 灾 难 kernel Method:隐藏了非线性转换,仅计算内积 神 经 网 络 非线性问题的三种解决方案\begin{cases} Non-Transformation手动非线性转换-高维映射-维数灾难 \\\text{kernel Method:隐藏了非线性转换,仅计算内积} \\神经网络 \end{cases} 非线性问题的三种解决方案⎩⎪⎨⎪⎧Non−Transformation手动非线性转换−高维映射−维数灾难kernel Method:隐藏了非线性转换,仅计算内积神经网络