上一节介绍了生成模型的判别方式,本节将从机器学习需要解决的任务——监督学习、无监督学习的角度,对现阶段经典模型进行总结。
生成模型( Generative Model \text{Generative Model} Generative Model)的核心判别方式是:建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务,并且均是软分类算法,但关注点截然不同:
逻辑回归( Logistic Regression \text{Logistic Regression} Logistic Regression)的底层逻辑是最大熵原理,通过 Sigmoid , Softmax \text{Sigmoid},\text{Softmax} Sigmoid,Softmax函数直接对后验概率 P ( Y ∣ X ) \mathcal P(\mathcal Y \mid \mathcal X) P(Y∣X)进行描述:
以二分类为例,此时
Y \mathcal Y Y服从伯努利分布。
P ( Y ∣ X ) = { Sigmoid ( W T X + b ) Y = 1 1 − Sigmoid ( W T X + b ) Y = 0 \mathcal P(\mathcal Y \mid \mathcal X) = \begin{cases} \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 1\\ 1 - \text{Sigmoid}(\mathcal W^T\mathcal X + b) \quad \mathcal Y = 0 \end{cases} P(Y∣X)={Sigmoid(WTX+b)Y=11−Sigmoid(WTX+b)Y=0
很明显,这里我们仅关注 Sigmoid \text{Sigmoid} Sigmoid函数结果。而 X \mathcal X X的特征信息仅作为与模型参数 W \mathcal W W做内积的工具而已,并不是我们关注的对象;
朴素贝叶斯分类器( Naive Bayes Classifier \text{Naive Bayes Classifier} Naive Bayes Classifier)针对后验概率 P ( Y ∣ X ) \mathcal P(\mathcal Y \mid \mathcal X) P(Y∣X),通过贝叶斯定理将其转化为 P ( X ∣ Y ) ⋅ P ( Y ) \mathcal P(\mathcal X \mid \mathcal Y) \cdot \mathcal P(\mathcal Y) P(X∣Y)⋅P(Y)之间的大小关系:
关于分母
P ( X ) \mathcal P(\mathcal X) P(X)的完整形式是
∫ Y P ( X ∣ Y ) ⋅ P ( Y ) d Y \int_{\mathcal Y}\mathcal P(\mathcal X \mid \mathcal Y) \cdot \mathcal P(\mathcal Y) d\mathcal Y ∫YP(X∣Y)⋅P(Y)dY,该项自身与
Y \mathcal Y Y无关,可视作常数。
这里依然以二分类为例,
Y \mathcal Y Y同样服从伯努利分布。
在这里,我们关注的对象是联合概率分布 P ( X , Y ) \mathcal P(\mathcal X,\mathcal Y) P(X,Y)。并且针对 P ( X , Y ) \mathcal P(\mathcal X,\mathcal Y) P(X,Y)建模的过程中,设计了朴素贝叶斯假设:
{ x i ⊥ x j ∣ Y ( i ≠ j ; x i , x j ∈ X ; X ∈ R p ) P ( X ∣ Y ) = P ( x 1 , ⋯ , x p ∣ Y ) = ∏ i = 1 p P ( x i ∣ Y ) \begin{cases} x_i \perp x_j \mid \mathcal Y \quad (i\neq j;x_i,x_j \in \mathcal X;\mathcal X \in \mathbb R^p) \\ \mathcal P(\mathcal X \mid \mathcal Y) = \mathcal P(x_1,\cdots,x_p \mid \mathcal Y) = \prod_{i=1}^p \mathcal P(x_i \mid \mathcal Y) \end{cases} {xi⊥xj∣Y(i=j;xi,xj∈X;X∈Rp)P(X∣Y)=P(x1,⋯,xp∣Y)=∏i=1pP(xi∣Y)
如果针对监督学习,自带标签信息 Y \mathcal Y Y,例如朴素贝叶斯分类器,通常针对联合概率分布 P ( X , Y ) \mathcal P(\mathcal X,\mathcal Y) P(X,Y)进行建模;
如果是无监督学习,此时只有样本特征 X \mathcal X X,主要分为两种情况:
从机器学习任务的角度观察:
无论是监督学习还是无监督学习,都可以将其划分为概率模型与非概率模型。
这里的概率模型/非概率模型是指:在建模的过程中,其关于任务的返回结果是否考虑了概率分布。换句话说,概率是否直接参与到相关任务中去。
监督学习中的非概率模型,大方向指的是判别模型。在分类任务中,硬分类模型都是非概率模型。
其中
Sign \text{Sign} Sign函数表示指示函数,在硬分类任务中,其大多指的是分段函数;而在软分类任务中,它可以是如
Sigmoid \text{Sigmoid} Sigmoid函数的连续函数。
基于亦或问题的前馈神经网络结构表示如下。
函数将输出结果映射成了概率分布形式,并且是以
X \mathcal X X作为输入层,关于
Y \mathcal Y Y的后验概率
P ( Y ∣ X ) \mathcal P(\mathcal Y \mid \mathcal X) P(Y∣X).监督学习中的概率模型可以继续向下划分,可划分为概率判别模型( Discriminative Model \text{Discriminative Model} Discriminative Model)和概率生成模型( Generative Model \text{Generative Model} Generative Model)两种:
‘概率生成模型’在末尾统一介绍。
其中概率判别模型的核心思想是:直接对条件概率 P ( Y ∣ X ) \mathcal P(\mathcal Y \mid \mathcal X) P(Y∣X)进行建模 。经典的概率判别模型有:
这里的
Sign \text{Sign} Sign函数指的是
Sigmoid \text{Sigmoid} Sigmoid函数自身。
其中
W , b \mathcal W,b W,b分别表示权重参数与偏置信息。
关于这种链式的无向图结构,它的极大团内仅包含相邻的两个随机变量结点与观测变量结点,这里将极大团数量
K \mathcal K K替换为序列长度
T T T;并且
− E k ( i C k ) -\mathbb E_{k}(i_{\mathcal C_k}) −Ek(iCk)表示能量函数,恒正;
Z \mathcal Z Z表示配分函数。
从上述介绍的几种模型也能观察到:并不能将所有的隐变量模型武断地看作生成模型,对于判别模型与生成模型的界限存在新的认识。
由于无监督学习中没有标签信息,仅包含样本特征,因此无法通过标签信息进行判别。因而基于无监督的概率模型只有概率生成模型。
这里所说的概率分布只会是样本
X \mathcal X X的概率分布,在下面统一介绍。
关于无监督学习的非概率模型主要针对于特定任务。如:
关于生成模型,将其从监督任务、非监督任务进行划分,意义不大。因而统一进行描述。首先需要排除一些错误认知:
也就是说,生成模型横跨了概率图模型以及深度学习,特别是将神经网络与概率图模型混合的产物——深度生成模型( Deep Generative Model \text{Deep Generative Model} Deep Generative Model)
在介绍的生成模型中,假设最简单的生成模型——朴素贝叶斯分类器( Naive Bayes Classifier \text{Naive Bayes Classifier} Naive Bayes Classifier),它的核心是朴素贝叶斯假设:
x i ⊥ x j ∣ Y = l { i , j ∈ { 1 , 2 , ⋯ , p } / X ∈ R p i ≠ j l ∈ { 1 , 2 , ⋯ , k } x_i \perp x_j \mid \mathcal Y = l \quad \begin{cases} i,j \in \{1,2,\cdots,p\} / \mathcal X \in \mathbb R^p \\ i \neq j \\ l \in \{1,2,\cdots,k\} \end{cases} xi⊥xj∣Y=l⎩ ⎨ ⎧i,j∈{1,2,⋯,p}/X∈Rpi=jl∈{1,2,⋯,k}
主要应用在监督学习的分类任务,对应的概率图结构表示如下:
很明显,它并不是混合模型。
x 1 , ⋯ , x p x_1,\cdots,x_p x1,⋯,xp是随机变量,表示样本自身的各维度特征;
Y \mathcal Y Y表示样本对应的标签信息。
混合模型系列,仅通过样本自身特征信息无法准确描述概率分布,需要引入隐变量 Z \mathcal Z Z进行建模。如高斯混合模型( Gaussian Mixture Model,GMM \text{Gaussian Mixture Model,GMM} Gaussian Mixture Model,GMM),其中 Z \mathcal Z Z被假设为一维、离散型随机变量,并且 X ∣ Z \mathcal X \mid \mathcal Z X∣Z服从高斯分布:
根据实际情况,也可以将其设置为其他分布,构建不同的混合模型。
X ∣ Z ∼ N ( μ k , Σ k ) \mathcal X \mid \mathcal Z \sim \mathcal N(\mu_{k},\Sigma_{k}) X∣Z∼N(μk,Σk)
对应的建模过程表示为:
关于包含隐变量生成模型的建模过程主要是对联合概率分布
P ( X , Z ) \mathcal P(\mathcal X,\mathcal Z) P(X,Z)进行建模。
P ( X ) = ∑ Z P ( X , Z ) = ∑ Z P ( X ∣ Z ) ⋅ P ( Z ) = ∑ k = 1 K p k ⋅ N ( μ k , Σ k ) ( ∑ k = 1 K p k = 1 ) \begin{aligned} \mathcal P(\mathcal X) & = \sum_{\mathcal Z} \mathcal P(\mathcal X,\mathcal Z) \\ & = \sum_{\mathcal Z} \mathcal P(\mathcal X \mid \mathcal Z) \cdot \mathcal P(\mathcal Z) \\ & = \sum_{k=1}^{\mathcal K} p_{k} \cdot \mathcal N(\mu_{k},\Sigma_{k}) \quad (\sum_{k=1}^{\mathcal K} p_k = 1) \end{aligned} P(X)=Z∑P(X,Z)=Z∑P(X∣Z)⋅P(Z)=k=1∑Kpk⋅N(μk,Σk)(k=1∑Kpk=1)
主要应用在无监督学习的聚类任务。其概率图结构表示如下:
动态模型( Dynamic Model \text{Dynamic Model} Dynamic Model)系列:从时间、序列角度随机变量从有限到无限。代表模型有隐马尔可夫模型( Hidden Markov Model,HMM \text{Hidden Markov Model,HMM} Hidden Markov Model,HMM),卡尔曼滤波( Kalman Filter \text{Kalman Filter} Kalman Filter),粒子滤波( Praticle Filter \text{Praticle Filter} Praticle Filter)。它们均服从齐次马尔可夫假设与观测独立性假设:
{ P ( i t + 1 ∣ i t , ⋯ ) = P ( i t + 1 ∣ i t ) P ( o t ∣ i t , ⋯ ) = P ( o t ∣ i t ) \begin{cases} \mathcal P(i_{t+1} \mid i_t,\cdots) = \mathcal P(i_{t+1} \mid i_t) \\ \mathcal P(o_t \mid i_t,\cdots) = \mathcal P(o_t \mid i_t) \end{cases} {P(it+1∣it,⋯)=P(it+1∣it)P(ot∣it,⋯)=P(ot∣it)
对应的概率图结构表示如下:
从空间角度的随机变量从有限到无限,代表模型有高斯过程( Gaussian Process \text{Gaussian Process} Gaussian Process),准确的说,高斯过程是联合正态分布的无限维的广义延伸,主要应用在高维的非线性回归任务中:
由于连续域中的片段是无法划分完的,因此仅示例
N N N个重要片段。
后续补充:狄利克雷过程~
{ ξ t } t ∈ T = { ξ t 1 , ξ t 2 , ⋯ , ξ t N } ⏟ N 个重要片段 { ξ t 1 ∼ N ( μ t 1 , Σ t 1 ) ξ t 2 ∼ N ( μ t 2 , Σ t 2 ) ⋯ ξ t N ∼ N ( μ t N , Σ t N ) \left\{\xi_t\right\}_{t \in \mathcal T} = \underbrace{\{\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_{N}}\}}_{N个重要片段} \quad \begin{cases} \xi_{t_1} \sim \mathcal N(\mu_{t_1},\Sigma_{t_1}) \\ \xi_{t_2} \sim \mathcal N(\mu_{t_2},\Sigma_{t_2}) \\ \cdots \\ \xi_{t_N} \sim \mathcal N(\mu_{t_N},\Sigma_{t_N}) \\ \end{cases} {ξt}t∈T=N个重要片段 {ξt1,ξt2,⋯,ξtN}⎩ ⎨ ⎧ξt1∼N(μt1,Σt1)ξt2∼N(μt2,Σt2)⋯ξtN∼N(μtN,ΣtN)
以隐狄利克雷分配( Latent Dirichlet Allocation,LDA \text{Latent Dirichlet Allocation,LDA} Latent Dirichlet Allocation,LDA)为代表的 Mixed Memership Model \text{Mixed Memership Model} Mixed Memership Model。
以因子分析( Factorial Analysis,FA \text{Factorial Analysis,FA} Factorial Analysis,FA)为代表的因子模型( Factorial Model \text{Factorial Model} Factorial Model),其他模型有概率性主成分分析( Probabilistic Principal Component Analysis,P-PCA \text{Probabilistic Principal Component Analysis,P-PCA} Probabilistic Principal Component Analysis,P-PCA)等。
后续模型就是概率图模型与深度学习相结合的概率生成模型——深度生成模型。
其中
v T R ⋅ v ; h T S ⋅ h ; v T W ⋅ h v^T \mathcal R \cdot v;h^T\mathcal S \cdot h;v^T\mathcal W \cdot h vTR⋅v;hTS⋅h;vTW⋅h分别表示包含边相关联结点之间的能量表达;
b T v ; c T h b^Tv;c^Th bTv;cTh分别表示各结点内部的能量表达(
b , c b,c b,c可看作偏置信息)
和玻尔兹曼机相比,受限玻尔兹曼机隐变量、观测变量内部各随机变量相互独立。
由于
Sigmoid \text{Sigmoid} Sigmoid信念网络是有向图模型,因而可以通过结点之间的因果关系对模型进行表示。
相关参考:
生成模型2-监督VS非监督