贝叶斯规则和LDA主题模型

共轭先验和共轭分布

P( θ ) 先验分布、P( θ|X )后验分布、P(X | θ )似然函数。
后验分布=先验分布*似然函数/P(X)
使得先验分布和后验分布具有相同的形式,称他们是共轭分布;先验分布称为相应似然函数的共轭先验。
似然函数是关于统计模型中的参数的函数,表示模型参数的似然性,用于在已知观测所得到的结果时,对模型的参数进行估计。

Beta分布是二项分布的共轭先验分布;狄利克雷分布是多项式分布的共轭先验分布。

二项分布的似然函数(n次独立的伯努利试验): L= ps(1p)f

Beta中先验分布为X~Beta( α , β ) ,后验分布为X~Beta( α +s, β +f),超参数变了,对于新增的观测值,后验分布又可作为先验分布来计算,乘以似然函数得到修正后的新后验,通过求后验均值得到参数的估计。这种序列方法非常适合实时学习场景。

当拥有无限数据量时(beta分布中s和f都趋向于无穷,狄利克雷分布中m趋向于无穷),贝叶斯方法和频率方法得到的参数估计是一致的;在有限数据量下,贝叶斯的参数后验均值介于先验均值和频率方法的估计参数。

多项分布的似然函数(K个状态,概率分布为 μ=(μ1,μ2,..,μk ) :
L= Kk=1μmkkmk 是第k个状态的个数。

kμk=1,

狄利克雷分布
Dir( μ|α)=Γ(α0)Γ(α1)..Γ(αk)Kk=1μαk1k

α0=Kk=1αk
其中, αk1=mk 为狄利克雷分布的超参数, 伪计数。

和Beta分布类似,狄利克雷分布是它所对应的后验多项分布的参数 μ 的分布。

LDA主题模型

w是可被观测的词,M表示doc数,K表示topic数,N表示一个文档中的词数。
θ 为一个M*K的矩阵 , θm 表示第m篇doc的主题分布。
φ 为一个K*V的矩阵, φk 表示编号k的主题对应的词分布。
α 是每篇文档的主题分布对应的先验狄利克雷分布的参数;
β 是每个主题的词分布对应的先验狄利克雷分布的参数。

生成文档

对于每篇文档中的每个词位置 Wi,j,iϵ[1,M],jϵ[1,N] :

选择一个topic主题从 zi,jMultinomial(θi) ;

选择一个word词从 wi,jMultinomial(φzi,j) ;

  1. αθZm,n
    在生成第m篇文档时,根据第m篇文档的主题分布 θm (该向量为非负归一化向量)生成文档第n个词的主题编号 Zm,n
  2. βφkwm,n|k=Zm,n
    挑选编号为 Zm,n 的主题,生成word : wm,n

αβ
θ 是文档级别变量,每个文档对应一个,每个文档产生各个主题的概率不同。
z和w都是单词级别变量。
LDA模型中主要是学习参数 αβ 。把w当做观察变量,通过EM算法学习出这两个参数。

你可能感兴趣的:(机器学习)