SVM&TSVM&LSA(I)→PLSA(I)→LDA→HDP

SVM&TSVM&LSA(I)→PLSA(I)→LDA→HDP

SVM(用于监督学习)

  • 参考文章:SVM(支持向量机)详解
    通俗来讲,SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
    高维空间的小样本学习。SVM解决问题的时候,和样本的维数是无关的。寻求经验风险与置信风险的和最小,即结构风险最小。
    但是当某些点出现间隔比1小的情况时(这些点也叫离群点),意味着我们放弃了对这些点的精确分类,而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处,那就是使分类面不必向这些点的方向移动,因而可以得到更大的几何间隔(在低维空间看来,分类边界也更平滑)。把损失加入到目标函数里的时候,就需要一个惩罚因子(cost,也就是libSVM的诸多参数中的C)。
  • 参考文章:SVM入门(十)将SVM用于多类分类
    DAG SVM方法,如果类别数是k,则只调用k-1个,分类速度飞快,且没有分类重叠和不可分类现象。缺点:对下面每一层的分类器都存在错误向下累积的现象。
  • 更多参考文章
  • 直推式SVM(TSVM)参考文章:S3VM和TSVM的不同
    半监督学习,因为学习一个定义在整个输入空间直推式规则,也称为半监督SVM(S3VM)。

PLSA

  • 参考文章:PLSA详解
    PLSA中关心的就是每篇文章中的每个主题的分布,和每个主题下单词的分布。
    EM的目的就是为了找出具有隐式变量的最大似然度的解。拉格朗日余项的作用。
    参考EM算法原理详解与高斯混合模型
  • 参考文章:TopicModel主题模型 - Unigram、LSA、PLSA主题模型详解
    LSA(I)→PLSA(I)→LDA→HDP
    PLSA样本随机,参数虽未知但固定,属于频率派思想;LDA样本固定,参数未知但不固定,是个随机变量,服从一定的分布,LDA属于贝叶斯派思想。
    PLSA是一种词袋方法。
    EM算法不保证一定能找到全局最优值。

  • 参考文章:LDA-math-认识Beta/Dirichlet分布(1)(2)(3)√
    P(p|m1,m2)=pm1(1p)m210tm1(1t)m2dt 10tm1(1t)m2dt 10tm1(1t)m2dt=1m1+110(1t)m2d(tm1+1)=m2m1+110tm1+1(1t)m21dt=m2(m21)(m1+1)(m1+2)10tm1+2(1t)m22dt==m2(m21)(m22)1(m1+1)(m1+2)(m1+m2)10tm1+m2(1t)0dt=m2! m1!(m1+m2+1)!
    因此: P(p|m1,m2)=(m1+m2+1)!m2! m1!pm1(1p)m2=Γ(m1+m2+2)Γ(m1+1)Γ(m2+1)pm1(1p)m2=Beta(p|m1+1,m2+1)
    关于 (n2k11,k21) (n2k11,k21)=(n2k11)(n2(k11)k21)=(n2)!(k11)! (n2k1+1)!(n2k1+1)!(k21)! (n2k1+1k2+1)!=(n2)!(k11)! (k21)! (nk1k2)!
    Beta 分布 Γ(α+β)Γ(α)Γ(β)xα1(1x)β1 ,3维Dirichlet分布 Dir(x1,x2,x3|α1,α2,α3)=Γ(α1+α2+α3)Γ(α1)Γ(α2)Γ(α3)xα111xα212xα313

  • 参考文章:机器学习的数学基础(1)–Dirichlet分布

    伽玛函数(Gamma Function)作为阶乘的延拓,是定义在复数范围内的亚纯函数,通常写成Γ(x)。当函数的变量是正整数时,函数的值就是前一个整数的阶乘,或者说Γ(n+1)=n!。
    贝叶斯参数估计的基本过程是:先验分布 + 数据的知识 = 后验分布。
    Beta-Binomial共轭,共轭的意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式。
    Multinomial分布的先验分布为Dirichlet分布。Beta(p|k,n−k+1)+Count(m1,m2)=Beta(p|k+m1,n−k+1+m2)。

  • 参考文章: 我爱自然语言处理

LSA

  • 参考文章:TopicModel主题模型 - LSA(隐性语义分析)模型和其实现的早期方法SVD
    传统向量空间模型使用精确的词匹配,即精确匹配用户输入的词与向量空间中存在的词。
    LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index)。LSA的基本思想就是把高维的文档降到低维空间。将文档表示到潜在语义空间的过程就是SVD奇异值分解和降维的过程。相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。LSA的步骤:分析文档集合,建立Term-Document矩阵;对Term-Document矩阵进行奇异值分解;对SVD分解后的矩阵进行降维,也就是奇异值分解一节所提到的低阶近似;使用降维后的矩阵构建潜在语义空间,或重建Term-Document矩阵。

LDA

  • 参考文章:TopicModel主题模型 - LDA详解
    它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。LDA是一种典型的词袋模型。
    频率派与贝叶斯派各自不同的思考方式:频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布;而贝叶斯派的观点则截然相反,他们认为待估计的参数是随机变量,服从一定的分布,而样本X是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。
    LDA在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验。每篇文章下的Topic的主题分布是一个从参数为 α 的Dirichlet先验分布中采样得到的Multinomial分布,每个Topic下的词分布是一个从参数为 β 的Dirichlet先验分布中采样得到的Multinomial分布。
    LDA真的只是pLSA的贝叶斯版本。两者都要根据文档去推断其主题分布和词语分布,只是用的参数推断方法不同,在PLSA中用极大似然估计的思想去推断两未知的固定参数,而LDA则把这两参数弄成随机变量,且加入dirichlet先验。
  • 参考文章:概率论复习 – ML vs. MAP vs. Bayesian Inference
    极大后验估计(MAP)中相对于最大似然估计,多了log p(θ),也就是先验的影响。
    参数估计(2):极大似然,最大后验,贝叶斯推断以及最大熵
    最大熵估计等同于对以下形式的模型的MLE: P(x)=eλf(x)Z(λ) ,总会有一个f(x)使得p(x)接近样本的真实分布。
    《Gibbs Sampling for the UniniTiated》笔记
    Gibbs采样是Markov Chain Monte Carlo(蒙特卡洛方法)的一种。所谓的蒙特卡洛方法就是模拟统计的方法。Gibbs Sampling每次在确定下一个状态的时候,并不是一次性地确定所有维度上的值,而是选取一个维度,通过剩下的k-1个维度来确定这个维度的值。当我们想得到文档j的新标签时,暂时地移除所有当前文档的信息(包括词数目和标签信息),然后通过余下的信息得出 Lj=0 的条件概率和 Lj=1 的条件概率,最后根据这俩概率的相对比例采样得到新的 Lj(t+1) 。对 θ 的采样也是如此。步骤:写成联合分布、先验选择和简化联合分布、将隐含变量π积出、构建Gibbs Sampler、对文档标签L采样、对 θ 采样。
    每次新的标签 Lj 产生的时候,都会对接下来的文档标签数目统计产生影响,这就是Gibbs采样器的本质。如果是多项式分布抽一个样本,对其积分就可以让Gibbs采样器更简单。反之,如果一次从同一个多项式分布中抽取多个样本,即使可以积分,形式也会非常复杂。
    从Gibbs采样器产生值:Gibbs采样在每个循环都会产生变量的值,在理论上,变量 Zi 可以通过 T 次获得的值近似: 1TTt=1z(t)i (1) 。实际中一般不直接这样用。根据选择初始值的不同,Gibbs采样器需要一定的迭代次数才能保证点 <zt1,zt2,,ztk> 都是从马尔科夫链的平稳分布中生成的(换句话说就是马尔科夫链需要一定的次数才能收敛)。为了避免在这之前的估计对结果产生的影响,一般都丢弃 t<B 之前的结果,之前的阶段就被称为“burn-in”阶段,所以取平均值的时候是从 B+1 次到 T 次的。式(1)中近似假设 Zi 的那些样本都是相互独立的,而事实上不是,因为新的点都是从前面的点所给的条件所生成的。这个问题被称作自相关。为了避免这个问题,很多Gibbs采样在实现的时候取每L个值的平均值,这个L被称为lag。
    深度学习读书笔记之RBM(限制波尔兹曼机)
    马尔科夫蒙特卡罗(MCMC)方法的基本思想:计算积分时,没有办法对区间内的所有x的取值都算一遍,可以将h(x)分解为某个函数f(x)和一个定义在(a, b)上的概率密度函数p(x)的乘积。这样一来,原积分就等同于f(x)在p(x)这个分布上的均值(期望)。这时,如果我们从分布p(x)上采集大量的样本,这些样本符合分布p(x),可以通过这些样本来逼近这个均值。

HDP

  • 参考文章:HIERARCHICAL DIRICHLET PROCESS
    HDP算是对LDA这类型模型的非参化。事实上,简单的说我们首先从一个 DP(γ,H) 中抽取 G0 ,这样我们的 G0 不再是预先给定的,然后我们从 DP(α0,G0) 中再抽取 θi

你可能感兴趣的:(方法模型)