lda主题模型的可视化_LDA主题模型和大家聊一聊,吧友们也可以发表下想法

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

文本挖掘是大数据应用的十分关键的技术之一,对网络上海量的User generatedContent进行商业分析大多离不开对于文本的处理。对文本进行分析分为有监督的方法和无监督的方法。这里涉及了两个概念,“有监督”和“无监督”或许让对数据挖掘没有太深入基础的朋友们有点恍惚,说简单了,有监督方法就是用户预先给出一些学习的实例,对文本内容进行标注,然后计算机程序通过分析”人”对于文本的标注结果去模仿人的行为对文本内容进行标注分析。而无监督的方法对应的就是计算机自行地通过一些预先假定的逻辑关系去发掘文本数据中的统计结构,然后对文本中的数据进行解析。因为文本数据变化多样,人工标注文本内容耗时耗力,所以更多的自然语言处理的相关学者更倾向于无监督的方法对文本内容进行标注处理。对自然语言处理有所了解的朋友们或多或少听说过主题模型这个概念,主题模型就是无监督方法里面的一类非常强大的文本处理方法。

主题模型这个名字听起来很土,因此我开始也是小看了它。最早接触的时候,是在一篇中文的期刊上面,那会才接触自然语言处理(NLP, NaturalLanguage Processing)不久,觉得这个估计是那种类似于构建个主题词表然后按照词表去分类检索文档的一类大众垃圾方法(当年觉得图书馆的阿姨平时用的就是这个东西)。而真正了解下来以后,却着实把我吓了一跳。首先,主题模型并不是一个方法,而是一类方法,也就是说,主题模型是个大概念,它的发展是个循序渐进的过程。主题模型最早来自于Papadimitriou在1998年的一个文章《Latent SemanticIndexing: A probabilistic analysis》,其提出了LSI(LatentSemantic Indexing)主题模型的概念[1],之后Holfmann Thomas在其基础上又发展了pSLI(probabilistic-LatentSemantic Indexing)主题模型[2]。尽管这些模型比较好实现,但是具有很大局限性,于是Blei等人在之前的基础上发扬光大了最终的LDA主题模型[3],也就是现在人们通常讨论所指的主题模型。由于LDA主题模型是最后提出来的,所以它也是最重要的,同时也是最恶心最难理解的一个模型。光把LDA翻译过来听名字就够吓尿了,叫“隐含狄利克雷分布”(Latent Dirichletallocation)。好吧,光“狄利克雷分布”就够了,不是数学系的基本上不知道这是什么神秘武器,再加上个“隐含”就更唬人了。我认识的一位前辈在CMU搞了几年博士,学自然语言处理,最后一问总共就学了LDA这么一个玩意儿。尽管如此,LDA主题模型却在自然语言处理中变成一种十分广泛的应用,这一套方法难理解,却很好用,好用就好用在它的无监督性。也就是说,在用这一套机器学习的方法时,你根本不需要给它提供任何语言标注实例,只需要提供几个简单的参数即可。

我们都知道,自然语言处理的应用往往是领域依赖性很强的。这就要求,如果用有监督的方法对文本进行标注分析,那么针对不同领域的文本就要提供不同人工标注的样例去让计算机学习。这样的系统,可以说是很烂的,我们不应该给数据分析师太多的负担!!!LDA主题模型由于是无监督的,提供文本标注样例这个过程就省去了,每次只需要人为设定好参数,数据分析师就可以睡大觉等结果去了。基于此,可以说,未来自然语言处理的理论研究方向就在于主题模型,而LDA模型则是其中基本假设最少,且应用范围最广泛的一种具体的实现。在LDA模型的基础上,根据具体的应用,又有很多学者不断地强化语言应用背景的假设条件丰富该模型的内涵,增强其适用性。最近发表在Management Science上面的一篇文章就对LDA主题模型进行了很好的改进,将LDA模型发展为Sent-LDA模型[4],解决了分析上市公司财务报表公司风险的问题。

你可能感兴趣的:(lda主题模型的可视化)