文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高;反之文件相似程度就低。文本相似度的精确计算问题是进行信息处理的关键。
在如今信息技术飞速发展的互联网时代,文本相似度计算的应用比较广泛。数十亿的网页,海量的信息充实着人们的知识库,在给人们带来方便的同时也存在不少的问题。人们在享受这些资源的同时也不得不花大量的时间和精力来对其筛选和辨别,如果没有有效的组织和提取信息的方式,将难以获取到自己所需要的资源。文本相似度分析是一项解决该问题的关键且有实用价值的技术。国内外有很多学者在研究文本相似度计算为问题并且已经有很多文档相似度模型被提出并得到广泛应用,如字符串相似度、文档结构相似度以及统计相似度等模型。Nirenburg[1] 提出了串匹配的方法;Lambros[2]等提出同时依据句子的表层结构和内容计算相似度的方法;Gerard Salton和McGill[3] [4]提出的向量空间模型(VectorSpace Model,VSM),它的思想是把文档简化为以特征项的权重为分量的想来那个表示,通过词频统计与向量降维处理来计算相似度;挪威Agder大学的Vladimir Oleshchuk[5]等人提出基于Ontology(本体)的文本相似度比较方法,将本体论引入了文本相似度计算,它能计算文本的语义相似度;此外还有学者在研究句子间相似度的计算,如哥伦比亚大学的CarbonellJ等人提出最大边缘相关的MMR(Maximal Marginal Relevance)方法;学者Chris HQDing[6]采用隐性语义搜索模型LSI(Latent Semantic Indexing)方法。国内对汉语句子的相似度的计算主要是以词语为基本对象的,首先计算词语间相似度,然后根据词语间的的相似度利用一定的算法确定文本之间的相似度,主要有基于词语特征和基于语义特征及句法分析特征的计算方法。由中国的学者王国胜等提出的基于汉明距离文本相似度计算[7]并引入了汉明码概念,它避开了传统的向量空间模型,文本中词语含义通过它们码字形式所代表的信息来表示;学者霍华[8]等提出的基于压缩矩阵矢量相乘的文本相似度计算方法,利用压缩稀疏矩阵矢量空间存储数据的优点,大大减少了存储空间以及数据量,使得运行效率显著提高;李晓光、于戈[9]提出的基于混合语言模型的文档相似度计算模型。基于哈希算法的基本思想是将每篇文档映射为哈希空间中的一个点,点之间的距离可以代表原始文本之间的相似度。基于LDA主题模型的文本相似度计算方法,该方法挖掘隐藏在文本内的不同主题词之间的关系,得到文本的主题分布并以此分布来计算文本之间的相似度。
但是目前仍存在问题:比如上述算法主要是英文文本相似度的一些算法,直接应用于中文效果不好,其原因主要是因为中文和英文语言特性的差异;目前应用最广泛的还是基于传统向量空间模型的文本相似度算法,这类算法操作复杂,运算量大且无法体现文本在词序及结构上的相似性;好的相似度计算应该准确和高效,尽可能的接近人工的方法,能够理解文章所要表达的意思,同时在处理海量文本数据时候,还能够尽可能的高效。
1870年俄国数学家markov提出来马尔可夫模型,国内的研究大多起始于五、六十年代,王梓坤院士在这方面做出了非常重大的贡献,他先后发表了大量著作和论文[10],还翻译了国外关于马尔科夫理论的专著。隐马尔可夫模型(Hidden Markov Model ,HMM)是对马尔科夫模型的一种扩充,在这个模型中,事物的状态表现不明显,不能很直观的观测到,需要做一些转换,可以通过状态序列预测到,比如:睡眠的状态可以分为“醒觉”、“快速眼动”、“睡眠一期”……,他们便是“状态”;而可以观察到的则是这些状态中的各种生理参数表现。这些表现便构成观察。
对于隐马尔科夫模型来说,最重要的就是转移概率矩阵和观察概率矩阵。隐马尔科夫的应用非常广泛,从国内来看,邢永康,马少平[11]将马尔可夫模型用于聚类,提出了一种新的基于马尔科夫模型的动态聚类方法;许欢庆,王永成等[12]他们将隐马尔科夫用于Web网页预期;吕栋和李建华[13]将隐马尔科夫模型应用于网络日志审计。
隐马尔科夫能解决的三个问题:
解决的问题 |
解决的方法 |
评估问题 |
前向-后向算法 |
解码问题 |
Viterbi算法 |
学习问题 |
Baum-Welch估计算法 |
目前较为主流的文本相似度计算方法是基于VSM的TF-IDF方法。它是一种基于统计的文本相似度计算方法,它使用词频信息来进行相似度的计算。优点是速度快,效率高。但是,它忽略了文本中的词序问题。而隐马尔科夫模型中的状态转移矩阵,能够得出上一个单词为并且下一个单词为的概率,使其能够反映词序的变化。因此本文尝试着结合隐马尔科夫模型进行相似度计算。
文本相似度的研究在推动计算机智能方面都起着巨大的作用,经过众多学者的研究,要提高信息搜索的正确率和高效性,离不开一个好的文本相似度算法。文本相似度的研究意义在于,提出更好的文本相似度算法,在效率和正确率方面有进一步的提高,更好的发挥相似度基础性作用。自然语言含有丰富的含义,其中很重要一部分就是人们要表达的感情等因素,这是基于人类生物学认知上的理解,而计算机只是固件,之所以能够运行,完全是依靠人类按照自己设计的程序去运行,是没有感情和思考的,只能按照固定的程序去运行,比较死板,虽然现在人工智能有了很大发展,但是和人类的正常思维还是有很大的差距,所以,计算机对生物学理解还是很困难的,我们现在设计的文本相似度算法,就是能够让计算机按照这种规则去进行文本的对比。文本相似度是两个文本之间比较的结果,目前,中文文本相似度是个研究热点,很多学者对其进行了大量的研究,另外还有基于属性论的方法,基于海明码距离的计算方法,基于数字正文的重构方法等。
自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型,这个数学模型就是自然语言处理中常说的统计语言模型(Statistical LanguageModel),它是今天自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。互联网的普遍应用导致网上的文本数量成指数级增长,因此如何自动处理这些海量联机文本信息成为目前重要的研究课题。自动文本信息抽取是文本信息处理的一个重要环节。文本信息抽取(text informationextraction)是指从文本中自动抽取相关的或特定类型的信息。目前文本信息抽取模型主要有三种:基于词典的抽取模型,基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。利用HMM进行文本信息抽取是一种基于统计机器学习的信息抽取方法。HMM易于建立,不需大规模的词典集与规则集,适应性好,抽取精度较高,除此以外,HMM还用于中文分词的建立和词性标注,因而得到研究者的关注。HMM中有三个典型问题。第一,已知模型参数,计算某一给定可观察状态序列的概率。第二,根据可观察状态的序列找到一个最可能的隐藏状态序列。第三,根据观察到的序列集来找到一个最有可能的 HMM。目前隐马尔科夫模型结构在各个不同的领域中都有所应用。隐马尔科夫模型结构无论应用于哪一种服务,其核心原理始终不会发生变化,需要灵活变化的只是不同应用场合中所提供的参数,只要将实际参数输入到隐马尔科夫模型中就可以解决相应的问题,同时依据不同的应用,算法也可以方便的改动以适应实际需求。由此可见,隐马尔科夫模型的应用范围十分广泛。
参考文献及资料:
[1] NirenburgS,DomashnevC,GrannesDJ.Two approaehesto matehing in example-based maehine translation.In:Proeeedings of TMI-93,Kyoto,Japan,1993,7:47-57.
[2] LambrosC,Harris P,Stelios P.A Matehing Teehnique in Example-based Maehine Translation.In:ProeeedingsofCOLING94,1991.
[3] Salton G andMeGill.M,Introduetion to Modern Information Retrieval,NewYork:MeGraw一Hill,1983.
[4] Salton G and Chris B.Term Weighting Approaehes in Automatie Text.RetrievalInformation
Proeessing and Management,1988,24(5):513-52.
[5] VladimirO,Asle P.ontology Based Semantie Similarity Comparison of Doeuments,14thInternational Workshop on Database and ExPert SystemsAPPlieations,SePtember,2003:735-738.
[6] ChlisH.Q.Ding XiaofengHe,Hong yuan Zha,Ming Gu and Horst D.Simon,Amin-maxCut Algorithln for Graphpartitioning and DataClustering,IEEE,2001.
[7] 张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22.
[8] 霍华,冯博琴. 基于压缩稀疏矩阵矢量相乘的文本相似度计算[J].小型微型计算机系统,2005,26(06):988-990.
[9] 李晓光,于戈,王大玲. 基于混合语言模型的文档相似性计算模型[J]. 中文信息学报,2006,20(04):41-48.
[10] 王梓坤.生灭过程与马尔科夫链.科学出版社,1980.
[11] 邢永康,马少平.一种基于Markov链模型的动态聚类方法[J].计算机研究与展,2003,40(2):129-135.
[12] 许欢庆,王永成,孙强. 基于隐马尔可夫模型的Web网页预取[J].上海交通大学学报,2003,37(3):404-407.
[13] 吕栋,李建华. 基于隐马尔可夫模型的网络日志审计技术的研究[J].信息安全与通信保密,2004,03:32-34.
[14] Kennedy A, Inken D. Sentiment classification of movie reviewsusing contextual valence shifters. ComputationalIntelligence,2006,22(2):110-125P.
[15] S. Debnath, P. Mitra, N. Pal, and C. L. Giles. AutomaticIDentification of informative sections of web pages. TKDE,2005,17(9):1233-1246P.
[16] 金博,史彦军,滕弘飞.基于语义理解的文本相似度算法.大连理工大学学报,2005,45(2):
291-297.
[17] 秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报, 2004,30(6):905-910.
[18] 王子慕.一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究[D].吉林大学.2015.
[19] 黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864.
[20] 余刚,裴仰军,朱征宇等.基于词汇语义计算的文本相似度研究.计算机工程与设计, 2006,27(2):241-244.
[21] 张华平 ICTCLAS 汉语分词系统[DB/OL].http://ictclas.nlpir.org/,2015-01-30.
[22] 桑宇鹏.基于隐马尔科夫过程的Blog相似性分析方法研究[D].哈尔滨工程大学,2012.
[23] 石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报.2008(10).
[24]石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报.2009(12).
[25] 苏振魁.基于马尔科夫模型的文本相似度研究[D].大连理工大学,2007.
[26] Beeforman D,Berger A, Lafferty J.Statistical modelsfor text segmentation. Machine Learning, 1999, 34(1-3):177-210P.
[27] M. Collins. 2002.Discriminativetraining methods for hidden Markov models: Theory and experiments withperceptron algorithms.In Proceedings of the 2002 Conference on EmpiricalMethods in Natural Language Processing (EMNLP-02),Philadelphia,PA,July.
[28] Hassan and R. Mihalcea. 2011.Measuringsemantic relatedness using salient encyclopedic concepts. Artificial Intelligence,SpecialIssue.
[29] L.Zhao.Semantic similarity detectionin natural language documents.Master’s thesis,Clemson
University,2012.
[30] Croft,W.Bruce,and DavID J.Harper.1979.Usingprobabilistic models of document retrieval without relevance information. Journal of Documentation. 1996,35(4):285-295P.
[31] Karchin R, Hughey R:Weighting hiddenMarkov models for maximum discrimination Bioninf-
Ormatics1998,14:772-782P.
[32] Schapire RE, Singer Y.BoosTexter:Aboosting-based system for text categorization.Machine
Learing,2000,39(2-3):135-168P.
[33] 李旭.基于串匹配方法的文档复制检测系统研究[D].燕山:燕山大学.2005
[34] 史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57.
[35] 桓乐乐.基于马尔科夫模型词序因子的文本相似度研究[D].湖北工业大学,2012.
[36] 郭亚宁. 基于哈希编码的文本拷贝检测算法优化与实现[D].山东大学,2014.
[37]蒋巍. 基于位置敏感哈希的海量文本数据查询算法研究[J]. 科技通报,2013,10:70-72.