【z】文本挖掘研究进展及趋势

 文本挖掘属于数据挖掘这一交叉学科的一个具体领域,文本挖掘的主要任务是分析文档数据库的内容,发现文档数据集中概念、文档之间的相互关系和相互作用,为用户提供相关知识和信息;此外,文本挖掘处理的是非结构化的文本信息,而不是数据挖掘中采用的结构化数据信息。文本挖掘技术就成为处理大量的文本信息的必然选择。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。直观地说,当数据挖掘的对象完全由文本数据类型组成时,这个过程就称为文本挖掘。它超出了基于关键字和相似度的信息检索的范畴,对文本信息的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系,用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非结构化文本数据中发现知识。
    与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,文本挖掘所研究的文本数据库,由来自各种数据源的大量文档组成,包括新闻文章、研究论文、书籍、期刊、电子邮件消息、Web页面等。这些文档可能包含标题、作者、出版日期、长度等结构化数据,也可能包含摘要和内容等非结构化的文本成分[18] ,而且这些文档的内容是人类所使用的自然语言,计算机很难处理其语义。因此传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,人们提出文本挖掘的方法进行不同的文档比较,以及文档重要性和相关性排列,或找出多文档的模式或趋势等分析 。
    文本挖掘属于新兴的前沿领域,国内对此研究相对较少,我们于2005年3月3日在中国期刊网(CNKI)以文本挖掘为检索词只检索到96篇文章。目前国内外学者主要在文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等方面进行了研究,中国学者在中文分词等领域取得了一些进展。文本挖掘可以对上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用文档进行趋势预测等。可以说关于文本挖掘的研究只是刚刚开始,诸多问题等待研究、解决。我们列出一些具有挑战性的问题,主要涉及到以下几个方面。
(1)很多文本数据挖掘技术是基于有指导学习的,所以往往需要利用大量的有标注的数据。现实当中标注数据所需的代价往往是很高的。怎样以少量的标注数据学习达到用大量的标注数据学习时所能达到的效果是需要解决的问题。主动学习(Active Learning)、自助学习(Bootstrapping)等许多方法被提出,但这个问题有待进一步的研究。
(2)怎样进行领域适应(Domain Adaptation)也是亟待解决的问题。数据挖掘常常能够建立一个领域的模型,进行有效的处理,但这个模型不容易运用到其它领域。如何解决这个问题是数据挖掘能否推广的关键。
(3)怎样用更丰富的知识表现来描述文本也是需要考虑的。把文本看作是“词包”是有局限性的,但在很多应用中,现在还只能做到这步。更丰富的知识表现用起来往往并不是更有效。其原因是有待探讨的。因为基于现有的知识表现的数据挖掘并不能达到万全令人满意的地步,而人对文本数据的理解与认识是更丰富,更深入的,怎样能做到接近人的处理水平是一个重要挑战。
(4)更强的学习算法的研究也是一个重要的课题。怎样能更快更准确地学习是我们需要不断研究解决的课题。
(5)可以说传统的、基本的自然语言处理,如句法分析,还没有广泛地应用到文本数据挖掘上来。怎样提高自然语言处理的精度,或者在已有的自然语言处理的精度下,进行高精度的文本数据挖掘是需要我们进一步研究的问题。

你可能感兴趣的:(【z】文本挖掘研究进展及趋势)