目录[隐藏]
|
自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。
所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分。
文本分类是指按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档。
文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程.当前的文本割的最小单位,在文本分类中语义元是词。
文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程.2O世纪9O年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类.人工分类非常费时,效率非常低.9O年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.
文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(Knowledge Engineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。
1971 年,Rocchio 提出了在用户查询中不断通过用户的反馈来修正类权重向量,来构成简单的线性分类器。Mark vanUden、Mun 等给出了其他的一些修改权重的方法。1979 年,van Rijsbergen对信息检索领域的研究做了系统的总结,里面关于信息检索的一些概念,如向量空间模型(Vector Space Model)和评估标准如准确率(Precision)、回召率(Recall),后来被陆续地引入文本分类中,文中还重点地讨论了信息检索的概率模型,而后来的文本分类研究大多数是建立在概率模型的基础上。
1992 年,Lewis 在他的博士论文《Representation and Learning in Information Retrieval》中系统地介绍了文本分类系统实现方法的各个细节, 并且在自己建立的数据集Reuters22173(后来去掉一些重复的文本修订为Reuters21578数据集)上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面作了大量的工作,Yiming Yang 对各种特征选择方法,包括信息增益(Information Gain)、互信息(Mutual Information)、 统计量等,从实验上进行了分析和比较。她在1997年还对文献上报告的几乎所有的文本分类方法进行了一次大阅兵,在公开数据集Reuters21578和OHSUMED上比较了各个分类器的性能,对后来的研究起到了重要的参考作用。
1995 年,Vipnik 基于统计理论提出了支持矢量机(Support Vector Machine)方法,基本思想是寻找最优的高维分类超平面。由于它以成熟的小样本统计理论作为基石,因而在机器学习领域受到广泛的重视。Thorsten Joachims第一次将线性核函数的支持矢量机用于文本分类,与传统的算法相比,支持矢量机在分类性能上有了非常大的提高,并且在不同的数据集上显示了算法的鲁棒性。至今,支持矢量机的理论和应用仍是研究的热点。
在支持矢量机出现的同时,1995年及其后,以Yoav Freund 和Robert E. Schapire发表的关于AdaBoost的论文为标志,机器学习算法的研究出现了另一个高峰。RobertE.Schapire从理论和试验上给出AdaBoost算法框架的合理性。其后的研究者在这个框架下给出了许多的类似的Boosting 算法,比较有代表性的有Real AdaBoost,Gentle Boost,LogitBoost等。这些Boosting 算法均己被应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。
总而言之,尽管机器学习理论对于文本分类的研究起了不可低估的作用,在这之前文本分类的研究曾一度处于低潮,但是文本分类的实际应用和它自身的固有的特性给机器学习提出新的挑战,这使得文本分类的研究仍是信息处理领域一个开放的、重要的研究方向。
相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。比较有影响力的当属中国科学院计算所开发的汉语词法分析系统ICTCLAS,现已公开发布供中文文本分类的研究使用。
在很长一段时间内,中文文本分类的研究没有公开的数据集,使得分类算法难以比较。现在一般采用的中文测试集有:北京大学建立的人民日报语料库、清华大学建立的现代汉语语料库等。
其实一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程和英文文本分类相同,也就是随后的文本分类过程独立于语种。因此,当前的中文文本分类主要集中在如何利用中文本身的一些特征来更好地表示文本样本。
对于中文文本而言,因为词与词之间没有明显的切分标志,所以首先需要对中文文本进行分词.现在的分词方法虽然有多种,但归纳起来不外乎两种:一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分.另一类是理解式分词法,即利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理库.后者可谓是理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词系统主要采用机械分词法,或者介于二者之间的某种分词方法。
计算机并不具有人类的智慧,不能读懂文字,所以必须把文本转化成计算机能够理解的形式,即进行文本表示.目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示:(w1,w2,⋯wn),其中wi为第i个特征项的权重,一般选取词作为特征项,权重用词频表示.词频分为绝对词频和相对词频.绝对词频,即用词在文本中出现的频率表示文本;相对词频,即为归一化的词频,其计算方法主要运用TF-IDF公式。
除了向量空间模型外,还有概率模型.概率模型乜 考虑词与词的相关性,把文本集中的文档分为相关文档和无关文档.以数学理论中的概率论为原理,通过赋予特征词某个概率值来表示这些词在相关文档和无关文档之间出现的概率,然后计算文档间相关的概率,系统据此概率做出决策。
由于文本数据的半结构化甚至于无结构化的特点,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维甚至于几十万维.寻求一种有效的特征降维方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中至关重要的问题.降维技术总的可以分为两类:特征选择和特征抽取。
研究文本自动分类的核心问题是如何构造分类函数(分类器),分类函数需要通过某种算法进行学习获得.分类是重要的数据挖掘方法,在文本分类中,几乎存在着和一般分类同样多的方法.在众多的文本分类算法中,重点介绍了Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法。