基于机器学习的文本自动分类技术[1]

今天看了一些关于文本信息自动分类的文章,感触颇多。。。。

找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Italy。在学习的同时,做了一下翻译工作:-),以便和我一样对这个感兴趣的人一起学习,研究。。。。

翻译工作从今天开始进行,预计每天翻译至少一段(这篇论文有59页)。。。。有志同道合的可以一起合作翻译,呵呵!

好了,下面是今天的成果:

Machine Learning in Automated Text Categorization

Fabrizio Sebastiani

Consiglio Nazionaledelle Ricerche , Italy

 

 

将文本信息按预先指定的类别归类的技术可以追溯到上世纪60年代。不过,在最近的10年里,由于文本信息数字化而带来的海量数据,导致我们不得不将这些信息进行分类。由此,文本信息的自动分类得到了广泛的关注和快速的发展。

一些研究表明,机器学习技术解决这个问题是较为有效的方法:通过一种广义的诱导学习建立相应的自动分类器,形成预先文档信息的一个或多个特征的分类集合。基于机器学习的分类方式在分类效果和灵活性上都比之前基于知识工程和专家系统(通过某个领域里的专家人为地定义分类器)的文本分类模式有所突破,大量节省了专家人力的投入,可以很方便地用于各种不同的领域。在本论文中,我们将分析基于机器学习的自动文本分类处理中的主要技术与关键问题:文本信息的描述,分类器的构造以及分类结果的评估。

 

主题描述:H.3.1[Information storage and retrieval]:Content analysis and indexing— Indexing methods; H.3.3 [Information storage and retrieval]: Information search and  retrieval—Information filtering;H.3.3 [Information storage and retrieval]: Systems an- d software—Performance evaluation (efficiency and efficiectiveness); I.2.3 [Artificial

Intelligence]:Learning—Induction

术语:算法,实验;理论

关键词:机器学习;文本分类

 

 

 

 

你可能感兴趣的:(工作,算法,search,文档,performance,methods)