中文文本分类流程

中文文本分类中使用较多的特征抽取方法包括文档频率DF、互信息MI、信息增益IG和CHI等。


文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。

1、预处理,包括分词和停用词的移除。

2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将特征词低于该阈值的词条移除,构成特征库。

3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。

4、训练模块生成分类模型,分类模块根据分类模型对测试文本的类别做出测试。


每个特征在一篇文章中的权值计算方法时TFIDF,特征向量中的值即为各特征的TFIDF值。

你可能感兴趣的:(测试,文档)