NLP--THUCTC: 一个高效的中文文本分类工具包

项目介绍

THUCTC(THU Chinese Text
Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。

作者

Maosong Sun(孙茂松,导师),Jingyang Li(李景阳,博士生),Zhipeng Guo(郭志芃,本科生),Yu Zhao(赵宇,博士生),Yabin Zheng(郑亚斌,博士生),Xiance Si(司宪策,博士生),Zhiyuan Liu(刘知远,助理教授).

项目地址

http://thuctc.thunlp.org/

你可能感兴趣的:(NLP)