数据挖掘 文本分类(一) 综述

 

            本学期上了北邮王晓茹老师的数据仓库与数据挖掘课程,实验一便是数据挖掘入门级的实验:文本分类。第一次自己写代码花了很长时间终于把实验做完了,在这里记录一下。

           一, 先简单说下实验的工具和环境。

            代码环境:Python2.7

                             Python学习建议廖雪峰老师的网站:http://www.liaoxuefeng.com

            分词工具:中科院张华平博士的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

                             链接:http://ictclas.nlpir.org/

            中文语料库:搜狗中文语料库

                             链接:http://www.sogou.com/labs/dl/c.html

            文本训练工具和测试工具:台湾大学林智仁(Lin Chih-Jen)等开发设计的lib-svm

         

          二,介绍一下实验过程

               按照老师的要求,最好自己写爬虫代码,爬回20000篇确定分类的文章做实验。只不过本人代码能力有限,没有自己爬,用的搜狗中文语料库。   不过也看了几篇爬虫的教程,觉得写得挺好的,推荐:http://blog.csdn.net/wxg694175346/article/category/1418998

               好,我们现在开始实验过程,首先搜狗中文语料库是已经分好的类,我们把每一类的文章都一分为二,一类为训练集,一类为测试集。所谓训练集,既把这部分文章通过处理,提取出能代表这类文章的特征,然后利用这些特征去判断测试集的文章属于哪一类,由于测试集的每一篇文章属于某类是已知的,我们就可以根据真实情况统计分类的正确率和召回率啦。数据挖掘 文本分类(一) 综述_第1张图片

 注:上图来自北邮2013级某学长实验报告,报告人的名字老师没有提供,感谢学长。

               有了语料库,接下来就是数据预处理了。包括:分词,取名词,去停用词,统计词频,计算chi(或者tf-idf)值,整理格式(主要是整理成libsvm接口认可的格式)。

今天先到这里,有时间继续哈。

贴一下学长的流程图:

               数据挖掘 文本分类(一) 综述_第2张图片

 

你可能感兴趣的:(大数据)