自动文本分类

文本自动分类

分类: 文本挖掘 自然语言处理 数据挖掘 机器学习   197人阅读  评论(5)  收藏  举报

使用机器学习方法 做文档的自动分类

套路:

1.根据每个文件 生成该文件的一个特征

2.根据特征 选择 分类器 进行文本分类

3.(可选)根据 2 步结果,调整参数/特征等


示例:

数据:搜狗文本分类语料库 精简版

分类器:朴素贝叶斯

编程语言:Python+nltk自然语言处理库+jieba分词库

[python]  view plain copy
  1. __author__ = 'LiFeiteng'  
  2. # -*- coding: utf-8 -*-  
  3. import os  
  4. import  jieba  
  5. import nltk  
  6.   
  7.   
  8. ## 由搜狗语料库 生成数据  
  9. folder_path = 'C:\LIFEITENG\SogouC.reduced\\Reduced'  
  10. #folder_path = 'C:\LIFEITENG\SogouC.mini\Sample'  
  11. folder_list = os.listdir(folder_path)  
  12. class_list = [] ##由于乱码等问题 仅以数字[0,1,...]来代表文件分类  
  13. nClass = 0  
  14. N = 100 #每类文件 最多取 100 个样本 70%train 30%test  
  15. train_set = []  
  16. test_set = []  
  17. all_words = {}  
  18. import time  
  19. process_times = [] ## 统计处理每个文件的时间  
  20. for i in range(len(folder_list)):  
  21.     new_folder_path = folder_path + '\\' + folder_list[i]  
  22.     files = os.listdir(new_folder_path)  
  23.     class_list.append(nClass)  
  24.     nClass += 1  
  25.     j = 0  
  26.     nFile = min([len(files), N])  
  27.     for file in files:  
  28.         if j > N:  
  29.             break  
  30.         starttime = time.clock()  
  31.   
  32.         fobj = open(new_folder_path+'\\'+file, 'r')  
  33.         raw = fobj.read()  
  34.         word_cut = jieba.cut(raw, cut_all=False)  
  35.         word_list = list(word_cut)  
  36.         for word in word_list:  
  37.             if word in all_words.keys():  
  38.                 all_words[word] += 1  
  39.             else:  
  40.                 all_words[word] = 0  
  41.         if j > 0.3 * nFile:  
  42.             train_set.append((word_list, class_list[i]))  
  43.         else:  
  44.             test_set.append((word_list, class_list[i]))  
  45.         j += 1  
  46.         endtime = time.clock()  
  47.         process_times.append(endtime-starttime)  
  48.   
  49.         print "Folder ",i,"-file-",j, "all_words length = ", len(all_words.keys()),\  
  50.             "process time:",(endtime-starttime)  
  51.   
  52.   
  53. print len(all_words)  
  54.   
  55. ## 根据word的词频排序  
  56. all_words_list = sorted(all_words.items(), key=lambda e:e[1], reverse=True)  
  57. word_features = []  
  58. ## 由于乱码的问题,没有正确使用 stopwords;简单去掉 前100个高频项  
  59. ## word_features 是选用的 word-词典  
  60. for t in range(10011001):  
  61.     word_features.append(all_words_list[t][0])  
  62.   
  63. def document_features(document):  
  64.     document_words = set(document)  
  65.     features = {}  
  66.     for word in word_features: ## 根据词典生成 每个document的feature True or False  
  67.         features['contains(%s)' % word] = (word in document_words)  
  68.     return features  
  69.   
  70. ## 根据每个document 分词生成的 word_list 生成 feature  
  71. train_data = [(document_features(d), c) for (d,c) in train_set]  
  72. test_data = [(document_features(d), c) for (d,c) in test_set]  
  73. print "train number:",len(train_data),"\n test number:",len(test_data)  
  74.   
  75. ## 朴素贝叶斯分类器  
  76. classifier = nltk.NaiveBayesClassifier.train(train_data)  
  77. print "test accuracy:",nltk.classify.accuracy(classifier, test_data)  
  78.   
  79. ## 处理每个文件所用的时间 可见到后面 处理单个文件的时间显著增长  
  80. ## 原因 已查明  
  81. import pylab  
  82. pylab.plot(range(len(process_times)), process_times, 'b.')  
  83. pylab.show()  
test上的正确率: 9个类别 74%


处理每个文件所用时间:

自动文本分类_第1张图片


===============================

朴素贝叶斯:From 《数据挖掘概念与技术》

自动文本分类_第2张图片


1.中文乱码问题,由于这个问题,在stopwords上简单去掉 前100个高频项 数据清洗不足

2.字典的选择上——简单以统计 所有文件词频,选用101-1100 1000个词作字典

   我觉得 字典完全可以从 数据上 学习(要比上面方法高明些),就像在图像处理中 稀疏模型 学习字典(KSVD)一样

   自然语言处理/文本处理 中也应该存在这样的方法

3.文件的特征 是[0,0,1,0,0,1,...]并不是统计每个文件的词频,

   这跟选择的分类器相关,如果选择svm等 就要对文件 生成词频特征

4.到后面(见上图),单个文件处理时间显著增长,原因待查明——已查明 if word in all_words.keys(): 改为all_words.has_key(word)


以 机器学习 的小无相功 打了一套 自然语言处理/文本挖掘 的招数

难免有些生硬  望专家指点

 

文本自动分类(续)

分类: 文本挖掘 数据挖掘 机器学习   76人阅读  评论(0)  收藏  举报

文本自动分类

关于单个文本处理时间显著增长的讨论


今天下午  

使用了 stopwords 从网上搜了下 中文停用词

并解决了 Python 中文显示/输入输出的问题 line.decode('gbk')


[python]  view plain copy
  1. __author__ = 'LiFeiteng'  
  2. # -*- coding: utf-8 -*-  
  3. import os  
  4. import  jieba  
  5. import nltk  
  6.   
  7. ## 由搜狗语料库 生成数据  
  8. folder_path = 'C:\LIFEITENG\SogouC.reduced\\Reduced'  
  9. #folder_path = 'C:\LIFEITENG\SogouC.mini\Sample'  
  10. folder_list = os.listdir(folder_path)  
  11. class_list = [] ##由于乱码等问题 仅以数字[0,1,...]来代表文件分类  
  12. nClass = 0  
  13. N = 100  #每类文件 最多取 50 个样本 70%train 30%test  
  14. train_set = []  
  15. test_set = []  
  16. all_words = {}  
  17. import time  
  18. process_times = [] ## 统计处理每个文件的时间  
  19. for i in range(len(folder_list)):  
  20.     new_folder_path = folder_path + '\\' + folder_list[i]  
  21.     files = os.listdir(new_folder_path)  
  22.     class_list.append(nClass)  
  23.     nClass += 1  
  24.     j = 0  
  25.     nFile = min([len(files), N])  
  26.     for file in files:  
  27.         if j > N:  
  28.             break  
  29.         starttime = time.clock()  
  30.   
  31.         fobj = open(new_folder_path+'\\'+file, 'r')  
  32.         raw = fobj.read()  
  33.         word_cut = jieba.cut(raw, cut_all=False)  
  34.         word_list = list(word_cut)  
  35.         for word in word_list:  
  36.             if all_words.has_key(word):#if word in all_words.keys():  
  37.                 all_words[word] += 1  
  38.             else:  
  39.                 all_words[word] = 0  
  40.         if j > 0.3 * nFile:  
  41.             train_set.append((word_list, class_list[i]))  
  42.         else:  
  43.             test_set.append((word_list, class_list[i]))  
  44.         fobj.close()  
  45.         j += 1  
  46.         endtime = time.clock()  
  47.         process_times.append(endtime-starttime)  
  48.   
  49.         print "Folder ",i,"-file-",j, "all_words length = ", len(all_words.keys()),\  
  50.             "process time:",(endtime-starttime)  
  51.   
  52.   
  53. ## 根据word的词频排序  
  54. all_words_list = sorted(all_words.items(), key=lambda e:e[1], reverse=True)  
  55.   
  56. ## 由于乱码的问题,没有正确使用 stopwords;简单去掉 前100个高频项  
  57. ## word_features 是选用的 word-词典  
  58. stopwords_file = open('stopwords_cn.txt''r')  
  59. stopwords_list = []  
  60. for line in stopwords_file.readlines():  
  61.     #print line.decode('gbk')  
  62.     stopwords_list.append(line.decode('gbk')[:-2])  
  63. #print stopwords_list  
  64.   
  65. def words_dict_no_use_stopwords(deleteN):  
  66.     #dict_name = "dict_"+str(deleteN)+".txt"  
  67.     #dict = open(dict_name, 'w')  
  68.     n = 0  
  69.     word_features = []  
  70.     for t in range(deleteN, len(all_words), 1):  
  71.             if n > 1000:  
  72.                         break  
  73.             #print all_words_list[t][0]  
  74.             #dict.writelines(str(all_words_list[t][0]))  
  75.             #dict.writelines(' ')  
  76.             n += 1  
  77.             word_features.append(all_words_list[t][0])  
  78.     return word_features  
  79.     #dict.close()  
  80.   
  81. def words_dict_use_stopwords(deleteN):  
  82.     #dict_name = "dict_stopwords_"+str(deleteN)+".txt"  
  83.     #dict = open(dict_name, 'w')  
  84.     n = 0  
  85.     word_features = []  
  86.     for t in range(deleteN, len(all_words), 1):  
  87.             if n > 1000:  
  88.                         break  
  89.             #print all_words_list[t][0]  
  90.             if all_words_list[t][0not in stopwords_list and (not all_words_list[t][0].isdigit()):  
  91.                 #dict.writelines(str(all_words_list[t][0]))  
  92.                 #dict.writelines(' ')  
  93.                 n += 1  
  94.                 word_features.append(all_words_list[t][0])  
  95.     return word_features  
  96.     #dict.close()  
  97.   
  98. def document_features(document):  
  99.     document_words = set(document)  
  100.     features = {}  
  101.     for word in word_features: ## 根据词典生成 每个document的feature True or False  
  102.         features['contains(%s)' % word] = (word in document_words)  
  103.     return features  
  104.   
  105. def TextClassification():  
  106.     ## 根据每个document 分词生成的 word_list 生成 feature  
  107.     train_data = [(document_features(d), c) for (d,c) in train_set]  
  108.     test_data = [(document_features(d), c) for (d,c) in test_set]  
  109.     print "train number:",len(train_data),"\n test number:",len(test_data)  
  110.     ## 朴素贝叶斯分类器  
  111.     classifier = nltk.NaiveBayesClassifier.train(train_data)  
  112.     test_error = nltk.classify.accuracy(classifier, test_data)  
  113.     print "test accuracy:", test_error  
  114.     return test_error  
  115.   
  116. deleteNs = range(0100020)  
  117. test_errors_no_use = []  
  118. test_errors_use = []  
  119. for n in deleteNs:  
  120.     word_features = words_dict_no_use_stopwords(n)  
  121.     test_error = TextClassification()  
  122.     test_errors_no_use.append(test_error)  
  123.   
  124.     word_features = words_dict_use_stopwords(n)  
  125.     test_error = TextClassification()  
  126.     test_errors_use.append(test_error)  
  127.   
  128.   
  129. ## 处理每个文件所用的时间 可见到后面 处理单个文件的时间显著增长  
  130. ## 原因 已查明  
  131. import pylab  
  132. plot1 = pylab.plot(deleteNs, test_errors_no_use)  
  133. plot2 = pylab.plot(deleteNs, test_errors_use)  
  134. pylab.legend(('no use stopwords''using stopwords'), 'best')  
  135. #pylab.xlabel("no using stopwords")  
  136. pylab.show()  



对数据的处理:

由于没有事先的词典dict  

我的处理方法是:把所有文档的分词结果放到一个 dictionary里面,然后根据词频从高到低 排序

由于处理每个文档的时候,就没有去除一些杂乱信息,比如标点符号,无意义的数字等

所以 在试验中 构造最终词典(固定选取1000个词)的时候 逐渐去除词典的部分高频项,观察正确率的变化

自动文本分类_第3张图片

(图像:纵轴代表分类9个文档的正确率,横轴-去除高频项的个数(0::20::1000),绿线-使用停用词的正确率)


从测试准确率图像中可以看到此举 在初期还是有显著效果的 当去除更多高频词汇的数据时 正确率又会显著下降

这跟理论分析是符合的——应该观察排序后的字典,深入到数据中去

同时也可看到 使用停用词 在前半段 争取率有不错的提升

==========================================================


1.应该在 处理每个文本的时候  应该去除一些杂乱信息 减少内存占用等

2.如果在事先有 词典的情况下 可以直接提取文本特征

3.没有词典的时候, 程序员应该自己 构造词典 甚至在大量样本中 学习词典

4.特征维数的选取 在本文中固定 1000 维,可以做做 正确率关于维数的变化

5.特别说明:因为 分类器用的是 朴素贝叶斯 所以文本特征是 [TRUE, FALSE, ...]  文本是否包含字典中词的判别

  p(feature_i | C_k) = ... 见文本自动分类 贝叶斯介绍部分

   如果是使用 SVM softmax等 那么特征应该是 词频 或者 TDIDF等




你可能感兴趣的:(Machine,learning)