Python:文本分类

计算文档d属于类别或类别c的概率的公式,表示为P(c | d)。 

我们已经将P(c | d)的标准公式(因为它在许多论文中使用)转换为数字稳定的形式。 

我们在Python中使用Naive Bayes分类器进行实现。

Python是文本分类的理想选择,因为它具有强大的字符串类和强大的方法。此外,Python的正则表达式模块为用户提供了超越其他编程语言的工具。 

唯一的缺点可能是这个Python实现没有针对效率进行调整。 


Python实现


警告:实现是在Python 3中,它与Python 2.x不兼容! 


文件表示


文档表示基于单词模型包,如下图所示: 


Python:文本分类_第1张图片

需要进口


我们的实现需要正则表达式模块re和os模块:

 
   

import re,os


BagOfWords类


Python:文本分类_第2张图片

Python:文本分类_第3张图片


文件类


Python:文本分类_第4张图片Python:文本分类_第5张图片


DocumentClass类


DocumentClass类是Document类的类。它继承自我们的Document类。


Python:文本分类_第6张图片


Pool 类


池是类,学习和保存文档类:


Python:文本分类_第7张图片

Python:文本分类_第8张图片


使用分类器


为了能够学习和测试分类器,我们将提供 “学习和测试集下载”。NaiveBayes模块由我们目前提供的代码组成,但为了方便起见,它可以下载为NaiveBayes.py 学习和测试集包含六个类别标记的(旧)笑话:“clinton”,“lawyer”,“math” ,“医疗”,“音乐”,“性”。


Python:文本分类_第9张图片



关注后回复【入群】,和大家一起学习


商务合作/文章转载/投稿

请加微信:tech_better_me

640?wx_fmt=jpeg

你可能感兴趣的:(Python:文本分类)