CSDN博客分类系统的分析与实现

一:爬虫爬取csdn博客各个系列的博文和标签

       在这里只给出主要代码:

      

二:对其进行词频统计,找出频率最高的N个词,写入文件(主要是为第三步分类提供训练的数据集PS:小编的训练集不是太准确,各路大神若有好的意见可以给指导指导)

      在这里简化为使用MapReduce程序统计tag

三:使用贝叶斯分类算法进行分类

        贝叶斯算法原理请参考:http://blog.csdn.net/gamer_gyt/article/details/47205371

        Python代码实现请参考:http://blog.csdn.net/gamer_gyt/article/details/47860945

        分类代码实现如下:     

   

你可能感兴趣的:(爬虫,贝叶斯算法,博客分类)