文章类别判断

文章分类初步思路:
一、类似机器学习阶段:
1.对输入文章进行分词,这里需要明确告诉
系统这篇文章属于哪个分类,然后对该文章进行
分词,分词需要去掉嘈杂词(常用短语、口语等),对剩下的
词放入指定的分类词组表中,表中可以包括字段:关键词、词频
2.当一类文章量达到一定量的时候,筛选出该类词组表中词频高于某一阈值的词组,作为该类文章的关键词
3.对1操作次数越多,词频统计出来更有效、更准确


二、判断阶段
对任意输入文章,按照上面1的步骤找出相关关键词字等,然后到
所有的分类的词组表中做命中匹配率统计,找出命中率较高
的那组则可判断出该文章属于该分类;

欢迎讨论.....


你可能感兴趣的:(文章类别判断)