基于NaiveBayse SVM KNN的Python垃圾短信过滤系统(二)

Update V2.0

增大了数据量,从80条数据,60训练数据,20测试数据,到160条数据,120训练数据,40测试数据。因为数据源原因,160条数据之后不是GBK编码,无法识别,因此最多160条。
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统(二)_第1张图片
依旧可以看出各个算法对于垃圾短信系统的特点,NB时间消耗短,准确率较高,因此性价比高,SVM虽然慢,但是准确率惊人,KNN永远都不会把正常短信当成垃圾短信。
基于80条数据,60训练数据,20测试数据时,词汇表长度已经突破600+了,基于160条数据,120训练数据,40测试数据时,已经到达1100+左右的长度了,对于算法来说也是个不小的挑战。
基于NaiveBayse SVM KNN的Python垃圾短信过滤系统(二)_第2张图片
NB增长速度最慢,SVM其次,但是明显指数形式递增,KNN指数形式递增。
附Github:github.com/jerry81333/SpamSMSFiltering/

你可能感兴趣的:(Python,数据挖掘,数据挖掘基础算法)