中文垃圾邮件检测

垃圾邮件检测

github_repositories

1. 数据集以及处理

https://pan.baidu.com/s/1i4HaYTB#list/path=%2F

对文件进行merge(Merge.py), 而且由于会出现很多重复行,用uniq 进行去重。

   16207 ham_new.txt
    4702 spam_new.txt
   20909 total

这边没有进一步对进行正负样本进行调整,一方面虽然去重复,spam还有有很多相似的query,过采样明显不合适。欠采样会丢失数据。这里用了代价敏感方法。不过最后效果不明显。

2. 建模

TF-IDF

3. 分类器

LR

SVM

RandomForest

4. 结果

/Users/aprilkuo/anaconda2/bin/python2.7 /Users/aprilkuo/PycharmProjects/

你可能感兴趣的:(机器学习,NLP)