机器学习实战之 随机森林、逻辑回归、SVM算法方法进行垃圾邮件过滤分类 代码+数据

任务描述

我们日常学习以及工作中会收到非常多的邮件,除了与学习工作相关的邮件,还会收到许多垃圾邮件,包括广告邮件、欺诈邮件等等。本任务通过邮件中包含的文本内容来判断该邮件是正常邮件(ham)还是垃圾邮件(spam),来实现自动化垃圾邮件过滤,是一种典型的文本分类任务。

如邮件“Had your mobile 11 months or more? U R entitled to Update to the latest colour mobiles with camera for Free! Call The Mobile Update Co FREE on 08002986030”,以上内容关于手机广告,属于垃圾邮件,因此需要被分到“spam”类。
  • 数据集:https://download.csdn.net/download/qq_38735017/87065565

  • 运行环境:在Python3.6.5环境下测试了本教程代码。需要的第三方模块和版本包括:

    pandas == 0.23.0
    matplotlib == 2.2.2
    scikit-learn == 0.19.1
    nltk == 3.3.0

    可以使用pip命令安装上述模块并指定版本,pip install tqdm==

你可能感兴趣的:(机器学习从入门到精通,python,开发语言,sklearn)