第6章 垃圾邮件识别

        垃圾邮件对于企业邮箱用户的影响首先就在于给日常办公和邮箱管理者带来额外负担。根据不完全统计,在高效的反垃圾环境下仍然有80%的用户每周需要耗费10分钟左右的时间来处理垃圾邮件。对于企业邮件服务商而言,垃圾邮件的恶意投送,还会大量占用网络资源,使得邮件服务器85%的系统资源用于处理垃圾邮件的识别,不仅资源浪费极其严重,甚至可能导致网络阻塞瘫痪,影响企业正常业务邮件的沟通。

        更严重的垃圾邮件问题甚至不仅只是影响企业工作效率,甚至会祸及整个服务器。由于企业邮箱平台往往通信质量更好,更容易为国际反垃圾邮件平台白名单所接纳,因此成为垃圾邮件投送者甚至网络黑客的重点攻击目标。通过劫持这些企业邮箱,垃圾邮件投送者就可以大大提高垃圾邮件投送率。这不仅将为企业邮箱用户造成无法预知的影响,同时还可能遭遇反垃圾邮件组织和邮件接收方的“壮士断腕”。对于那些大量垃圾邮件的投放地址,国际反垃圾邮件组织和接收方服务商将会将其加入到国际垃圾邮件数据库中,从而导致该主机不能与其他国家正常通信,严重影响企业海外业务的扩展。

        正因为垃圾邮件具有如此严重的危害。如今,国内众多中小企业都在从过去的自主建设服务、借助价格低廉的小型服务商建立邮件系统,转而将163、QQ企业邮箱这类大型专业邮件服务商作为唯一选择。大型企业往往选择自建邮件系统,为了抵御垃圾邮件侵扰,通常会使用商用的邮件安全解决方案,常见的国外厂商包括Ciso、Blue Coat、Websense、Zscaler以及McAfee。

6.1 数据集

       垃圾邮件识别使用的数据集为Enron-Spam数据集,机器学习领域使用Enron-Spam数据集来研究文档分类、词性标注、垃圾邮件识别等。

6.2 特征提取

6.2.1 词袋模型

        文本特征提取有两个非常重要的模型:

  • 词集模型,单词构成的集合,集合中仅统计单词有或者无,不关心出现的次数。
  • 词袋模型,在词集的基础上,如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。

        两者本质上的区别在于,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,词袋还要关注有几个。

6.2.2 TF-IDF模型

        TF-IDF(词频与逆向文件频率模型,term frequency-inverse document frequency)是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性与它在文件中出现的次数成正比,但同时与它在语料库中出现的频率成反比。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

        TF表示词条在文档中出现的频率。逆向文件频率(inverse document frequency, IDF),如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

6.2.3 词汇表模型

        词袋模型可以很好地表现文本由哪些单词组成,但是却无法表达出单词之间的前后关系,于是人们借鉴了词袋模型的思想,使用生成的词汇表对原有句子按照单词逐个进行编码。

6.3 模型训练与验证

6.3.1 朴素贝叶斯算法

      使用朴素贝叶斯算法特征提取使用词袋模型。

(1)将Enron-Spam数据集的文件提取词袋。

(2)随机划分为训练集和测试集。

(3)使用朴素贝叶斯算法在训练集上训练,获得模型数据。

(4)使用模型数据在测试集上进行预测。

(5)验证朴素贝叶斯算法预测效果。

6.3.2 支持向量机算法

6.3.3 深度学习算法之MLP

6.3.4 深度学习算法之CNN

6.3.5 深度学习算法之RNN

你可能感兴趣的:(深度学习)