垃圾邮件过滤技术发展现状及展望

作者: 石铁峰

摘要:电子邮件随着Internet的发展给人们带来了方便,但随之而来的垃圾邮件也给人们带来了不少的烦恼。针对垃圾邮件技术的发展与现状,本文对目前的垃圾邮件过滤技术进行了分析,并指出垃圾邮件过滤的发展趋势。
  关键词:垃圾邮件 邮件过滤 过滤技术
  中图分类号:TP393.098 文献标识码:A 文章编号:1007-9416(2012)05-0211-02
  1、引言
  在Internet迅速发展的今天,电子邮件在为人们提供便利的同时,随之而来的垃圾邮件也给人们带来了不少的麻烦。据统计,全球80%的邮件是垃圾邮件,电子垃圾邮件确实令人们感到很厌烦。因此, 在互联网快速发展的今天解决好电子邮件的过滤问题具有重要的现实意义。本文就目前垃圾邮件过滤技术发展现状作简要的介绍与分析, 并对未来的研究方向进行了展望。
  2、垃圾邮件过滤技术分析
  2.1 基于黑白名单的过滤技术
  黑名单是一种被广泛应用的垃圾邮件过滤技术,它采用列表的方式,将邮件服务器的IP地址、域名或者E-mail地址列入其中,通常把这种列表称为“黑名单”,当网络中的服务器收到邮件后,先到“黑名单”上去查找,如果发件人在名单中,就拒绝接受。黑名单是基于用户投诉和采样积累而建立的、由域名或IP 地址组成的数据库。这些数据库保存了频繁发送垃圾邮件的主机名字或IP地址,供邮件服务器进行查询,最后就可以决定是否拒收邮件。黑名单通常是由一些非盈利性的反垃圾邮件机构来提供的, 如中国反垃圾邮件联盟就属于这类机构。
  白名单是相对于黑名单来说。它建立的数据库的内容和黑名单的一样,但是其性质是:库中存在的都是合法的,不应该被阻断。库中的“用户”一般都会有一些可靠的联系人。这些联系人所发的邮件正常情况下都不是垃圾电子邮件。白名单技术就是根据这种现象而提出来的,当检测到与黑名单相反的用户时,将可靠的联系人的邮箱地址记载到白名单中,每当接收到这些联系人的邮件时,系统会自动将其按正常邮件处理。
  2.2 基于规则的过滤技术
  基于规则的过滤就是在邮件内容中寻找特定的模式,包括信头分析、群发过滤和关键词精确匹配等。这类方法效率较高,规则库可以共享,推广性很强。但不足之处在于规则需要用户手工创建和维护,更新速度慢,且新规则的产生速度往往跟不上新垃圾邮件出现的速度,即它的时效性较差。基于规则的过滤方法主要有Ripper、决策树(Decision Tree)和粗糙集(Rough Sets)等:
  2.2.1 Ripper
  Ripper(for Repeated Incremental Pruning to Produce Error Reduction)是William W.Cohen对IREP(Incremental Reduced Error Pruning)算法的增强实现程序。该算法可以从数据集合中得到规则集合,每条RIPPER规则由一些规则前件和结果组成,它包括了更好的剪技和停止准则以及对规则集合的后处理。该算法先学习训练集中的所有正例,不断地向一初始集为空的规则集中加入规则,形成一个正例的规则集,接着就利用所有反例把约束条件不断地加入到规则集中的关键字中,最后就根据这个包含了约束条件的规则集来做出决策。实验证明,将Ripper 方法用于垃圾邮件过滤,取得了很好的效果。
  2.2.2 决策树(Decision Tree)
  决策树是著名的规则方法之一。它的基本方法是从一组无规则的事例中推断出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树中通过对内部节点的属性值进行比较,从该节点向下分支对不同属性进行判断,在决策树的叶节点得到结论。 因此,在整棵树中从根节点到叶节点就对应着一组表达式规则。著名的决策树算法有ID3、C4.5等。使用决策树来过滤垃圾邮件取得了良好的效果。
  2.2.3 粗糙集(Rough Sets)方法
  Rough Sets理论是波兰科学家帕拉克(Z.Pawlak)于1982 年提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。粗糙集理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,善于从数据中获取知识,并能利用不确定、不完整的经验知识进行推理等,它在知识获取、规则生成、决策分析等领域获得了广泛应用。Rough Sets通常经过属性约简(消除对决策属性没有影响的属性)和属性值约简(消除对决策属性没有影响的属性值)来简化分类规则。将粗糙集方法引入到垃圾邮件过滤取得了很好的效果。
  2.3 基于规则的过滤技术
  基于规则的过滤技术首先对已分类的邮件样本进行学习, 形成相应的规则,然后再依据这些规则对邮件进行分类过滤, 同时通过学习对规则进行更新。基于规则的过滤技术是当前主要的研究方向,已有的算法包括贝叶斯过滤方法、支持向量机、Boosting 方法等。
  2.3.1 贝叶斯过滤方法
  朴素贝叶斯过滤器是垃圾邮件检测领域中的一种常见方法,在反垃圾邮件软件中得到了广泛的应用。它是一种基于规划的分类算法,通常是把垃圾邮件和正常邮件分成两种类型,通过对训练样本库的分析,提炼出各特征词在这两种邮件中分别出现的初始概率。当新的电子邮件到达的时候,首先提取出特征词,依据训练样本库中学习的概率来判断新到达的邮件分类为垃圾邮件或者正常邮件的概率。同时,也将该邮件放入训练样本库,以便不断修正初始概率。使用朴素贝叶斯过滤器,检测的准确性相当高,但是它有一种不足之处,那就是需要维护训练样本库,而这个样本库的维护工作往往是由用户来参与完成。
  2.3.2 支持向量机
  近年来,有关支持向量机(Support Vector Machine ,简称SVM)的研究在我国得到了广泛开展,它是美国统计学习理念的创始人Vapnik等提出的一种机器学习方法,它首先将训练数据集转换到一个高维空间,然后在这个高维空间中求出最优线性分类超平面,这就在输入空间产生一个最优非线性决策边界。在这个特征空间中支持向量机的分类超平面是最优的分类超平面,然后可采用线性分类器进行分类。在文本分类中,SVM是公认的较好的方法之一。将支持向量机用于英文状态下的垃圾邮件过滤,实验结果为在错纠率小于1%的限制下遗失率为2.36%,取得了较好的过滤效果。   2.3.3 Boosting方法
  Boosting方法是具有全面提高弱分类算法准确度的能力, 它首先通过对样本集的操作从而获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。前一次分类器的分类结果对每个基分类器的训练都有重要的影响,训练样本的概率分布是由基分类器在训练集上的错误率来作相应的调整,最后分类器将通过单个基分类器的加权投票建立起来。通常Boosting 方法主要用于解决两个问题:第一,如何分布每一轮循环中训练集上的样本权重,第二,如何将多个规则集成为一个有效的预测规则。实践证明,将Boosting方法引入到垃圾邮件过滤,获得了较高的性能。
  3、垃圾邮件过滤技术发展趋势
  虽然垃圾邮件的过滤技术已经取得了很大的进步,但是仍存在较高的将合法邮件误判为垃圾邮件的“错纠率”,因此,要过滤垃圾邮件,必须将两种或以上的技术合并使用, 以达到有较好的过滤效果,降低误判率。如根据目前多种过滤技术,采取对邮件服务器、网关和客户端进行一些必要的设置,使整个邮件在传输的过程中经过层层过滤,同时,一定要避免在邮件服务器系统中开放转发功能,在网关这一道重要关口中采用基于硬件的邮件过滤系统,把它安装在路由器和服务器之间,构成可靠的过滤链,当各个系统扫描进入的邮件时,将发出警报信息,并把垃圾邮件挡在网络之外,或采用清除的模式把垃圾邮件过滤掉,防垃圾邮件的最后一道防线是客户端,全面阻挡电子垃圾邮件,就要想方设法在客户端中增强过滤功能。今后开发的客户端邮件过滤器,应重点考虑用户个性化特征,能随时自动地抓捕新垃圾邮件标本,并能根据垃圾邮件标本自动进行分析与判断,从而重新建立和升级新的垃圾邮件特征代码库;也可建立自动生成新的邮件过滤规则,最终能够自动拦截各种垃圾邮件。只有设置重重关卡,才能有效地过滤垃圾邮件。随着垃圾邮件过滤技术研究的不断深入,可以发现不论是垃圾邮件的特征提取、规则生成还是检测取证、判定以及布置过滤措施,研究重点都从单项、单点的技术研究转移到了对多技术体系融合、协作式的垃圾邮件过滤体系的研究。
  4、结语
  垃圾邮件的泛滥是全世界的一个难题,虽然人们越来越重视研究过滤垃圾电子邮件技术,也推出了一些新的方法与手段, 但是狡猾的垃圾邮件制造者为谋取私利,千方百计地修改垃圾电子邮件特征,使得垃圾邮件过滤系统无法发现或检测到。因此,要把垃圾邮件阻挡在系统外,单靠垃圾邮件过滤技术手段是无法解决的,还需要有关部门的重视和参与,通过宣传或者立法的形成,利用法律手段对垃圾邮件制造者进行制裁。只有大家都自觉行动起来,利用先进的技术手段武装网络系统,以完善的管理制度和法律法规为依托,双管齐下,才能从根本上消除垃圾邮件。
  参考文献
  [1]石铁峰.支持向量机在电子邮件分类中的应用研究.计算机仿真,2011,28(8).
  [2]肖明,殷锋,张楠.垃圾邮件过滤技术及发展.西南民族大学学报,2007,33(1).
  [3]时红梅,高茂庭.垃圾邮件过滤技术及发展.计算机与数字工程,2008,(6).

你可能感兴趣的:(学习笔记)