网上关于应用机器学习的方法识别垃圾邮件文章很多.
核心思想是对邮件进行分词,或对分词作优化,进而应用各算法达到识别垃圾邮件的目的.
我的观点是, 这种思路
作者不是研究算法的,只是根据多年识别垃圾邮件的经验,认为分类的基本要素包括:
分类算法,开源的很多.
10万~100万高质量样本,只要有耐心,总能收集到.对公司来说这不是问题.
数据清理,很难.垃圾邮件发送者会想尽一切办法
特征的提取, 不仅仅是分词. 邮件或垃圾邮件有更多自己的特性,如
伪造收件人, 附件的多样性(doc,rar,jpg等), 是不是转发, 是不是往复.
有很多干扰反垃圾程序的情况…这只举几个特殊的例子.
…
除了分词,还有很多特征需要提取,下面只提几个
特征提取后, 做标记, 作为一般性的分词结果.继续应用算法.
这样才有能做好垃圾邮件识别.
在本文作者自己开发内容过滤系统中,提取了大概上百特征.
在线识别垃圾邮件
除了通用的分类方法. 在每个不同的领域,提出个性化的特征才能做好分类.这就需要对这个领域有非常深刻的了解.